Skrevet av Petter Arnesen og Andreas Dypvik Landmark
Mobildata har i det siste blitt brukt i stor skala for å vurdere og evaluere tiltak mot spredning av koronaviruset.
Kan vi transportforskere også få ny innsikt fra folks mobiltelefoner? Sammen med Ruter har vi sett nærmere på nytteverdien og begrensningene ved denne datakilden.
Dette mener vi med mobildata
Med mobildata mener vi her en spesiell type uttrekk fra mobiltelefonoperatørenes logger over bruk av mobilnettet, som kan vise posisjon for en ukjent mengde telefoner. Dette er noe helt annet enn apper og reklamenettverk som lagrer GPS-posisjonen din og deler, med eller uten ditt samtykke.
Mobildata kjøpt fra en leverandør i Norge er underlagt kontroll og krav om anonymisering for å være innenfor loven – kjøp og salg av data fra apper slik det framstilles i saken fra NRK, neppe vil være lovlig i Norge.
I to prosjekter har SINTEF samarbeidet med Ruter i Oslo for å undersøke nytten og begrensningene til denne datakilden, ved å sammenligne dataene med data fra andre kjente kilder som reisevaneundersøkelser, passasjertellinger fra kollektivtrafikken, trafikktellinger m.m. Vi har sett spesielt på de dataene man kan kjøpe fra mobiloperatørene, ettersom det er disse Ruter og andre aktører må forholde seg til. En rekke ulike tjenester for disse dataene tilbys, med en tilsvarende rekke begrensninger. Eksempler på slike tjenester er telling av antall mobiltelefoner i en sone, antall reisende mobiltelefoner mellom to soner og «Hvor var de mobiltelefonene som befinner seg her i dag, i går?».
Transportanalytikerens viktigste redskap
OD-matriser (OriginDestination-matriser) er av mange ansett som transportanalytikerens viktigste redskap. Dette er kort og godt en oversikt over hvor mange som reiser fra ett sted til et annet. For å få frem en OD-matrise så må man enten spørre folk hvor de har reist (intervju/spørreundersøkelse), kjøre transportmodeller – eller finne datakilder som mobildata, som kan fortelle oss hvordan folk faktisk flytter seg rundt.
Utilgjengelig og vanskelig å forstå
Ved første øyekast kan mobildata se ut som en gullgruve for en transportanalytiker. Denne kilden til informasjon har derimot ikke tatt av enda, og gjennom vårt arbeid har det etter hvert blitt klart at tilgjengeligheten og forståelsen av denne datakilden ikke er optimal for den kildekritiske og overgjennomsnittlig dyktige transportanalytiker. Dette til tross for stort fokus og økende innsalg fra mobiloperatørene. Spesielt er det tre punkter som skaper utfordringer og hemmer bruken:
1) Detaljeringsgrad vs. stort nok datagrunnlag
For å kunne selge disse dataene må de anonymiseres i tilstrekkelig grad, heldigvis. Dette gjøres ved at et gitt antall personer må ha nøyaktig samme reisemønster i datasettet, hvis ikke filtreres reisene ut. Metoden som brukes, kalles “k-anonymitet”, altså må k antall personer ha helt like mønstre for at mønsteret skal få være med i datasettet og ikke sensureres bort.
OD-matrisene bestemmes ved å angi fra-til-soner over gitte tidsrom, og det er stort sett opp til den som bestiller dataene å definere hvilke geografiske soner og tidsvinduer man skal bruke. Her må altså bestiller ha en god formening om hva svaret blir for å stille det rette spørsmålet, altså vite at det er mange nok reiser mellom bestemte soner innenfor et gitt tidsrom, for at reisene ikke skal bli sensurert fra datasettet.
Her må man sjonglere ønsket om detaljerte nok data til å kunne dykke ned i detaljer med ønsket om å ikke miste for mye av datagrunnlaget. Skulle det oppstå en ny problemstilling som følge av de første analysene, som krever en annen oppløsning på soner og tid, ja da må man bestille nye data. Her må man altså unngå det klassiske ønsket om å få med alt på første forsøk, for da løper man faren at man får ingenting!
2) Hva er en reise?
I transportfagene regnes en reise som avsluttet når man har oppnådd reisens formål. For eksempel vil en relativt vanlig reise til jobb, via barnehagen, telles som to reiser – én for å levere i barnehagen og en for å komme seg på jobb. Likedan når du stopper på butikken for å handle middag på vei hjem: én reise til butikk, én fra butikken og hjem – selv om du sykler begge etappene.
Ved bruk av mobildata har man ingen mulighet til å fange formålet med reisen. Her defineres reisen som avsluttet dersom man har oppholdt seg i et område over en bestemt tid. Det gir åpenbart andre “reiser” enn de transportforskerne vanligvis teller. I teamet har vi diskutert hyppig hvor effektivt man kan levere i barnehagen – for at det ikke skal telle som en ny reise. Disse ulike reisedefinisjonene må hensyntas når man sammenligner mobildata med tradisjonelle kilder som reisevaneundersøkelser.
3) Kan vi stole på dataene?
Hvordan er disse dataene egentlig frembrakt? Kan vi stole på reisene vi får og hvor stor er usikkerheten? Siden det kun er mobiloperatørene, og et fåtall ansatte hos disse, som har full tilgang, innsikt og mulighet til å prosessere dataene, er det få som kjenner utfordringene, usikkerhetene og hvor presise de er i ulike tilfeller. Å vurdere om disse dataene er til å stole på, er en vanskelig øvelse og man er langt på vei prisgitt dataleverandørens egne vurderinger rundt dette.
Sannheten er også at man egentlig ikke har så gode data å gjøre disse vurderingene med. Noe av årsaken til at man leter etter nye kilder til reiseanalyser er at de tradisjonelle metodene heller ikke er uten ulemper.
- Spørreundersøkelser, på telefon og nett, har over tid fallende antall respondenter og man mistenker at man mister viktig informasjon hos de som ikke svarer.
- Billettsalg, viser kun de som løser billett og reiser kollektivt.
- Veitellinger, viser antall kjøretøy og ikke antall reisende – og heller ingenting om hvor de reiser til/fra.
Så når en skal vurdere kvaliteten på dataen, må man ta høyde både for dette, og at definisjonen på tid/geografi og hva en reise er – varierer i kildene. Så hva gjør man da?
Vanskelig å stille rett spørsmål
Ut ifra prosjektene med Ruter har vi kommet til følgende konklusjoner:
- Å bruke mobildata til å undersøke/understøtte relative endringer i reisemønstre har en verdi. Ved sammenligning med andre kilder ser vi at ofte at hovedtrendene stemmer bra (for eksempel rush og ikke-rush), mens det kan være store forskjeller i absolutte verdier.
- Mobildata representerer den datakilden der absolutte reisetall telles mest direkte, kun oppskalering fra markedsandel(er) for mobilabonnement benyttes.
- Det er svært komplisert å sammenligne tellinger fra mobildata med mer tradisjonelle datakilder som reisevaneundersøkelser og kundetilfredshetsundersøkelser, primært på grunn av ulike definisjoner av en reise.
- Å bestille mobildata krever mye innsikt i konkrete problemer man skal undersøke. To ulike problemstillinger vil i de alle fleste tilfeller kreve to separate bestillinger. Ved bestilling av f.eks. OD-matriser vil det påløpe en betydelig sum penger, som gjør at behovet for å ikke bestille feil forsterkes ytterligere. Det er ofte et ønske om å få “mest mulig” inn i samme forespørsel for å godtgjøre prisen, med den risikoen at man får “dårligere svar på samtlige spørsmål”.
Om denne datakilden virkelig skal slå igjennom innenfor transportsektoren, må ikke bare algoritmene og tjenestetilbudet fra mobiloperatørene utvikles videre, men forståelsen og forankringen hos transportanalytikerne må også økes.
Les hele notatet og annet relevant arbeid:
Use of mobile phone data for analysis of number of train travellers
Approaches, technologies and importance of analysis of the number of train travellers
Mobiltelefondata – en potensiell datakilde i evaluering av jernbaneutbygginger?
Kommentarer
Ingen kommentarer enda. Vær den første til å kommentere!