Eerste statistiek op basis van Big Data gelanceerd

CBS heeft vandaag voor het eerst een volledig op Big Data gebaseerde statistiek gelanceerd. Het is daarmee het eerste statistiekbureau dat officiële verkeersstatistieken maakt met gebruik van Big Data. Groot voordeel daarvan is dat de uitkomsten sneller, actueler en gedetailleerder zijn. Daarnaast neemt de betrouwbaarheid toe.

De statistiek van de verkeersintensiteiten is gebaseerd op alle voertuigtellingen die gedurende de periode 2011-2014 per minuut door ruim 20.000 verkeerslussen op de Nederlandse Rijkswegen zijn verzameld door de Nationale Databank Wegverkeergegevens (NDW). Marco Puts, Piet Daas en Martijn Tennekes waren als methodologen van CBS nauw betrokken bij het onderzoek. Zij vertellen meer over deze innovatieve manier van statistiek maken.

Actueler en betrouwbaarder

CBS houdt zich al enige tijd bezig met onderzoek naar Big Data. Daarvoor is een aantal redenen. Met Big Data komen de cijfers sneller beschikbaar, kan meer ingespeeld worden op de actualiteit, hebben de cijfers een hoger detailniveau en neemt daarmee de betrouwbaarheid toe. De statistiek over verkeersintensiteiten is de eerste die is gemaakt aan de hand van Big Data. Puts: ‘We zijn in 2013 gestart. De keuze viel op deze statistiek, omdat bij deze data privacygevoeligheid geen rol speelt.’

Veel ruis

Daas vertelt dat werken met Big Data een heel andere manier van statistiek maken vergt. Daarvoor zijn twee redenen. ‘Ten eerste zijn Big Data ‘vervuilde’ data. Dit komt vooral omdat Big Data niet specifiek voor CBS-doeleinden zijn verzameld. Ook zijn de data niet heel overzichtelijk beheerd en gecontroleerd. Dat betekent dat er in Big Data veel ruis zit. We hebben daarom via speciale technieken de grote hoeveelheden verstorende data er uitgefilterd.’

Enorme hoeveelheid data

De tweede reden waarom werken met Big Data heel anders is dan de traditionele manier van data verzamelen, hangt samen met de enorme hoeveelheid gegevens die binnen gehaald moeten worden. Daas: ‘CBS heeft voor deze statistiek alle tellingen van alle verkeerslussen op alle dagen in de jaren 2011 tot en met 2014 binnengekregen. Een enorme hoeveelheid: in totaal meer dan 115 miljard metingen met een omvang van 80 terabyte en meer dan 7 keer de hoeveelheid data die CBS voorheen per jaar verwerkte. Het rekencentrum van CBS was hier nog niet geschikt voor. Daarom hebben we de data bij externe rekencentra geplaatst.’

Filter

Puts vertelt dat met een heel snel en nauwkeurig werkend filter alle tellingen zijn gecontroleerd en gecorrigeerd. ‘Dat was een klus die veel tijd in beslag nam, want door storingen en andere technische oorzaken leverden de verkeerslussen soms geen gegevens. Daardoor waren er ontbrekende data in de telling. Die moesten gecorrigeerd worden. Daarna hebben we de resultaten uiterst zorgvuldig gecontroleerd. Door deze aanpak is het gelukt om van de ruwe en ‘vuile’ Big Bata ‘schone’ en bruikbare statistische data te maken.’

Ambities

De drie methodologen zijn er trots op dat het is gelukt om de eerste statistiek op basis van Big Data te maken. Wat zijn de ambities voor de toekomst? ‘Wat de verkeerslussen betreft, willen we vanaf volgend jaar maandelijks gegevens publiceren’, aldus Puts. Tennekes vervolgt: ‘Een ander Big Data project richt zich op mobiele telefoniedata. De eerste statistiek die daarop gebaseerd zal zijn is de daytime population. Daarbij wordt geschat hoeveel mensen er op een willekeurig moment in iedere gemeente zijn, bijvoorbeeld te gebruiken in crisissituaties. Ook proberen we met deze data toerismecijfers te verbeteren’ Begin volgend jaar hoopt CBS met de eerste resultaten te komen.