Data camp over Big Data levert verrassende resultaten op

/ Auteur: Gert Jan Wijma
Gegevens van websites, informatie afkomstig van detectielussen in de weg en grote hoeveelheden tweets. Welke Big Data zijn interessant voor CBS? Hoe snel kun je conclusies trekken uit grote hoeveelheden data? Welke kennis, vaardigheden en programma’s heb je nodig  om aan de slag te kunnen met Big Data? Die vragen stonden centraal tijdens het Data camp dat CBS eind november organiseerde in samenwerking met Universiteit Twente (UT). ‘Het Data camp was zo’n succes dat we hebben besloten om het twee keer per jaar te organiseren.’

Piet Daas is senior methodoloog en projectleider op het gebied van Big Data onderzoek bij CBS. Hij is ook één van de organisatoren van het Data camp, dat van 23 tot en met 27 november plaatsvond bij de Twentse Universiteit. ‘Binnen CBS is het streven om steeds meer medewerkers kennis te laten maken met Big Data. Dat vergt wel een speciale aanpak. Naast de vraag welke gegevens uit Big Data interessant zijn voor CBS moeten medewerkers ook de kennis, vaardigheden en computers hebben om te ontdekken óf er iets interessants tussen zit. Die ingrediënten waren tijdens het Data camp met de UT allemaal aanwezig.’

Snelle indicator

Tijdens het Data camp werden medewerkers van CBS gekoppeld aan PhD-studenten van de UT. In het eerste deel van het camp deelden betrokkenen kennis en vaardigheden. Daarna gingen de deelnemers in groepjes van twee aan de slag met concrete vraagstukken. Daas: ‘Ik was verrast te zien hoe snel men in staat was in een korte periode de techniek eigen te maken om grote hoeveelheden data te bestuderen. Zo hebben we ontdekt dat de correlatie tussen het Binnenlands Bruto Product (BBP) en het aantal voertuigen op de Nederlandse rijkswegen heel erg hoog is. Dus als je de verkeersdrukte vergelijkt met BBP-kwartaalcijfers zie je dat die samenlopen. Je hebt daarmee een hele snelle indicator die je aan de conjunctuurklok (een hulpmiddel voor het bepalen van de stand en het verloop van de Nederlandse conjunctuur, red.) kunt toevoegen.’  

Maatschappelijke relevante data

Ook Robin Aly kijkt met enthousiasme terug op de casus over het wegverkeer. Hij is assistent-professor Datamanagement aan de TU en mede organisator van het Data camp. ‘Ik had nooit gedacht dat je gegevens van voertuigen op de weg kunt gebruiken als indicator voor het BBP. Het toont aan dat je in een korte tijd hele goede resultaten kunt bereiken als je over grote hoeveelheden data beschikt.’  Hij vindt het belangrijk om met CBS samen te werken. ‘Als wetenschapper is het van belang dat je aan de slag kunt met data uit de praktijk en gegevens die maatschappelijk relevant zijn. CBS kan die data leveren en wij leren van CBS welke data en datastromen interessant zijn. Daar  profiteren wij van.’

Data van Twitter

Nynke Krol is statistisch onderzoeker bij CBS.  Ze houdt zich vooral bezig met het Stelsel van Sociaal statistische Bestanden (SSB). Samen met een student van de UT ging ze aan de slag met data afkomstig van Twitter.  ‘We zijn met behulp van ‘text mining’ in Engelstalige tweets die vanuit Nederland zijn verstuurd op zoek gegaan naar verwijzingen naar toeristische locaties. De uitkomsten hebben we geanalyseerd en in een kaartje weergegeven. Door woorden te projecteren op een kaart kun je zien wat waar populair is. Zo zagen we in gegevens over Amsterdam in de zomer het woord ‘Leidseplein’ en in de winter ‘Van Goghmuseum’ veel op duiken.’

De motivatie en betrokkenheid van de deelnemers aan het Data camp was groot

Scheepvaartverkeer

Robin Aly heeft de smaak van het Data camp te pakken: ‘Wij gaan verder werken aan de vraagstukken waar we ons tijdens het Data camp op gestort hebben. Zo gaan we onderzoeken of we de ervaring die we hebben opgedaan met de data van het wegverkeer ook kunnen gebruiken voor de internationale scheepvaart, bijvoorbeeld of we op basis van scheepvaartverkeer iets kunnen zeggen over in- en export.’ Ook Krol is nog niet klaar met het Data camp. ‘Ik heb met mijn teamgenoot afgesproken dat we op korte termijn verder gaan kijken welke informatie we nog meer kunnen halen uit de twitterdata die we hebben onderzocht.’

Motivatie en betrokkenheid

Volgens Daas was de sfeer tijdens het Data camp uitstekend. ‘We werkten samen aan één gezamenlijk doel. De teams waren erg enthousiast. Sommige teamleden waren al vroeg in de ochtend aan het werk, nog voordat de deuren van de zaal open gingen. Vaak werd ook tot ’s avonds laat doorgewerkt. De motivatie en betrokkenheid van de deelnemers was groot. Het Data camp was zo’n succes dat we hebben besloten om het twee keer per jaar te organiseren.’

CBS en Universiteit Twente tekenen samenwerkingsovereenkomst

Tijdens de laatste dag van het Data camp ondertekenden directeur-generaal Tjark Tjin-A-Tsoi (namens CBS) en CvB-voorzitter Victor van der Chijs (namens de Universiteit Twente) een samenwerkingsovereenkomst. De samenwerking is gericht op innovatie van sociaal-wetenschappelijk onderzoek. CBS biedt onderzoekers aan de UT een enorme bron aan informatie over de Nederlandse samenleving. Tegelijkertijd krijgt CBS de mogelijkheid om vanuit nieuwe wetenschappelijke invalshoeken nog beter gebruik te maken van Big Data en deze inzichtelijker maken voor onder meer de overheid, het bedrijfsleven en het brede publiek.