Statistieken innoveren met datachallenges

/ Auteur: Sjoertje Vos
Mensen op de fiets onderweg naar hun werk
© Hollandse Hoogte
Eind vorig jaar vond online de tweede editie plaats van de Big Data Meets Survey Science conferentie: de BigSurv20. De Universiteit Utrecht was de organisator van het congres, in samenwerking met het CBS. Vier teams streden om de prijs voor de beste oplossing van een datavraagstuk uit de praktijk. Het winnende team wist met GPS-data beweegredenen voor verplaatsingen van personen te voorzien. Komend jaar wordt de toepassing hiervan verder onderzocht voor het onderzoek Verplaatsingen van het CBS en Rijkswaterstaat.

Grote meerwaarde

De BigSurv-conferentie gaat over het verbeteren van vragenlijstonderzoek met technieken uit de computerwetenschap en big data. De eerste editie vond plaats in 2018 in Barcelona. In 2020 lag het initiatief voor de organisatie bij de Universiteit Utrecht en het CBS. ‘Het doel van de online conferentie was onderzoekers uit verschillende vakgebieden bij elkaar te brengen’, vertelt Peter Lugtig, universitair docent Methodologie en Statistiek aan de Universiteit Utrecht. ‘Onderzoekers uit de sociale wetenschappen, economie en officiële statistiek zijn bedreven in het evalueren van datakwaliteit. Zij houden zich bezig met meet- en selectiefouten en non-respons. Computer scientists zijn gespecialiseerd op het gebied van data science en machine learning. We geloven dat de kruisbestuiving tussen deze vakgebieden grote meerwaarde heeft.’

Datafusie

Het online congres duurde vijf weken. Dankzij sponsoren was de conferentie gratis te bezoeken, waardoor ook studenten en kandidaten uit ontwikkelingslanden konden deelnemen. Zo’n 1800 personen schreven zich in. Zij konden ruim 200 presentaties volgen. Lugtig: ‘Die gingen over onderwerpen als tekst-, beeld- en sensordata; optimaliseren van dataverzamelingsprocessen met machine learning; ethiek en privacy en datafusie. Dat laatste is het combineren van traditionele vragenlijstdata met nieuwe databronnen, bijvoorbeeld Twitterdata. Die transitie van traditioneel vragenlijstonderzoek met steekproeven naar zoveel mogelijk gebruik van bestaande databronnen, is een van de grootste uitdagingen voor de wetenschap in het algemeen en officiële statistiek in het bijzonder.’

Barry Schouten is organisator van de BigSurv20 datachallenge

Datachallenge

Deelnemers aan het congres konden zich ook inschrijven voor de big datachallenge. ‘Deze werd georganiseerd door het CBS’, vertelt Barry Schouten. Hij is senior methodoloog bij het CBS en hoogleraar Innovatie survey waarneming aan de Universiteit Utrecht. ‘We selecteerden vier data-vraagstukken uit de praktijk van verschillende instanties. De vernieuwing van het Budget Onderzoek voor het Europese statistiekbureau Eurostat; het onderzoek Verplaatsingen van het CBS en Rijkswaterstaat; de meting van het verschil tussen competenties van werkzoekenden en vacatures voor de arbeidsmarktstatistieken van het CBS; en de meting van eventuele corona-effecten op de keuze van een studie voor Studiekeuze123. Vier teams gingen gedurende één maand aan de slag met een van deze vraagstukken. Ze kregen begeleiding van de projectleiders en onderzoekers van de betreffende instanties. Dat leverde mooie resultaten op.’

GPS-data verrijken

De winnaar van de datachallenge was het team ‘Travel Escape’. Zij onderzochten de vernieuwing van het onderzoek Verplaatsingen van het CBS en Rijkswaterstaat. Qixiang Fang, promovendus aan de Universiteit Utrecht, was één van de vier kandidaten. De andere leden waren onderzoekers uit Nederland, Duitsland en India. ‘Ons datavraagstuk was met GPS-data beweegredenen voor verplaatsingen te voorzien. Dus bijvoorbeeld of mensen naar het werk gingen, vrienden bezochten, of gingen winkelen. Dat was geen gemakkelijke taak’, aldus Fang. ‘We hebben de GPS-data verrijkt met verschillende gegevens, zoals de afstanden tot nabijgelegen winkels, bedrijven en scholen, informatie over het weer en weersvoorspellingen en tijdsvariabelen zoals dag van de week en uur van de dag. Daar lieten we machine learning modellen op los. Dat leidde tot accurate voorspellingen van de motieven. Daarnaast ontwikkelden we een web applicatie waarmee gebruikers de voorspelde motieven zouden kunnen controleren.’ Fang en zijn team presenteerden hun idee in de afsluitende sessie van de BigSurv20-conferentie en wonnen de eerste prijs.

Webscraping op LinkedIn

Schouten is zeer te spreken over de uitkomst van de datachallenge: ‘Dit winnende team heeft overtuigend laten zien dat het mogelijk is beweegredenen voor verplaatsing met GPS-data te kunnen voorzien. We gaan dan ook verder onderzoeken of het mogelijk is deze methodiek daadwerkelijk te implementeren in het Onderzoek Verplaatsingen. Ook de oplossing van het team dat de tweede plaats bereikte, krijgt een vervolg. Zij gebruikten webscraping op LinkedIn en vacaturesites om de gevraagde competenties in vacatures te vergelijken met de vaardigheden van mensen op de arbeidsmarkt. Omdat de informatie op LinkedIn gedeeltelijk afgeschermd is, gaan we een variant uitproberen waarbij mensen zelf hun data kunnen doneren.’

Geïnteresseerd in de presentaties van BigSurv20? Deze zijn te bekijken op: www.bigsurv20.org