Nieuwe uitdagingen bij integratie van databronnen

/ Auteur: Masja de Ree
© Sjoerd van der Hucht Fotografie
Samenwerking tussen universiteiten en het CBS levert veel op, onder andere op het gebied van kennisuitwisseling op academisch niveau. Daarom is het bijzonder hoogleraarschap van CBS-methodoloog prof. Ton de Waal in juli 2019 met vijf jaar verlengd. Bij de Universiteit van Tilburg richt De Waal zich op onderzoek naar de integratie van databronnen.

Het combineren van databronnen is een belangrijk onderdeel van de statistiek. De Waal: ‘Vroeger hadden we alleen de data die we bij personen en bedrijven verzamelden op basis van steekproeven. Met name de laatste tien jaar zijn daar steeds meer bronnen bijgekomen: allerlei overheidsregisters maar ook big data. Denk bijvoorbeeld aan internetdata of data over het wegvervoer. De vraag hoe je al die bronnen samenvoegt en er een goede statistiek van maakt, is dus urgent. Want het lijkt eenvoudig, maar bij het samenvoegen van databronnen kunnen allerlei problemen ontstaan.’

Meetfouten

Een probleem dat regelmatig voorkomt, is dat data uit verschillende bronnen elkaar tegenspreken. Dan is een persoon in de ene bron bijvoorbeeld docent en in de andere bron werkloos. Een van de PhD-studenten van De Waal deed daarom onderzoek naar een methode om in zo’n situatie een goede schatting te maken van de werkelijke waarde. ‘Op dit moment bekijken we hoe we die nieuwe methode kunnen toepassen in de praktijk van het CBS.’ Ook op geaggregeerd niveau kunnen dergelijke problemen ontstaan. De Waal: ‘Stel je kijkt naar de totale omzet in een bepaalde bedrijfstak. Dan kan het zijn dat de ene bron een andere uitkomst geeft dan de andere. Hoe meer bronnen je gebruikt, hoe vaker je zo’n afwijking ziet.’ Ook naar dit probleem is in de afgelopen vijf jaar met succes PhD-onderzoek gedaan. ‘Mijn collega Jacco Daalmans heeft een wiskundige methode ontwikkeld voor het automatisch inpassen van gegevens voor de officiële statistiek. Die methode wordt inmiddels toegepast in de praktijk.’

Stap vooruit

Naast twee PhD-studenten begeleidde De Waal in de afgelopen vijf jaar tientallen masterstudenten. Zij deden onderzoek op veel verschillende gebieden. De Waal: ‘Bij het CBS willen we bijvoorbeeld graag ook bronnen kunnen combineren die over twee verschillende groepen mensen gaan: dan weten we van de ene groep bijvoorbeeld het opleidingsniveau en van de andere groep het beroep. We zijn op zoek naar een methode om die bronnen zo te combineren dat het een betrouwbaar resultaat oplevert. Dat zou een grote stap vooruit zijn voor het CBS. Zover is het echter nog niet, we zitten nu nog in de onderzoeksfase.’

Een probleem dat vaker voorkomt, is dat data uit verschillende bronnen elkaar tegenspreken

 

Nog meer databronnen inzetten

De ambitie van De Waal bij aanvang van zijn hoogleraarschap was geavanceerde statistische methoden te ontwikkelen om uit verschillende databronnen een samenhangend geheel te maken. Is die ambitie geslaagd? ‘Deels’, zegt hij. ‘Ik heb heel veel studenten kunnen begeleiden en we hebben als CBS onze kennis kunnen vergroten. Onderzoek levert echter steeds weer nieuwe vragen op. Hoe meer je onderzoekt, hoe meer je beseft: ik weet eigenlijk heel weinig.’ De komende vijf jaar kan De Waal dan ook zeker vooruit. ‘We gaan het accent in ons onderzoek iets verleggen en maken het wat breder. Eerst keken we vooral naar meetfouten bij het combineren van bronnen. Nu komen ook bijvoorbeeld koppel- of dekkingsproblemen aan bod. Daarnaast gaan we kijken naar de selectiviteit bij databronnen. Stel je wilt data van Twitter gebruiken voor een statistiek. Dan heb je een onderzoeksgroep die niet representatief is voor de gehele bevolking: bepaalde groepen zijn over- of ondervertegenwoordigd. We hopen een methode te ontwikkelen die daarvoor corrigeert en die iets zegt over de betrouwbaarheid. De hoop is dat we daarmee nog meer databronnen kunnen inzetten voor de statistiek.’

Kennis overbrengen

De Waal is blij met zijn herbenoeming: ‘Bij de universiteit is heel veel kennis aanwezig. Via mij en de PhD’s en studenten die ik begeleid, komt die kennis heel gemakkelijk het CBS binnen. Ik ben in de gelukkige situatie dat ik mijn werk bij het CBS goed kan combineren met mijn werkzaamheden bij de universiteit. Veel projecten sluiten op elkaar aan, waardoor de zaken die ik doe bij het CBS en de universiteiten elkaar versterken.’

Curriculum vitae van Ton de Waal
Prof. Ton de Waal werd op 6 maart 2014 bij de Universiteit van Tilburg geïnaugureerd als bijzonder hoogleraar met de leerstoel ‘Methodologie voor de officiële statistiek, in het bijzonder met betrekking tot integratie van databronnen’. In juli 2019 werd deze benoeming met vijf jaar verlengd. Het CBS bekostigt de leerstoel.