Promoveren op data van CBS

27-1-2016 12:00 / Auteur: Masja de Ree / Fotografie: Sjoerd van der Hucht / Categorie: Projecten
CBS en de universiteiten werken steeds vaker nauw samen op het gebied van bijzondere leerstoelen, het gebruik van statistische data, detachering van medewerkers en stages. Daarnaast biedt CBS PhD-studenten de mogelijkheid onderzoek te doen met data van CBS. Laura Boeschoten is één van hen en vertelt over haar ervaringen.

Databronnen combineren

Boeschoten doet onderzoek naar een probleem dat kan ontstaan als voor statistieken verschillende databronnen worden gecombineerd. Zij promoveert bij de Universiteit van Tilburg en maakt gebruik van de data van CBS. Boeschoten: ‘Ik bestudeer een probleem, dat ze hier bij CBS in de praktijk tegenkomen.’ CBS gebruikt voor zijn statistieken verschillende datasets en die datasets worden steeds vaker gecombineerd. Denk aan data van de Belastingdienst en data afkomstig van enquêtes onder een deel van de bevolking. ‘Dan kan het gebeuren dat de verdeling van één variabele – bijvoorbeeld geslacht – in de verschillende datasets niet overeenkomt. In de ene dataset is bijvoorbeeld 47 procent man, en in de andere dataset 51 procent. Het doel is om in dergelijke situaties tot één cijfer te komen.’

Eén cijfer van hoge kwaliteit

Om dit probleem op te lossen combineert Boeschoten twee statistische technieken: ‘multipele imputatie’ en ‘latente-klasse-analyse’. ‘Het komt erop neer dat we drie kolommen naast elkaar zetten: het percentage mannen uit de ene dataset, het percentage mannen uit de andere dataset én het werkelijke percentage, dat we moeten berekenen. De eerste twee kolommen bevatten mogelijk meetfouten. Zo kunnen registers typefouten bevatten en op vragenlijsten geven respondenten niet altijd consequent antwoord. Door de waarschijnlijkheid van de metingen in de eerste twee kolommen vast te stellen, kunnen we ook de derde kolom berekenen. Dan heb je dus één ‘echte’ variabele waarmee je verder kunt in je onderzoek. Voor beleidsmakers is dit belangrijk: zij willen hun beleid baseren op één cijfer en dat moet van hoge kwaliteit zijn.’

Achtergrondkenmerken

Om de waarschijnlijkheid van de metingen vast te stellen, houdt het model van Boeschoten rekening met achtergrondkenmerken zoals sportgedrag en zwangerschap. Mannen boksen bijvoorbeeld vaker dan vrouwen, terwijl alleen vrouwen zwanger kunnen zijn. De methode die Boeschoten gebruikt, is inmiddels definitief gereed. Als volgende stap gaat ze de methode toepassen op verschillende datasets van CBS. ‘Overal waar je databronnen met gemeenschappelijke variabelen combineert, kun je deze methode gebruiken.’

Leren van de praktijk

Boeschoten werkt één dag per week bij CBS. Een van haar promotoren is Ton de Waal, senior methodoloog bij CBS en bijzonder hoogleraar in Tilburg. ‘De sfeer is heel anders dan op de universiteit. Door de flexibele werkplekken bijvoorbeeld. Ik vind het heel leuk om in zo’n totaal andere omgeving te werken. CBS is een grote organisatie. Het duurde dus wel even voor ik door had hoe die in elkaar zit, maar ik heb er al veel geleerd.’