Veelbelovend nieuw tijdperk met nieuwe databronnen

Kees van Berkel, senior statistisch onderzoeker bij het CBS tijdens zijn inaugurele rede als bijzonder lector Statistiek en Data Science aan Zuyd Hogeschool.
© CBS
Een mix van klassiek en modern. Een combinatie van een methodiek die al decennia haar waarde bewijst en relatief nieuwe bronnen waarvan de precieze waarde nog moet worden onderbouwd. Samenspel van de kanssteekproef en nieuwe digitale databronnen luidt een nieuw tijdperk in de statistiek in, aldus Kees van Berkel, senior statistisch onderzoeker bij het CBS. Hij sprak hierover tijdens zijn inaugurele rede als bijzonder lector Statistiek en Data Science aan Zuyd Hogeschool. ‘Ik verwacht dat deze een mix van statistieken kan opleveren die op bepaalde thema’s zeer exact en specifiek zullen zijn en nog meer details bevatten.’
We leven in het digitale tijdperk met veel nieuwe bronnen. We plaatsen berichten op sociale media, laten reviews achter op webshops, delen online ervaringen over horecagelegenheden en vakanties, en ga zo maar door. ‘De vraag is: mogen en kunnen statistici iets met deze enorme hoeveelheden data?’, zegt Van Berkel. ‘Wereldwijd zijn statistische bureaus bezig met deze uitdaging. Ook het CBS doet veel onderzoek, de mogelijkheden lijken enorm te zijn.’
In de ideale situatie worden straks statistieken gemaakt op basis van digitale data én een al decennia beproefde methode: de kanssteekproef.
Aan Zuyd Hogeschool doceert hij statistiek en data science aan studenten van de Academie voor Financieel Management. Ook verricht hij er onderzoek. Van Berkel is voor één dag per week verbonden aan de kennisinstelling. ‘Het is van groot belang voor de kwaliteit van ons werk dat kennis van het CBS gevoed wordt door o.a. hogescholen en andersom.’

Geschiedenis

Voor een blik in een kansrijke toekomst is het nodig eerst terug te kijken. Van Berkel gaf daarom in zijn rede een korte geschiedenisles over de kanssteekproef. ‘Vóór 1895 werden officiële statistieken uitsluitend gebaseerd op volkstellingen. Namens de overheid bezochten ambtenaren alle huishoudens in een land om gegevens te verzamelen. Dat kostte veel tijd en was duur. Een idee van Anders Kiær, directeur van het Centraal Bureau voor de Statistiek in Noorwegen, bracht hierin verandering. Zijn gedachte: met behulp van een zogeheten miniatuur van de bevolking kun je ook valide uitspraken doen over de hele bevolking. Miniatuur betekent dat je de bevolking in het klein probeert weer te geven. Als je een deel van de bevolking zorgvuldig kiest, zodanig dat het alle belangrijke kenmerken van het geheel weerspiegelt, kun je op basis van dat deel betrouwbare uitspraken doen over het geheel. Dit was de voorloper van de kanssteekproef.’

Opmars

In 1952 raakten statistici wereldwijd het eens met elkaar: de kanssteekproef was methodologisch voldoende onderbouwd om volop te worden toegepast. Het was het begin van een opmars die veel heeft gebracht. Voor het CBS is deze methodologie bijvoorbeeld het vertrekpunt van de Enquête beroepsbevolking, de Veiligheidsmonitor, de Gezondheidsenquête, het Woononderzoek Nederland en het Consumenten Conjunctuuronderzoek. Van Berkel: ‘Een belangrijke voorwaarde voor een kanssteekproef is dat iedereen in de bevolking een bekende positieve kans heeft om in de steekproef terecht te komen.’

Op peil houden

De kanssteekproef mag dan zijn uitgegroeid tot een cruciale statistische methode, soms klinken dezelfde kritiekpuntjes als in de negentiende eeuw bij de volkstelling. Het kost relatief veel tijd en is kostbaar, mede omdat het een uitdaging is genoeg respons en respons van voldoende kwaliteit te krijgen. Van Berkel: ‘Tegenwoordig vragen we burgers online een vragenlijst in te vullen. Gemiddeld doet twintig tot dertig procent dat. Op zich is dat een mooie score, maar vaak is het te weinig voor betrouwbare statistiek. Mensen die niet hebben gereageerd, worden daarom gebeld door het CBS of krijgen iemand van ons op bezoek. Daarmee houden we de respons op peil.’

Verrijken

Digitale data kunnen hopelijk uitkomst bieden om moeite en uitgaven te beperken. Sterker, digitale data kunnen waarschijnlijk gegevens uit kanssteekproeven verrijken. Van Berkel: ‘Een steekproef leert je bijvoorbeeld hoeveel mensen werkloos zijn. Combinatie met sociale media-data levert mogelijk gedetailleerder informatie op over hun zoekgedrag naar werk en of ze openstaan voor een baan. Een andere databron die niet is gebaseerd op een kanssteekproef, is het opt-in panel. Denk bijvoorbeeld aan het EenVandaag Opiniepanel van de NPO. De samenstelling van zo’n panel hoeft geen afspiegeling van de bevolking te zijn, maar kan gecombineerd met een kanssteekproef nuttige informatie leveren.’
Van Berkel is niet de eerste die hoge verwachtingen heeft van de combinatie. ‘Op veel plekken in de wereld wordt onderzocht of een mix van kanssteekproef en digitale data kan leiden tot betrouwbare statistiek. Het gaat enerzijds om onderzoek voor een goede wetenschappelijke onderbouwing en anderzijds om toegepast onderzoek. Dat laatste doen we aan Zuyd Hogeschool: we proberen dingen uit.’

Overnachtingen

Een al bestaand voorbeeld is de maandelijkse CBS-statistiek over logiesaccommodaties. Hoeveel mensen hebben bijvoorbeeld afgelopen maand overnacht in een hotel? Van Berkel: ‘Het CBS krijgt gegevens over verblijfsbezoek die niet zijn verkregen via een steekproef. Die bron heet het digitaal nachtregister. Het is een bron van VisitorData, een bedrijf dat gespecialiseerd is in het verzamelen en analyseren van geanonimiseerde data over verblijfstoerisme. Stel, het nachtregister levert veel respons op in Amsterdam. Zóveel, dat we een goed beeld krijgen van deze stad. En stel, er is weinig respons in Maastricht. Dan is het voor het CBS niet meer nodig een kanssteekproef te doen in Amsterdam, maar wel in Maastricht.’

Het maximale

Digitale data is niet de nieuwe heilige graal, benadrukt Van Berkel. ‘De hoeveelheid data is weliswaar gigantisch, maar ‘méér’ betekent niet altijd ‘beter’. Digitale data is aan verandering onderhevig. Als morgen een sociaal platform ophoudt te bestaan of gegevens niet langer openbaar zijn, heb je geen data meer voor statistiek. En digitale data zijn gemaakt voor andere doeleinden dan om er statistieken van te maken. We moeten dus proberen er het maximale uit te halen, maar wel methodologisch onderbouwd.’

Nog gedetailleerder

Van Berkel hoopt dat het CBS over een paar jaar meer statistieken publiceert die zijn gemaakt met behulp van kanssteekproeven én digitale data. ‘Daarmee zouden we bijvoorbeeld voor de overheid ontwikkelingen in Nederland nóg gedetailleerder in beeld kunnen brengen dan met alleen een kanssteekproef.’