Waarom onderzoek?

© CBS / Nikki van Toorn

De wettelijke taak van het CBS is om statistieken samen te stellen en te publiceren waaraan behoefte is. Het CBS wil hierin een vooraanstaande rol blijven spelen, nu en in de toekomst.
Om te kunnen garanderen dat de hoge kwaliteit van statistische informatie gegarandeerd blijft is er onderzoek nodig.

Er wordt op zeven onderwerpen onderzoek gedaan:

Nieuwe waarneemtechnieken en dataverzameling

Innovatie op het gebied van primaire waarneming, denk hierbij bijvoorbeeld aan ‘smart surveys’. Het CBS gebruikt veel data uit registers, maar soms worden ook nog enquêtes gebruikt. Om mensen en bedrijven niet te veel te belasten enquêteert het CBS zo min mogelijk. Daarom kijkt het CBS voortdurend of op dat terrein innovatie mogelijk is. Hierbij ligt de nadruk op zogenaamde smart surveys die gebruik maken van apps op de telefoon en sensormetingen. Daarmee kunnen respondenten nadat ze zelf toestemming hebben gegeven automatisch data aan het CBS leveren die ze normaal in een enquête hadden moeten invullen.

Big data, data mining & Artificial Intelligence (AI)

Nieuwe databronnen zijn vaak niet gestructureerd en kunnen bestaan uit beeldmateriaal (satellietbeelden), tekst(textmining) of natuurlijke taal in plaats van getallen. Er zijn dan speciale technieken nodig om de informatie uit die datastromen te halen en te analyseren. Voorbeelden van technieken zijn text mining en natural language processing (het slim en automatisch informatie halen uit omvangrijke en ongestructureerde tekstuele data). Denk ook aan machine learning en (interpreteerbare) kunstmatige intelligentie.

Data integration

Dit is de innovatie om alle datastromen die bij het CBS binnenkomen samen te voegen en te beheren. Het doel is samenhangende schattingen van hoge kwaliteit te produceren. Voor iedere eenheid van de populaties waarover het CBS publiceert moet alle beschikbare informatie direct op te roepen zijn.

Data security

De bescherming van gegevens vereist permanent verbetering, omdat steeds meer informatie als open data beschikbaar is en ook steeds meer rekenkracht breed toegankelijk is. Voor samenwerking en synergie met externe partijen als universiteiten en andere maatschappelijke organisaties is de garantie nodig dat de data veilig vergaard en uitgewisseld kan worden en dat de data gepubliceerd worden met inachtneming van de onthullingsrisico’s (privacy preserving data sharing & analytics).

Statistical modelling

Om te voldoen aan de vraag naar geografisch of demografisch fijnmazigere informatie (aanvullende statistische diensten), blijft het nodig valide statistische modellen te ontwikkelen die uitkomsten opleveren zonder bias en met minimale onzekerheid.

Complexity science

De samenleving bestaat uit heel veel en heel diverse actoren en uit de relaties en interacties daartussen. Beleidsmakers vragen het CBS steeds vaker om mechanismen en relaties in kaart te brengen in plaats van alleen populaties van personen of bedrijven. Om ook in de toekomst aan die vraag te kunnen voldoen is het noodzakelijk dat het CBS de theorieën en analysetechnieken van de complexiteitswetenschap gaat toepassen om licht te werpen op causale verbanden in sociale en economische verschijnselen in de samenleving.

Data querying & processing

Al het bronmateriaal van zeer diverse oorsprong moet snel, robuust en stabiel gecombineerd worden tot hoogwaardige statistiek waarbij die kwaliteit ook gekwantificeerd moet kunnen worden. De combinatie van toename in volume en de eisen aan de verwerkingssnelheid betekenen dat ook steeds hogere eisen gesteld worden aan hard- en software.

Hoe doen we dit?

Het onderzoek kan gezien worden als een proces waarbij eerst fundamentele methoden en algoritmen worden ontwikkeld en gevalideerd. In de vervolgstap worden in samenwerking met senior onderzoekers van over het hele CBS software packages en bijbehorende documentatie ontwikkeld, zodat state-of-the-art methoden direct in primaire processen ingezet kunnen worden.

Het goed gebruik van nieuwe methoden en technieken vereist niet alleen maar software maar ook een gedegen component van kennisontwikkeling van alle medewerkers van het CBS. Via de vele cursussen, aangeboden doord de CBS Academy, speelt methodologie een grote rol in het delen en verspreiden van expertise zodat nieuwe methoden ook optimaal gebruikt worden.

Welke toepassingen levert dit op?

Een paar trajecten lichten we eruit:

  • Bij enquêtes bij zowel bedrijven als personen kunnen steekproef dynamisch worden aangepast, om zelfs beperkte respons zo goed mogelijk representatief te houden voor de gehele populatie. Met de inzet van de meta- en paradata, en het hybride gebruik van register- en enquête-data, wordt de invloed van resterende bias zo klein mogelijk.
  • De basis van inflatiebepalingen in Nederland, de CPI, wordt met Big Data technieken als webscraping en tekstmining rechtstreeks uit websites afgeleid, zodat directe waarneming in winkelvestigingen niet langer noodzakelijk is. Dat is slechts één toepassing van deze technieken die inmiddels veel breder worden ingezet.