Proces- en productinnovatie

© CBS / Alrik Swagerman

De innovatie inspanningen van het CBS zijn erop gericht om bij te dragen aan de strategische doelstellingen van het CBS, zoals onder meer beschreven in het meerjarenprogramma.

Procesinnovatie

Om de kwaliteit van de statistiek productie te blijven waarborgen, wordt geïnvesteerd in de vernieuwing van de processen waarmee statistiek wordt gemaakt. Zowel voor de economische- als de sociale statistieken zijn er grootschalige vernieuwingsprojecten in uitvoering met als doel de productieprocessen te uniformeren en efficiënter te maken. Naast vernieuwing van de productie-processen wordt ook het publiceren van statistieken middels het huidige Statline vernieuwd. En er zijn diverse initiatieven met als doel om de waarneming (enquêtes) voor de statistieken efficiënter en toekomstbestendig te maken. Specifiek voor de waarneming bij bedrijven wordt gericht gekeken naar het verlagen van de lastendruk en het aanpassen van onze processen zodat het aanleveren van informatie voor bedrijven wordt vereenvoudigd.

Productinnovatie

Naast de inspanningen voor het verbeteren van de productieprocessen worden er ook inhoudelijke verbeteringen doorgevoerd in onze statistieken. En er worden nieuwe statistische producten ontwikkeld die aansluiten bij de maatschappelijke opgaven zoals benoemd in het meerjaren- programma van het CBS. Het CBS werkt zodoende aan een continue verbetering van de statistische dienstverlening.

In veel gevallen zullen nieuwe statistische producten gerealiseerd kunnen worden met reeds voor handen zijnde data en methoden. In bepaalde gevallen zullen er ook innovatieve methoden en technieken moeten worden ontwikkeld om deze producten mogelijk te maken. Om deze methoden te ontwikkelen heeft het CBS een methodologisch onderzoeksprogramma. Het CBS concentreert de innovatie inspanningen momenteel op de volgende onderwerpen:

  • Informatie uit tekst (textmining)

    Textmining is een techniek om waardevolle informatie uit grote hoeveelheden tekst te halen. Om die informatie uit tekst te halen worden door het CBS algoritmen ontwikkeld. Voor het ontwikkelen van die algoritmen wordt gebruikt gemaakt van machine learning om geautomatiseerd de juiste patronen in tekst te herkennen. Textmining heeft diverse toepassingen. Zo onderzoekt het CBS bijvoorbeeld of het op deze manier kenmerken van bedrijven kan afleiden uit de informatie die deze bedrijven op hun website plaatsen. Deze techniek wordt ook gebruikt bij het verwerken van informatie uit jaarverslagen van bedrijven. Een recente toepassing is gericht op de arbeidsmarkt, waarbij het CBS in een consortium samenwerkt om geautomatiseerd vaardigheden te herkennen en te classificeren uit diverse bronnen zoals online vacatures.
  • Gebruik van apps en sensoren (smart surveys)

    Het CBS gebruikt veel data uit registers, maar soms worden ook nog enquêtes gebruikt. Om mensen en bedrijven niet te veel te belasten enquêteert het CBS zo min mogelijk. Daarom kijkt het CBS voortdurend of op dat terrein innovatie mogelijk is. In 2022 ligt hierbij de nadruk op zogenaamde smart surveys die gebruik maken van apps op de telefoon en sensormetingen. Daarmee kunnen respondenten nadat ze zelf toestemming hebben gegeven automatisch data aan het CBS leveren die ze normaal in een enquête hadden moeten invullen.
  • Privacy enhancing / preserving techniques (PPT / PET)

    Met privacy enhancing (of preserving) technieken wordt een verzameling technieken bedoeld die het mogelijk maakt om analyses op gevoelige gegevens uit te voeren, zonder inzage te kunnen krijgen in de onderliggende micro data. De verschillende technieken hebben vaak een specifieke functie, dus afhankelijk van de toepassing wordt een specifieke techniek ingezet. Het CBS onderzoekt in samenwerking met universiteiten en marktpartijen de toegevoegde waarde van deze technieken. In samenwerking met onder andere de Universiteit Maastricht wordt de inzet van federated learning of distributed learning onderzocht waarmee een algoritme langs verschillende databronnen reist zonder dat de data hoeft te worden gedeeld. In samenwerking met marktpartijen die de technieken leveren worden daarnaast toepassingen met multiparty computation (MPC) onderzocht. Met MPC worden de verschillende databronnen eerst versleuteld en opgesplitst alvorens een analyse wordt uitgevoerd.
  • Synthetische data

    Synthetische data wordt gezien als een mogelijke oplossing voor het delen van privacy gevoelige data. De oorspronkelijke data wordt hierbij vervangen door synthetische data die voor bepaalde toepassingen dezelfde statistische eigenschappen heeft. In samenwerking met verschillende partijen worden de mogelijkheden voor het gebruik van synthetische data onderzocht. De toepassingen liggen van het genereren van synthetische data voor educatie doeleinden tot het testen van systemen. Binnen het CBS worden synthetische data beschouwd als data die gegenereerd worden uit computersimulaties of algoritmes waarbij de analytische waarde die de echte wereld weerspiegelt wordt behouden, maar het risico op onthulling zo laag mogelijk is. Synthetische data verschilt van traditioneel beveiligde microdata bestanden in die zin dat karakteristieken van populatie eenheden worden nagebootst, waardoor met name bij volledig gesynthetiseerde data de resulterende eenheden niet corresponderen met de echte eenheden, maar de statistische informatie op gedetailleerd niveau wel behouden wordt. Bij traditioneel beveiligde microdata zal vooral op detail niveau veel informatie verloren kunnen gaan. Overigens hoeven synthetische data niet per sé microdata te zijn: ook geaggregeerde data kan synthetisch gegenereerd worden.