Innovatieve wiskundige methode verbetert de statistiek

/ Auteur: Jaap van Sandijk
© Sjoerd van der Hucht Fotografie
CBS-methodoloog Jacco Daalmans promoveert op 22 maart 2019 aan de Universiteit van Tilburg op een mede door hem ontwikkelde wiskundige methode voor het automatisch inpassen van gegevens voor officiële statistiek. Dankzij deze methode kunnen statistieken uit meerdere bronnen makkelijker op elkaar worden afgestemd.

Eenduidige statistiek

Het aanpassen van data is vaak nodig bij statistieken waarvoor de cijfers uit verschillende bronnen worden verzameld en verwerkt. In iedere bron komen wel fouten voor en bijna geen enkele bron is helemaal volledig. Verschillende bronnen zijn meestal niet consistent en moeten worden ‘ingepast’ om tot een eenduidige statistiek te komen. ‘Stel dat een statistiek op maand- en op jaarbasis wordt gepubliceerd’, licht Daalmans toe. ‘Dan moet het meestal zo zijn dat twaalf maandcijfers optellen tot één jaarcijfer. Als die optelling niet klopt, kan een gebruiker een alternatief jaarcijfer afleiden door de maandcijfers op te tellen. Dat is niet de bedoeling, je krijgt dan verwarring over het ware jaarcijfer.’ Met een inpassing wordt bijvoorbeeld bereikt dat twaalf maandcijfers optellen tot een jaarcijfer. Daarbij wordt de nauwkeurigheid van de uitkomsten vergroot, omdat gegevens uit verschillende bronnen worden gecombineerd.

Simulaties

Methodoloog Jacco Daalmans werkt – met onderbrekingen – al sinds 2005 aan de ontwikkeling van een wiskundige methode voor het inpassen. Doel was om de tabellen uit de Nationale Rekeningen automatisch te kunnen inpassen. Het aanpassen van data uit Nationale Rekeningen is lastig omdat deze bestaan uit zeer grote en gedetailleerde tabellen die onderling een sterke samenhang hebben. ‘Ik heb me verdiept in literatuur en ook veel simulaties uitgevoerd. De uitdaging voor mij was om een methode te ontwikkelen waarmee statistiekmakers goed uit de voeten kunnen en die ook goed te automatiseren is.’

Daalmans onderzoekt of een vergelijkbare methode ook kan worden toegepast bij de volkstelling en de bedrijfseconomische statistieken

Juiste model

Stap voor stap wisten Daalmans en zijn collega’s tot het juiste model te komen. ‘Wat daarbij enorm hielp waren de snelle ontwikkelingen in de IT. De rekenkracht en de geheugencapaciteit van computers zijn enorm snel gegroeid. Daardoor kan een computer nu de enorme aantallen cijfers uit de tabellen van de Nationale Rekeningen goed aan, waar dat vroeger niet goed mogelijk was.’ Vergeleken met de bestaande methoden kan de nieuwe methode ook complexere relaties tussen cijfers aan en bijvoorbeeld voldoen aan de eis dat een verhouding tussen twee cijfers ongeveer gelijk moet zijn aan een vastgestelde waarde. ‘Het kunnen meenemen van complexe relaties tussen cijfers bleek essentieel voor een toepassing in de praktijk.’

Nationale Rekeningen

De nieuwe methode wordt door het CBS inmiddels toegepast voor het samenstellen van de Nationale Rekeningen. ‘Vóór de ingebruikneming van de nieuwe methode gebeurde het inpassen voor een groot deel handmatig op basis van inschattingen van experts. Dat was een tijdrovend proces dat niet altijd reproduceerbaar was. Door toepassing van de nieuwe methode is de reproduceerbaarheid vergroot.’ Daalmans onderzoekt ook of een vergelijkbare methode als voor de Nationale Rekeningen kan worden toegepast bij de volkstelling en bedrijfseconomische statistieken. Maar eerst richt hij zich op zijn promotie. ‘Daar verheug ik me erg op. Sinds 2013 – toen ik goede vorderingen maakte met mijn onderzoek – wist ik dat ik hierop wilde promoveren. Ik heb er lang naar toe gewerkt.’ 

Full-tekst van het proefschrift