Nieuwe methoden om data te corrigeren

12-3-2018 10:50 / Auteur: Masja de Ree
© Sjoerd van der Hucht Fotografie
Data die gebruikt worden om statistieken te maken, bevatten bijna altijd fouten. Wat kun je daaraan doen? CBS-methodoloog Sander Scholtus promoveerde op 6 maart jl. cum laude op een onderzoek naar nieuwe methoden om data te beoordelen en corrigeren.

Betrouwbare statistieken

Om statistieken te maken, gebruikt het CBS onder andere gegevens uit enquêtes en gegevens uit bestaande bestanden, bijvoorbeeld van de Belastingdienst. In beide gevallen kunnen de data fouten bevatten, die gecorrigeerd moeten worden om betrouwbare statistieken te maken. ‘Dat kun je op twee manieren doen’, legt Scholtus uit. ‘De eerste heet editing: je spoort de fouten op en verbetert die zo goed mogelijk. Het CBS streeft ernaar om dat zo veel mogelijk automatisch te doen, want handmatig gaat het goed maar kost het te veel tijd. In de tweede aanpak verbeter je de fouten niet vooraf, maar schat je hoe groot het effect van de fouten is op je statistiek. Op deze manier maak je een model om de statistiek achteraf in één keer te corrigeren.’ Scholtus heeft in zijn promotieonderzoek beide manieren onderzocht en verder ontwikkeld.

Automatisch corrigeren

Stel je vult als bedrijf je financiële gegevens in bij een enquête van het CBS, maar je ziet over het hoofd dat je dat in eenheden van duizend euro had moeten doen. Of je maakt een omwisselingsfout: plus in plaats van min, of de kosten in plaats van de opbrengsten. Dan ontstaan systematische of eenmalige fouten. Scholtus ontwierp een aantal nieuwe algoritmen om systematische fouten automatisch te corrigeren. ‘Deze algoritmen hebben we in de CBS-praktijk met succes getest.’ Ook breidde hij de onder statistici veelgebruikte methode van Fellegi en Holt uit. ‘Deze methode is bedoeld om niet-systematische fouten op te sporen en te corrigeren. Door mijn uitbreiding kan de methode op maat gemaakt worden per dataset. Hij is flexibeler geworden en geeft daardoor een beter resultaat.’ De uitbreiding wordt op dit moment getest op statistieken van het CBS.

Wiskundig model

Het CBS gebruikt enquêtes in principe alleen om gegevens te verzamelen die niet beschikbaar zijn vanuit bestaande bestanden. Maar als je bijvoorbeeld de omzetdata van Nederlandse bedrijven van de Belastingdienst vergelijkt met de data die het CBS bij bedrijven uitvraagt, zie je verschillen. Dat komt omdat de Belastingdienst en het CBS soms andere definities gebruiken. Scholtus: ‘Voor het CBS is dit een relevant probleem. Het is belangrijk dat we precies weten bij welke bedrijfstakken de definities voldoende overeenkomen en bij welke bedrijfstakken we zelf nog enquêtes moeten uitzetten. Ik heb met behulp van een wiskundig model onderzocht hoe we dit probleem kunnen oplossen.’ Scholtus ontwierp een model dat gebruikt kan worden om te schatten in hoeverre de data van elke bron afwijken van de werkelijke waarde. ‘Dit model is breed inzetbaar. Bij statistieken waarvoor meerdere bronnen beschikbaar zijn, kan het CBS hiermee per onderdeel bepalen welke bron het beste is.’

Sander Scholtus ontwierp een aantal nieuwe algoritmen om systematische fouten automatisch te corrigeren

Harde cijfers

Zo’n wiskundig model dat door Scholtus werd ontwikkeld voor het CBS, wordt in academische kringen al langer gebruikt. ‘Specifiek voor mijn model is echter dat het CBS vaak werkt met vaste, harde eenheden: euro’s bijvoorbeeld. Dat stelt extra eisen aan het model omdat de schaal van belang is. Het CBS wil niet alleen weten of de gemeten waarden voldoende samenhangen met de werkelijke waarden, maar ook of ze niet structureel te hoog of te laag zijn. In het model lossen we dat op door voor een kleine steekproef van bedrijven extra moeite te doen om de echte waarde te achterhalen, naast de waarden uit de bestanden die we al hebben. Dit heeft ons model specifieker gemaakt.’

Sneller en efficiënter

Gaat het CBS de nieuwe methoden inzetten? Scholtus: ‘Bij het corrigeren van data doen we zowel handmatige als automatische correcties. Ook mijn nieuwe algoritmen kunnen daarbij ingezet worden. Modellen gebruiken we nog niet, omdat we zeker willen weten dat de aannames die daaraan ten grondslag liggen, kloppen. Voor mij ligt de toekomst in een combinatie van data editing en de inzet van modellen. Bijvoorbeeld door het model de kwaliteit van de editing te laten controleren, zoals ik in mijn proefschrift deed. Dat kan leiden tot een snellere en efficiëntere aanpak.’

Scholtus studeerde wiskunde in Leiden en werkt sinds 2006 als methodoloog bij het CBS. Hij promoveerde bij de Vrije Universiteit (VU) te Amsterdam. Zijn promotor was prof. Bart Bakker, afdelingshoofd bij het CBS en bijzonder hoogleraar aan de VU.