Data opschonen met statistiek-software R

/ Auteur: Jaap van Sandijk
© Sjoerd van der Hucht Fotografie
In hun recent verschenen boek ‘Statistical Data Cleaning with applications in R’ bieden de CBS-methodologen Mark van der Loo en Edwin de Jonge een compleet overzicht van methoden en technieken waarmee vervuilde data kunnen worden opgeschoond in R. Dat is de open source software die speciaal is ontwikkeld voor statistiek en data-analyse doeleinden. Het boek voorziet in een grote behoefte.

Opschonen

Het opschonen van data is een essentieel onderdeel bij de productie van statistieken. ‘Dat geldt voor zowel enquêtes als administratieve data’, zegt Van der Loo. ‘Ingevulde gegevens kunnen onvolledig of onjuist zijn. In het jargon spreekt men van ‘vervuilde’ data. Het repareren van zulke onvolledigheden en onjuistheden wordt dan ook wel aangeduid met data cleaning.’ In het enorme aanbod aan publicaties over statistische methoden is echter weinig aandacht voor dit vitale onderdeel van het productieproces. ‘Veel publicaties beperken zich tot onderzoekmethoden en welke middelen daarbij ingezet moeten worden’, constateert De Jonge.

Praktisch hulpmiddel

Het ruim 300 pagina’s tellende boek van de twee CBS-methodologen biedt niet alleen een uitgebreid overzicht, maar is daarnaast ook een praktisch hulpmiddel. ‘We hebben ook opschoonsoftware geschreven’, vertelt De Jonge. ‘Softwarematig opschonen is efficiënt, zeker als het gaat om grote datasets. Bovendien voorkomt het menselijke fouten in vergelijking met het handmatig corrigeren van onvolledigheden of onjuistheden.’ Naast bestaande theorieën bevat het boek ook nieuwe zienswijzen. Van der Loo: ‘Zo gaan we in op het valideren van data. Wanneer zijn data goed genoeg om verwerkt te worden en hoe definieer je dat? We bieden ook methoden en software om data-validatie zoveel mogelijk te automatiseren.’

De onderscheidende kracht van het boek is volgens de auteurs de mix van pragmatisme, theorie en volledigheid

Pragmatisme, theorie en volledigheid

Onderscheidende kracht van het boek, dat op de markt is gebracht door de gerenommeerde Amerikaanse uitgever Wiley, is volgens de auteurs de mix van pragmatisme, theorie en volledigheid. Van der Loo over het laatste: ‘Er zijn twee typen van opschonen: technisch en inhoudelijk. Technisch is bijvoorbeeld een 1,5 veranderen in een 1.5. Inhoudelijk is bijvoorbeeld het aanpassen van een invulveld waar de leeftijd van iemand op min vijf jaar staat. Verreweg de meeste collega’s schrijven over de inhoudelijke aspecten van het opschonen. Wij besteden óók aandacht aan het technisch opschonen. Ook dat maakt ons boek completer. We slaan een brug tussen beide manieren van werken.’ ‘De brede benadering van het onderwerp maakt het boek ook toegankelijk voor professionals die niet werken met R’, voegt De Jonge daar nog aan toe. ‘De theorie in het boek is ook toepasbaar met andere tools.’

Tijdens uRos2018, de internationale conferentie over het gebruik van R in officiële statistiek die van 12 tot 14 september a.s. wordt georganiseerd door het CBS in Den Haag, geven de auteurs een tutorial over opschonen in R.