Europees onderzoek naar uniforme regels datavalidatie

23-1-2018 11:00 / Auteur: Masja de Ree
Data-pingpong wordt het ook wel genoemd, het over en weer uitwisselen van data tussen organisaties. Bijvoorbeeld tussen de Europese nationale statistiekbureaus en het Europese statistiekbureau Eurostat. Het ESSnet datavalidatie is een Europees onderzoeksprogramma dat als doel heeft deze uitwisseling van data te verbeteren, door vooraf een uniforme set validatieregels af te spreken. Op 11 en 12 januari jl. stond dit onderwerp prominent op de agenda van de conferentie ‘ESSnet: Validat Integration’ bij het CBS in Den Haag.

Validatie van datasets

Eurostat maakt Europese statistieken op basis van gegevens uit de afzonderlijke landen. ‘In al die landen is de verzameling van data anders georganiseerd’, zegt Olav ten Bosch van het CBS. ‘Definitie- en interpretatieverschillen kunnen tot foutieve cijfers leiden. Daarom kan Eurostat de data die het binnenkrijgt, niet zomaar combineren en gebruiken.’ De validatie van de datasets, dus het corrigeren van de verschillen, kost veel tijd als het met de hand gebeurt. Daarom werken Europese landen samen aan uniforme statistische regels voor de validatie, die landen zelf kunnen toepassen voordat ze hun data naar Eurostat versturen. Als dat lukt, kunnen eventuele fouten in data voortaan eerder ontdekt en gecorrigeerd worden.

Scenario’s uittesten

Zes landen doen mee aan het onderzoeksprogramma: Duitsland, Litouwen, Polen, Zweden, Portugal en Nederland. Ten Bosch: ‘We bouwen voort op de resultaten van het eerste ESSnet in 2015. Toen is een methodologie bepaald en een taal geëvalueerd waarin de statistische regels geschreven worden. Nu gaan we een stap verder. In verschillende landen worden scenario’s uitgetest waarbij de nieuwe methodologie en de regels worden toegepast.’ Een succesvol onderdeel van het onderzoeksprogramma is het generieke validatierapport dat het CBS ontwikkelde: ‘We willen graag een standaard format waarin verslag wordt gedaan van de evaluatie van de data. Het mooie van dit rapport is dat het ook door machines te lezen is. Dat betekent dat computers de resultaten in het rapport direct en automatisch kunnen gebruiken om de data te corrigeren. Zowel Nederland als Polen gebruiken dit rapport inmiddels. Eurostat gaat zorgen voor de verdere uitrol.’

Regionale conferenties

Het ESSnet organiseert vier conferenties, op vier verschillende locaties. De tweede conferentie vond op 11 en 12 januari jl. plaats bij het CBS in Den Haag. Ten Bosch: ‘Op de conferenties presenteren we de resultaten van ons werk. Daarnaast is er gelegenheid om met elkaar te discussiëren over de toepassing van de resultaten in de eigen regio.’ In Den Haag waren dertig deelnemers aanwezig uit vijftien landen. Ten Bosch: ‘Dit leverde veel nieuwe ideeën op, ook bijvoorbeeld over de manier waarop we de validatieregels in de loop van de tijd kunnen evalueren. Een belangrijk besef is: je kunt pas één systeem voor alle landen neerzetten, als je weet hoe het er in die landen nu aan toe gaat. Daar droeg deze conferentie aan bij.’ Op 1 maart wordt het ESSnet datavalidatie afgesloten. Ten Bosch: ‘We zijn weer een stap verder op weg naar een uniforme set regels. De bouwstenen daarvoor worden stap voor stap gemaakt en per statistisch domein ingevoerd. Bij de Nationale Rekeningen zijn we daar nu al ver mee.’

‘De infrastructuur die nodig is om de validatieregels in te voeren in alle landen van Europa wordt steeds steviger’

Ambitieus projectplan

Volker Weichert, werkzaam bij het Duitse statistiekbureau Destatis, is projectleider van het ESSnet datavalidatie. Hij vertelt over de samenwerking tussen de verschillende landen: ‘Dit onderzoeksproject is gebouwd op de gezamenlijke capaciteiten van alle deelnemende landen. Alle betrokkenen droegen bij met cruciale skills en middelen. We hebben een erg ambitieus projectplan. De specialisten uit de zes verschillende Europese landen en Eurostat brachten niet alleen hun professionele expertise mee, maar ook hun unieke invalshoeken, gestoeld op persoonlijke ervaringen met de manier waarop statistieken in hun land geproduceerd worden. De toewijding van al deze deelnemers vinden we terug in de resultaten van ons onderzoek. En in de meer dan 1500 e-mails die ik ontving in de loop van dit jaar!’ En hoe gaat het verder? ‘De Europese Commissie heeft subsidie verleend aan een aantal landen om de nieuwe validatieregels in het productieproces te gaan implementeren. Tegelijkertijd werkt Eurostat aan de afronding van enkele diensten die de invoering van de validatieregels vergemakkelijken. De infrastructuur die nodig is om de validatieregels in te voeren in alle landen in Europa wordt steeds steviger.’

Kostenbatenmodel

Sónia Quaresma, werkzaam bij het statistiekbureau van Portugal, hielp met de organisatie van de conferentie in Den Haag. Ze kijkt tevreden terug: ‘Ik heb het gevoel dat we veel bereikt hebben en dat het gelukt is om onze nieuwe manier van statistische validatie goed neer te zetten.’ Quaresma heeft binnen het ESSnet een kostenbatenmodel ontworpen om de verschillende scenario’s voor de invoer van de regels te kunnen vergelijken. Quaresma: ‘We hebben verschillende hulpmiddelen en strategieën ontworpen. Wanneer een nationaal statistiekbureau moet kiezen welke het inzet, is een goede beschrijving en evaluatie van de verschillende opties noodzakelijk. De kostenbatenanalyse helpt om te bepalen welk scenario voor jouw situatie het beste is. De scenario’s voor datavalidatie zullen zich in de komende jaren organisch ontwikkelen als steeds meer statistiekbureaus er gebruik van maken.’