Data-editing congres: nieuwe methoden en standaarden

9-5-2017 13:00 / Auteur: Masja de Ree / Fotografie: Hollandse Hoogte / Categorie: Internationale ontwikkelingen
Van 24 tot en met 26 april jl. vond het data-editing congres van de Verenigde Naties (VN) plaats bij het CBS in Den Haag. Meer dan 60 vertegenwoordigers van 25 landen spraken daar over nieuwe methoden en internationale standaarden op het gebied van statistiek.

Ruwe data

Data-editing, het is wat statistici doen om ruwe data geschikt te maken voor een statistiek. Methodoloog Sander Scholtus van het CBS: ‘Wij krijgen regelmatig grote hoeveelheden ruwe data binnen, zowel van enquêtes als uit registers. Die kunnen we niet direct gebruiken voor onze statistieken. We halen er eerst de fouten uit en vullen ontbrekende data aan. Om een voorbeeld te noemen: het komt regelmatig voor dat bedrijven vergeten dat de omzet in eenheden van 1000 vermeld moet worden. Dergelijke grote fouten zie je terug in je cijfers. Die moeten dus gecorrigeerd worden.’

Kwaliteit van de statistiek

Het CBS zelf sprak tijdens het congres over veelbelovende nieuwe methoden om data te editen. Daarbij was onder andere aandacht voor het corrigeren van data uit gecombineerde bronnen. Scholtus: ‘Bijvoorbeeld de data van een enquête die door bedrijven zijn ingevuld én data uit een register van de Belastingdienst. Die bronnen geven informatie over dezelfde onderwerpen, maar vaak zie je daarbinnen verschillen. Hoe ga je daarmee om en hoe kun je de verschillende bronnen gebruiken om de fouten uit de data te halen? Ook de invloed van data-editing op de kwaliteit van een statistiek werd door sprekers besproken.’

Uitwisseling ICT-middelen

Een ander belangrijk onderwerp was standaardisatie met het oog op uitwisseling van ICT-hulpmiddelen. ‘In verschillende landen is goede software ontwikkeld om ruwe data te corrigeren’, zegt Scholtus. ‘Om die software internationaal te kunnen uitwisselen, is inspanning van ICT-deskundigen nodig. Die zijn de laatste jaren dan ook steeds vaker bij het data editing-congres betrokken en met effect: het aantal tools dat we internationaal uit kunnen wisselen groeit. In de speciale tools-sessie werd bijvoorbeeld software gedemonstreerd uit Canada, Slovenië en Spanje.’

‘Het CBS is ver gevorderd op het gebied van data-editing, maar er valt altijd bij te leren’

Internationaal samenwerken

Het congres gaat uit van de Economische Commissie voor Europa van de Verenigde Naties (UNECE). Europa wordt daarbij ruim opgevat; er waren ook deelnemers uit Canada, Israël, Kazachstan, Mexico en de Verenigde Staten. De UNECE zet zich in om ervoor te zorgen dat statistische bureaus wereldwijd meer samenwerken en zoveel mogelijk dezelfde definities en methoden gebruiken. Een tiental jaren geleden gebeurde het corrigeren en aanvullen van ruwe data handmatig. Statistiekmakers gingen daarbij bovendien door tot er helemaal geen inconsistenties meer in de data zaten. ‘Dat was duur en kostte zeer veel tijd’, zegt Scholtus. ‘Daarom zijn in de afgelopen decennia verschillende methoden ontwikkeld. Zowel om te voorspellen welke fouten belangrijk zijn om uit de resultaten te filteren, als om de fouten automatisch te corrigeren. Het UNECE-congres draagt er aan bij dat bijna alle statistische bureaus in de ontwikkelde landen die methoden gebruiken.’

Intensief overleg

Het congres over data-editing vindt sinds begin jaren negentig ieder anderhalf jaar plaats, steeds bij een ander statistisch bureau. Deze keer was de organisatie in handen van het CBS. ‘Het was goed om zoveel collega’s uit verschillende landen te ontmoeten’, zegt Scholtus. ‘Het mooie van deze congresreeks is dat het helemaal over data-editing gaat, terwijl dit onderwerp op andere bijeenkomsten juist minder aandacht krijgt. Het CBS is vergevorderd op het gebied van data-editing, maar er valt altijd bij te leren.’ Nieuw was dat op de derde dag van het congres zogenaamde ‘mini sprints’ werden georganiseerd. ‘Daar hebben we in kleine groepen intensief kunnen overleggen over meer internationale samenwerking. Dat heeft diverse praktische ideeën opgeleverd rond het verder uitwisselen van ervaringen, methoden en gestandaardiseerde software.’

Klik hier voor de resultaten van het UNECE-congres