Over het belang van metadata bij de open data van het CBS

/ Auteur: Karel Feenstra
Dame bestudeert data op de computer
© Getty Images
In een open samenleving zijn eenvoudig toegankelijke feiten en cijfers onontbeerlijk. Daarvoor riep het CBS vanaf 2014 een open data portal in het leven. Zowel overheden, bedrijven als burgers weten de meer dan 5000 datasets van het CBS inmiddels goed te vinden. Maar data alleen spreken niet voor zich. Metadata zijn bepalend voor de waarde van de informatie. Daarom werkt het CBS voortdurend aan een heldere en eenduidige toelichting bij de data.

Data en metadata

Tijdens de coronacrisis bleek hoe belangrijk data zijn voor de samenleving en voor beleidsmakers. Het coronadashboard maakte de actuele ontwikkelingen inzichtelijk, bijvoorbeeld op het gebied van economie, mobiliteit, sterfte, etc. Beleid kon daardoor steeds op basis van actuele cijfers worden bijgestuurd. Alle feiten en cijfers waren te vinden op de speciale coronapagina op de website van het CBS. Maar zonder toelichting kunnen cijfers niet goed worden geïnterpreteerd. ‘Je hebt data en metadata, en daar zit de crux’, zegt Bob Korte, Product Owner bij het CBS. ‘Data zonder context zeggen eigenlijk niks. Ze krijgen pas betekenis als je ze kunt relateren tot iets anders, bijvoorbeeld hoe ze tot stand zijn gekomen, welke bronnen op welke manier zijn gebruikt om de informatie naar boven te halen, etc.’

Achterkant van de data

Cijfers en statistieken kunnen betrekking hebben op dezelfde feiten, maar toch verschillend zijn als ze bijvoorbeeld verschillende bronnen hebben. Daarom is het belangrijk dat bij de presentatie van alle gegevens duidelijk is waar ze vandaan komen, hoe ze tot stand zijn gekomen. Dat is niet alleen maar ‘service van de zaak’, dat is echt essentieel om de data goed te kunnen gebruiken. Datajournalist Sjoerd Mouissie van het Nederlands Dagblad werkt ook zo: ‘Het loont altijd om bij de bestudering van een dataset ook even naar de ‘achterkant’ te kijken, naar de metadata. Veel data spreken voor zich: geboorte- en sterftecijfers in een land, dat is snel duidelijk. Maar toen ik tijdens de coronapandemie zocht naar gegevens over de nertsenfokkerijen in Nederland, vond ik alleen maar gegevens over pelsdierenhouderijen. Bij nadere beschouwing bleken dat uitsluitend nertsenfokkerijen te zijn. Pas als je zeker weet wat de data je vertellen, kun je ze gebruiken voor je werk.’

Brede en diverse bronnen

Het gaat nog verder. Er zijn talloze bronnen voor publieke gegevens met evenveel verschillende manieren van dataverzameling en presentatie. ‘De combinatie van al die informatie kan waardevol zijn, maar daar zitten nog flink wat haken en ogen aan’, waarschuwt Korte. ‘Om die verschillende bronnen met elkaar te combineren, kom je in de diepere lagen van de metadata die eerst compatibel gemaakt moeten worden. Dat is heel belangrijk. Het CBS brengt heel Nederland in beeld. De bronnen moeten dus breed en divers zijn,’ zegt Erwin van Mierlo. Hij is coördinator open data bij het CBS. ‘Daarom werken we niet alleen samen met de rijksoverheden, decentrale overheden en waterschappen. Ook bedrijven in het private domein zijn samenwerkingspartners van ons.’

‘De bescherming van privacy is een onwrikbaar principe van het CBS en een zeer belangrijk uitgangspunt bij ons werk aan open data’

Privacy

Overheden, bedrijven en organisaties gaan steeds meer ‘data-gedreven’ werken. Hoe nauwkeuriger de informatie is, hoe beter. Maar de mate waarin data mogen worden geleverd en gedeeld is begrensd. ‘Gecombineerde datasets mogen nooit leiden tot informatie op het niveau van individuen,’ zegt Van Mierlo. ‘Die bescherming van (digitale) privacy is een onwrikbaar principe van het CBS en een zeer belangrijk uitgangspunt bij ons werk aan open data,’ zegt Korte. Maar dat betekent niet dat er één grid is voor de presentatie van alle informatie. ‘Onderzoekers mogen onder zeer strikte voorwaarden bijvoorbeeld wel bepaalde data gebruiken. Ook werken we voor decentrale overheden aan de presentatie van gedetailleerde data op lokaal niveau. Daarbij geldt eveneens dat de privacy niet in het geding mag zijn,’ aldus Van Mierlo.

Internationale dimensie

Ook voor de internationale dialoog zijn open data essentieel. Van Mierlo: ‘Het CBS nam deel aan een werkgroep van de VN om de mogelijkheden voor het internationale gebruik van open data te onderzoeken en de ‘hickups’ in kaart te brengen. Die werkgroep is inmiddels opgegaan in een nieuwe samenwerkingsorganisatie. Europa is koploper als het gaat om de ontsluiting van open data. Dat hangt samen met het ontwikkelen van regels op het gebied van digitale veiligheid en bescherming van privacy. Door die internationale kruisbestuiving van kennis en ideeën komen veel nieuwe tools voor het maken van datasets tot ontwikkeling. Daarom is het CBS daar nauw bij betrokken. Het belangrijkste is dat er een internationale standaard komt, waar iedereen goed mee uit de voeten kan.’

Odata 4

Terug naar de Nederlandse praktijk. De waarde van de open data die het CBS aanbiedt, wordt mede bepaald door de toegankelijkheid en de gebruiksvriendelijkheid. Dat gaat over de functionaliteit. CBS ontsluit nu alle data via Odata 3. Op dit moment wordt gewerkt aan de ontwikkeling van Odata 4. Die systemen worden steeds makkelijker in gebruik, en ze kunnen ook steeds meer. Dat merkt Mouissie ook. ‘Statistieken zijn allang geen spreadsheets meer met cijfers die je kunt kopiëren. Statline, de databank van het CBS, is heel compatibel met andere systemen zoals R, waar ik veel mee werk. Ik kan werken in mijn eigen programma en mijn eigen filters gebruiken bij een zoekopdracht. Die filters worden automatisch door het CBS overgenomen en ik krijg de gevraagde informatie in mijn eigen interface gepresenteerd. Dat werkt heel goed.’