Hergebruik publieke data voor de wetenschap verbeteren

/ Auteur: Masja de Ree
© Wim van der Spiegel
Data uit administraties van de rijksoverheid, gemeenten, zorgverzekeraars en andere organisaties die (semi-)publieke taken uitvoeren, bevatten nuttige informatie voor wetenschappelijk onderzoek. De Koninklijke Nederlandse Akademie van Wetenschappen (KNAW) onderzocht hoe de toegankelijkheid van deze zogenoemde publieke data verbeterd kan worden. Pearl Dykstra, voorzitter van de adviescommissie en hoogleraar Empirische Sociologie aan de Erasmus Universiteit in Rotterdam, vertelt over de maatregelen die hergebruik kunnen bevorderen en de rol van het CBS daarbij.

Hergebruik van publieke data

Het in juni van dit jaar verschenen advies ‘Hergebruik van publieke data. Meer wetenschap en beter overheidsbeleid’ van de KNAW werd opgesteld op verzoek van het ministerie van Onderwijs, Cultuur en Wetenschap (OCW). ‘Het ministerie wilde weten in hoeverre er voor wetenschappelijk onderzoekers barrières zijn om publieke data te hergebruiken’, zegt prof. Pearl Dykstra. Een van de observaties van de KNAW: overheidsorganisaties denken bij het beschikbaar maken van de data die zij verzamelen primair aan burgers en bedrijven. De wetenschap staat nog niet op hun netvlies.

Brondata

De ambitie van het kabinet is om zoveel mogelijk data uit overheidsadministraties als ‘open data’ beschikbaar te stellen. Voor wetenschappelijk onderzoekers is het daarbij cruciaal dat ze toegang hebben tot de in principe onbewerkte brondata. Zij kunnen onvoldoende uit de voeten met ‘open data’ die vaak slechts groepsgemiddelden zijn, of met gegevens in tekstvorm waar niet makkelijk mee gerekend kan worden. Dykstra: ‘Open data is een versluierende term. Het impliceert dat de data gratis en vrij beschikbaar moeten zijn. Vrij beschikbaar kán niet met het oog op de privacy en bovendien kost het beschikbaar maken van data voor anderen geld.’ Bij het toegankelijk maken van brondata moet uiteraard strikte privacybescherming in acht worden genomen, maar er is meer waar aandacht voor nodig is. Dykstra: ‘In de praktijk komen diverse belemmeringen voor. Technisch is het bijvoorbeeld lastig dat gemeenten verschillende softwaresystemen gebruiken, maar we merken ook een terughoudendheid om data te delen.’

Datalandschap

Het CBS stelt alle data die in de CBS-database StatLine te vinden zijn als open data beschikbaar. Maar het CBS doet meer. Dykstra: ‘We schrijven in ons rapport dat het CBS een bijzondere positie heeft in het Nederlandse datalandschap. Het CBS beheert data van meer dan 200 overheidsorganisaties en fungeert als expertisecentrum van big data-analyses. De grote meerwaarde van het CBS is dat gegevens uit landelijke registers op een privacy-bestendige manier gekoppeld kunnen worden, zodat zeer rijke informatie ontstaat. Het CBS beschikt over het juridisch mandaat, de kennis en de technische infrastructuur. Onderzoekers van geautoriseerde instellingen kunnen onder strikte voorwaarden gebruik maken van de CBS-data voor wetenschappelijk onderzoek. Maar naast primaire ‘overheidsdata’ ontbreken nu vaak nog data van private partijen die publieke taken uitvoeren. Het CBS en het ministerie van Economische Zaken en Klimaat onderzoeken op dit moment hoe het juridisch kader zo aangepast kan worden dat er een betere juridische basis komt voor private partijen om de data die zij verzamelen aan het CBS te leveren. De KNAW adviseert het CBS nadrukkelijk te zorgen voor een ruimere toegankelijkheid en herbruikbaarheid van publieke data om onderzoek te faciliteren.’

Dataknooppunten

Het CBS kan met name fungeren als dataknooppunt voor alle persoonlijke identificeerbare gegevens, zegt Dykstra. ‘Het CBS heeft namelijk veel kennis om deze gegevens zodanig te beveiligen dat onthulling niet mogelijk is. Andersoortige gegevens, bijvoorbeeld over de luchtkwaliteit, kunnen ook bij een ander dataknooppunt ondergebracht worden. Publieke data moeten via meerdere dataknooppunten beschikbaar worden gesteld, die samen een dekkende infrastructuur vormen.’

‘Wij noemen het data hugging: organisaties houden data het liefst voor zichzelf, bijvoorbeeld omdat het ze een kennis- of financiële voorsprong geeft’

Data-autoriteit

De kern van het advies van de KNAW aan het ministerie van OCW is dat een Chief Public Data Officer (CPDO) moet worden ingesteld: één persoon met autoriteit, die met overheidsorganisaties meedenkt over hoe je het hergebruik van data kunt bevorderen. Dykstra: ‘De functie van de CPDO zou hoog belegd moeten zijn, bijvoorbeeld bij de minister of de staatssecretaris van het ministerie van Binnenlandse Zaken en Koninkrijksrelaties, dat verantwoordelijk is voor de afstemming tussen overheidsorganisaties die data leveren.’ Wetenschappelijk onderzoekers die vastlopen kunnen bij de CPDO terecht. De CPDO initieert, stimuleert en monitort of overheidsorganisaties voortgang boeken bij het beter beschikbaar maken van data.

Data hugging

Je kunt goede afspraken maken over het beschikbaar stellen en hergebruiken van data, maar het is ook een kwestie van willen, van mindset. Hoe krijg je overheidsorganisaties zover dat ze vaart maken met het beter toegankelijk maken van de data die zij verzamelen? Dykstra: ‘Wij noemen het data hugging: organisaties houden data het liefst voor zichzelf, bijvoorbeeld omdat het ze een kennis- of financiële voorsprong geeft. Het is ook aan de wetenschappelijk onderzoekers om overheidsorganisaties te laten zien wat het beter toegankelijk maken van data kan opleveren: inzicht in het resultaat van beleid bijvoorbeeld. In ons advies sporen we onderzoekers aan hierin het voortouw te nemen. We nodigen hen uit overheidsorganisatie niet alleen te vertellen wat ze nodig hebben, maar ook wat hun onderzoek heeft opgeleverd en wat het belang van de verstrekte data is geweest.’

Resultaat

Verwacht Dykstra dat het advies resultaat oplevert? ‘Zeker! Als je kijkt naar adviezen die we als KNAW een aantal jaren geleden hebben gegeven, dan zie je hoe snel die effect hebben gehad. Ik verwacht dat we over vijf jaar een CPDO hebben, dat er meer publieke data worden hergebruikt en dat die data beschikbaar worden gesteld volgens het FAIR-principe: findable, accessible, interoperable en reusable.’