De mogelijkheden van synthetische data in het statistisch domein

/ Auteur: Miriam van der Sangen
Onderzoeker aan de slag met data
© Getty Images
Onlangs verscheen het handboek ‘Synthetic Data for Official Statistics’ van de Verenigde Naties (VN). Synthetische data simuleren kenmerken van echte data, zoals een bedrijvenpopulatie of relaties tussen personen en objecten – bijvoorbeeld een school of een wijk – waardoor de realiteit kan worden nagebootst zonder dat de personen of objecten geïdentificeerd worden. Dat maakt het mogelijk om realistische data op een veilige manier beschikbaar te stellen aan gebruikers of voor gebruiksdoelen buiten de huidige mogelijkheden. Aan het VN-handboek werkten diverse CBS-onderzoekers mee, maar ook internationale collega’s en academici.

Meerwaarde van synthetische data

Het CBS beschikt over een grote hoeveelheid data waarvoor de bescherming van vertrouwelijke gegevens volledig gegarandeerd dient te zijn. Hoewel de vraag naar data en de hoeveelheid beschikbare data toeneemt, worden data nog steeds te weinig uitgewisseld met de wetenschappelijke wereld. Vanuit bedrijfsperspectief is er – vanwege steeds strengere voorschriften om gegevens te beschermen waardoor datagebruik wordt bemoeilijkt – behoefte aan verbeterde methoden om gegevens te delen. Hierbij kunnen synthetische data een belangrijke rol spelen. Belangrijk is dat ook bij het gebruik van synthetische data de bestaande wet- en regelgeving (denk bijvoorbeeld aan de AVG) in acht moeten worden genomen. Het CBS ziet de meerwaarde van het gebruik van synthetische data om bijvoorbeeld het delen van gegevens met externe partijen te vereenvoudigen, naast interne doelen zoals testen van nieuwe IT-systemen. Daarvoor is echter nog veel onderzoek en kennisopbouw nodig rond specifieke aspecten van synthetische data. Dat gebeurt in nationale en internationale samenwerking.

Uitdaging

Kate Burnett-Isaacs is werkzaam bij het statistiekbureau van Canada als innovatiemanager en was projectleider van het VN-handboek over synthetische data. Wat is volgens haar het belang van deze data? ’Nationale statistiekbureaus geven prioriteit aan toegang tot data, transparantie en openheid. De uitdaging is een veilige en duurzame manier te vinden om sneller en makkelijker toegang te krijgen tot tijdige en geïntegreerde data en tegelijkertijd de geheimhouding van data te garanderen. Synthetische data zijn een mogelijkheid om gebruikers makkelijker toegang te verlenen tot een grote rijkdom aan te analyseren data en in de tussentijd de betrouwbaarheid en geheimhouding van de data te garanderen.’

Microsimulaties

Volgens Burnett zijn synthetische data niet nieuw. ‘Maar met de komst van steeds nieuwe methoden en middelen is een standaardgids over het gebruik en de risico’s noodzakelijk. In dat opzicht zijn we tegemoet gekomen aan het verzoek van the High-Level Group for the Modernisation of Official Statistics, die een dergelijke gids belangrijk vindt om het gebruik van synthetische data te stimuleren en de discussie er over aan te moedigen. Zowel de mogelijkheden als de uitdagingen zijn voor statistiekbureaus wereldwijd hetzelfde. Daardoor leent dit onderwerp zich bij uitstek voor internationale samenwerking.’ Steven Thomas, collega van Kate Burnett-Isaacs, vertelt dat Statistics Canada in een aantal situaties externe partijen al gebruik laat maken van synthetische data. ‘Denk bijvoorbeeld aan studenten die voor trainingsdoeleinden geïnteresseerd zijn in deze data. Deze data zijn ook nuttig voor onderzoekers om hun analyses voor te bereiden en zichzelf te verzekeren van het feit dat de analyses uitvoerbaar zijn voordat ze met de echte data aan de slag gaan. Maar het meest waardevol zijn synthetische data voor de externe onderzoekers die zich bezig houden met microsimulaties, waarbij de werkelijkheid wordt nagebootst. Daardoor krijgen zij bijvoorbeeld meer gedetailleerd inzicht in bepaalde situaties en kunnen ze diepgaande analyses verrichten op de voor- en nadelen van verschillende scenario’s.’

Onderzoeker die achter zijn computers met data werkt
© CBS / Nikki van Toorn

Algoritmen testen

Christopher Jones is werkzaam bij de Statistische Divisie van de Verenigde Naties in Genève en was intensief betrokken bij het project. Hij verwacht dat in de komende jaren het gebruik van synthetische data sterk zal toenemen. ‘Synthetische data hebben een groot potentieel, omdat ze in sommige gevallen net zo goed kunnen zijn als de echte data. Hierbij is het wel belangrijk hoe je het begrip veilig en betrouwbaar definieert. Op dit moment gebruiken statistiekbureaus deze data vooral om algoritmen en nieuwe methoden te testen voordat zij aan de slag gaan met de echte data. De data kunnen ook gebruikt worden als middel om analytische resultaten te boeken die kwalitatief voldoende goed zijn. In dat geval moeten we wel definiëren wat kwalitatief voldoende goed is.’

Educatiedoeleinden

Manel Slokom werkt bij het CBS en het CWI (Centrum voor Wiskunde en Informatica, red.). Ze promoveert binnenkort aan de TU Delft en heeft zich daar en bij het CBS verdiept in de materie van synthetische data. Zij was één van de auteurs van het VN-handboek. ‘Synthetische data zijn data die lijken op de echte data, maar in werkelijkheid zijn ze fake of kunstmatig. Ze zijn kunstmatig omdat ze door een machine zijn vervaardigd. Binnen het CBS worden synthetische data beschouwd als data die gegenereerd worden uit computersimulaties of algoritmen waarbij de analytische waarde die de echte wereld weerspiegelt zoveel mogelijk wordt behouden, maar het risico van onthulling van individuele gegevens zo laag mogelijk is. Bij het CBS gebruiken we synthetische data op dit moment voor educatiedoeleinden en het testen van systemen.’

Voor- en nadelen

De uitdaging van het gebruik van synthetische data is volgens Slokom te bekijken hoe je er privacygevoelige informatie mee kan beschermen. ‘Ten tweede kunnen deze data worden gebruikt om bias (vertekening, red.) in datasets te verminderen, omdat de data zo kunnen worden gegenereerd dat ze niet beïnvloed worden door vooroordelen die de echte data wel zouden kunnen bevatten’. Slokom benadrukt dat het bij het gebruik van synthetische data wel heel belangrijk is vóóraf te bepalen wat het doel is waarvoor je ze wilt inzetten. Nadelen zijn er echter ook. ‘Zo weerspiegelen synthetische data niet alle kenmerken van echte data en het kan moeilijk zijn om de nauwkeurigheid van de data te garanderen. Bovendien kan het gebruik van deze data leiden tot interpretatieproblemen, omdat het niet altijd duidelijk is hoe ze tot stand zijn gekomen. Immers achter elke machine zit een softwareontwikkelaar. Deze zou moeten kunnen begrijpen en uitleggen waar de synthetische data precies uit bestaan en moeten documenteren hoe ze zijn gegenereerd en wat er wel en niet mee kan.’