Volkstelling 2021: Nederland in vierkanten

3. De gebruikte beveiligingsmethoden

De afgelopen jaren hebben CBS’ers samen met collega’s van zes andere Europese landen twee nieuwe beveiligingsmethoden en bijbehorende software ontwikkeld. Deze methoden en software zijn inmiddels de aanbevolen aanpak voor de statistische beveiliging van Europese Volkstellingstabellen. Bij beide methoden wordt ruis toegevoegd aan de data waardoor onderdrukking van celwaarden niet nodig is. Het toevoegen van ruis gebeurt op een zodanige wijze dat de resultaten niet heel sterk verschillen van de werkelijke resultaten, terwijl geen individuele gevoelige informatie wordt onthuld.

Eurostat beveelt aan om ruis toe te voegen aan de microdata van de Volkstelling 2021 door Targeted Record Swapping: het verwisselen (swappen) van de waarde van bepaalde variabelen in records. Vervolgens worden de gewenste tabellen samengesteld. Een andere aanbevolen beveiligingsmethode is om op macroniveau ruis toe te voegen aan de uitkomsten via de Cell Key Method, door celwaarden een klein beetje te veranderen (Giessing & Schulte Nordholt, 2017).

Voor de Volkstelling 2021 heeft Nederland gekozen voor een combinatie van bovengenoemde twee beveiligingsmethoden die elk op een ander niveau van de data worden toegepast. Het voordeel van deze combinatie van twee verschillende beveiligingsmethoden die ruis toevoegen, is dat de methoden dan niet zo streng hoeven worden ingezet als bij beveiliging met één methode.

3.1 Targeted Record Swapping

Targeted Record Swapping is een methode die wordt toegepast op de microdata. Op basis van bepaalde kenmerken worden bepaalde huishoudens aangemerkt als risicohuishouden: dit zijn huishoudens die een groter risico lopen op herkenning, omdat hun combinatie van kenmerken (bijvoorbeeld geboorteland of nationaliteit) relatief weinig voorkomt in hun regio.

Als een huishouden inderdaad een risicohuishouden is, merkt de beveiligingssoftware µ-argus dit als zodanig aan en zoekt een donorhuishouden dat aan twee eisen moet voldoen:

  1. Het donorhuishouden komt uit een andere geografische regio dan het risicohuishouden;
  2. Het donorhuishouden is op bepaalde kenmerken identiek aan het risicohuishouden.

De verzameling van kenmerken waaraan het donorhuishouden moet voldoen, heet ook wel het similarity profile, of wel het gelijkenisprofiel. Dit profiel kan bestaan uit kenmerken zoals huishoudensgrootte, huishoudenstype, of huishoudensinkomen. Voor de Volkstelling van 2021 is gekozen om alleen huishoudens te verwisselen als de huishoudensgrootte en het huishoudenstype gelijk is.

Als een geschikt donorhuishouden is gevonden, worden de geografische gegevens van de huishoudens verwisseld: de personen in het risicohuishouden verhuizen als het ware naar de locatie van het donorhuishouden, en andersom. Daarbij blijven de andere gegevens van beide huishoudens, en dus van de personen in de huishoudens, gelijk.

3.1.1 Voorbeeld van Targeted Record Swapping

Deze figuur geeft een voorbeeld van Targeted Record Swapping op een fictieve kaart. De kaart bevat gebieden met verschillende regionale niveaus. Dikke lijnen geven een hoger regionaal niveau aan dan dunne lijnen. Punten op de kaart vertegenwoordigen huishoudens, waarbij vergelijkbare huishoudens dezelfde kleur hebben.  Verwisselingen aangegeven met een solide pijl zijn niet toegestaan, omdat ze binnen hetzelfde gebied plaatsvinden of niet vergelijkbare huishoudens verwisselen. De gestreepte pijlen geven verwisselingen op het hoogste niveau aan en de gepunte lijnen een verwisseling op het meest gedetailleerde niveau.

Figuur 3.1.1 geeft een voorbeeld van Targeted Record Swapping op een fictieve kaart. Dikke lijnen geven een hoger regionaal niveau aan dan dunne lijnen. Punten op de kaart vertegenwoordigen huishoudens, waarbij vergelijkbare huishoudens dezelfde kleur hebben. Verwisselingen aangegeven met een solide pijl zijn niet toegestaan, omdat ze binnen hetzelfde gebied plaatsvinden of niet vergelijkbare huishoudens verwisselen. De gestreepte pijlen geven verwisselingen op het hoogste niveau aan en de gepunte lijn een verwisseling op het meest gedetailleerde niveau. (Schulte Nordholt & De Wolf, 2022)

Op elk regionaal niveau, van landsdeel tot gemeente, wordt bepaald welke huishoudens een risicohuishouden vormen. Dan worden per regionaal niveau huishoudens verwisseld, beginnende bij het hoogste niveau (landsdeel). Op het laagste regionale niveau (gemeente) worden indien nodig extra huishoudens verwisseld, totdat het percentage verwisselde huishoudens gelijk is aan een bepaalde swap rate, die van tevoren is ingesteld.

3.2 Cell Key Methode

De cell key methode is een methode die ruis toevoegt op de geaggregeerde data: een klein getal wordt opgeteld bij of afgetrokken van de waarde in de tabelcel, zodat er ruis komt op de echte waarde. Deze specifieke methode van ruis toevoegen heeft als voordeel dat tabellen consistent met elkaar zijn: als in twee tabellen een bepaalde cel uit dezelfde personen bestaat, wordt ook dezelfde ruis hieraan toegevoegd. (Estat, 2018a) (Estat, 2018b)

De procedure werkt door aan elk individu in het microbestand een sleutel toe te voegen, de zogenaamde record key. Bij het aggregeren van de data tot tabellen worden alle record keys van de personen in een bepaalde cel omgerekend naar een gezamenlijke cell key voor deze cel. Deze cell key correspondeert met een zogenaamde perturbatietabel: een tabel die voor elke combinatie van een celwaarde en cell key aangeeft hoeveel ruis er aan de cel moet worden toegevoegd. De perturbatietabel hangt af van de gekozen maximale afwijking en variantie van de ruis. (Meindl & Enderle, 2019)

De formule om van record keys naar een cell key te gaan is altijd hetzelfde, wat betekent dat als twee cellen in verschillende tabellen uit dezelfde individuen (met dezelfde record keys) bestaan, de cell key van de cellen ook hetzelfde is. Dit is ook wat zorgt voor de eerdergenoemde consistentie van tabellen.

Een nadeel van deze methode is dat de tabel niet meer additief is: de optelling van de getallen in een rij of kolom hoeft niet overeen te komen met het desbetreffende totaal, omdat dat totaal ook is aangepast met behulp van de cell key methode, maar dan op een andere manier dan de onderliggende getallen. Een voordeel van deze methode is dat de afwijking van de totalen meestal minder groot is: in plaats van het optellen van de ruis wordt er maar eenmalig ruis aan de aggregaten toegevoegd.

3.3 Impact op gepubliceerde cijfers

Het toevoegen van ruis is een bekende methode voor het beveiligen van data: hoe groter de afwijking tussen de ‘echte’ waarde en de waarde in de tabel, des te groter de onzekerheid over de informatie die je over een persoon afleidt. Om onthulling tegen te gaan en de data van inwoners van Nederland zo veilig mogelijk te houden, worden voor de Volkstelling van 2021 de twee bovengenoemde methoden gebruikt om de informatie te beveiligen. Toch is het belangrijk om niet te veel ruis aan de data toe te voegen, omdat anders analyses op basis van de data onbetrouwbaar worden.

De twee gekozen methoden hebben allebei een ander effect op de analyses. Als gekozen was voor het toepassen van maar een van beide methoden, zou deze methode strenger toegepast moeten worden om dezelfde mate van beveiliging te behalen. In het geval van de cell key methode zou de maximale afwijking bijvoorbeeld veel groter gekozen moeten worden dan nu het geval is. Daarom is gekozen voor een combinatie van beide methoden om zo efficiënt mogelijk de data te beveiligen. Gezien de afwijkingen in de gepubliceerde cijfers die de methodes opleveren, is de impact van beide methoden groot genoeg om tegen onthulling te waarborgen, maar niet zo groot dat het veel impact heeft op de betrouwbaarheid van de data.