3. Ontwerpschets afzetregister biociden
3.1 Standaard statistisch proces
Het Nederlands afzetregister biociden weerspiegelt een standaard statistisch proces, dat niet anders is dan dat van andere statistieken die het CBS samenstelt. In essentie: Bedrijven leveren input waarvan statistische output wordt gemaakt.
Het statistisch proces voor een afzetregister voor biociden in een notendop is als volgt (zie Figuur 3.1.1):
- Het populatiekader: de geregistreerde toelatingshouders voor biociden.
- De input: de door deze toelatingshouders geleverde jaarverkopen per toelating.
- De dataverwerking: zoals de omrekening van de producthoeveelheden naar de hoeveelheden werkzame stof, met gebruikmaking van informatie over gehalten.
- De output: de hoeveelheden werkzame stof per verslagjaar.
3.2 Het waarneemproces
Het waarneemproces, het verzamelen van de ruwe data, begint met het ontwerp van de waarneming. De gegevens van het ‘College voor de toelating van gewasbeschermingsmiddelen en biociden’ (Ctgb) zijn onmisbaar voor dit proces. In het pilot-onderzoek wordt uitgegaan van een jaarlijkse uitvraag onder de bij het Ctgb geregistreerde toelatingshouders via een upload van een Excelbestand.
In het ontwerp van de waarneming dient meegenomen te worden wat het effect is op de verdere dataverwerking (stappen 1 t/m 4 in Figuur 3.1.1), qua te besteden tijd en de kwaliteit en kwantiteit van de uiteindelijk vrij te geven data. Een ander ontwerp zal dan ook een andere impact hebben. In de toekomst zou de upload van een Excelbestand een online in te vullen vragenlijst kunnen worden. Er kan ook een andere frequentiebehoefte ontstaan. Bijvoorbeeld, bij een zeer schadelijk middel met een seizoenafhankelijkheid.
Een Excel upload één-op-één vervangen door een online vragenlijst zal waarschijnlijk weinig effect hebben. Er wordt immers dezelfde data verkregen, maar dan volgens een ander aanleverkanaal. Flink meer effect heeft het als er bij enkele middelen maandelijks waargenomen gaat worden, terwijl de andere middelen een jaarlijkse uitvraag behouden.
Als het ontwerp van de waarneming klaar is, wordt de waarneming voorbereid en uitgevoerd. Dit bestaat onder meer uit:
- De vertaalslag van de bij het Ctgb geregistreerde toelatingshouders naar het bedrijvenregister van de registerhouder (het populatiekader);
- De uitzending van de aanschrijfbrief en rappel(s);
- De verwerking van alle binnengekomen informatie;
- De helpdesk voor de beantwoording van de vragen van de toelatingshouders.
3.3 De dataverwerking
De informatie van het Ctgb is de motor achter de dataverwerking. Deze wordt als volgt ingezet:
- Het statistisch proces begint met het bepalen van het populatiekader. Welke bedrijven ontvangen het verzoek om data te leveren? In het pilot-onderzoek is de bij het Ctgb bekende populatie aan toelatingshouders als populatiekader gebruikt.
- De binnengekomen ruwe data wordt eerst gestandaardiseerd en bewerkt (stappen 1 en 2 in Figuur 3.1.1). Daarna worden daar statistieken van gemaakt (stap 3 in Figuur 3.1.1).
- In stap 2 wordt de omrekening gedaan van producthoeveelheden (de afzetgegevens aangeleverd door de toelatingshouders) naar hoeveelheden werkzame stoffen. Dit gebeurt met Ctgb-informatie over werkzame stofgehalten in de toegelaten middelen.
In het dataverwerkingsproces gaat het om de volgende datavormen:
- Ruwe data: Alle data die door de registerhouder zijn verzameld: door eigen waarneming en/of de data die door andere organisaties worden aangeleverd.
- Gestandaardiseerde data: De data zijn hier dusdanig gestandaardiseerd, zonder inhoudelijke aanpassingen, dat deze probleemloos gebruikt kunnen worden in de verdere dataverwerkingsprocessen.
- Bewerkte data: De data hebben hier door inhoudelijke aanpassingen een dusdanige hoge kwaliteit gekregen dat de microdata geschikt zijn om er statistieken van te maken.
-Statistieken: De statistieken zijn de som van de bewerkte data (respons) en een bijschatting van de non-respons, waarbij de verkregen aggregaten nog niet statistische beveiligd zijn. - Vrijgegeven data: Hier zijn de data statistisch beveiligd ten behoeve van publicatie en extern gebruik.
In de komende paragrafen wordt elke datavorm verder toegelicht.
3.3.1 Ruwe data
De ruwe data omvat alle data dat voortkomt uit het waarneemproces, door eigen waarneming of komend van andere organisaties. Er wordt hier geen inhoudelijke toets gedaan. Naast checks op leesbaarheid, bruikbaarheid en of er geen virussen in zitten, dient vooral gecontroleerd te worden of de verkregen ruwe data voldoet aan de vooraf gemaakte afspraken over:
- Te leveren data (o.a. bestandsformat, variabelen)
- Informatie over administratieve respons en non-respons (o.a. effect van rappels)
- Welke extra informatie er nodig is (o.a. hoe verliep het waarneemproces)
De ruwe data bevat ook informatie voor niet-statistische doeleinden. Denk hierbij aan de contactinformatie met dataleveranciers (o.a. mails, telefoontjes). Vanwege het vertrouwelijke karakter daarvan mag de ruwe data alleen in bezit komen van geautoriseerde gebruikers in het waarneemproces.
3.3.2 Gestandaardiseerde data
Bij gestandaardiseerde data gaat het om ruwe data, die dusdanig technisch aangepast is dat het onder bepaalde voorwaarden hergebruikt kan worden door anderen én dat het ook geschikt is om probleemloos te gebruiken in dataverwerkingssystemen. Vertrouwelijke contactinformatie is verwijderd, omdat dit alleen voor het waarneemproces nodig is en geen waarde toevoegt aan de herbruikbaarheid.
De middelste datavormen in Figuur 3.1.1 (gestandaardiseerde data, bewerkte data, statistieken) mogen alleen binnen de organisatie van de registerhouder hergebruikt worden als er aan bepaalde voorwaarden voldaan wordt, zoals doelbinding, zie beschrijving daarvan in De AVG in het kort (AP, Geraadpleegd december 2025). Er wordt aangenomen dat de registerhouder de gestandaardiseerde data alleen voor het doel Nederlands afzetregister biociden gaat gebruiken (zonder hergebruik voor andere doelen).
De zelf verzamelde data wordt door de registerhouder zelf gestandaardiseerd. Bij de data van externe partijen hangt het van de gemaakte afspraken af in welke mate standaardisatie nog nodig is. Ook worden er technische controles gedaan. Er is een check op de leveringsvorm en er kan gekeken worden of de levering compleet is (bijv. klopt het aantal toelatingshouders dat in het bestand zou moeten zitten). Verder gaat het om de juiste schrijfwijze van getallen (punten versus komma’s), de juiste namen voor variabelen en classificaties, de correcte metadata, de vulling van de kolommen en de juiste kolomkoppen. Als iets niet in orde is, dan kan de dataleverancier of registerhouder dat herstellen en/of er komen nieuwe leveringsafspraken.
3.3.3 Bewerkte data
Het inhoudelijk corrigeren van de data gebeurt in stap 2 (zie Figuur 3.1.1). De gestandaardiseerde data wordt dan omgezet in bewerkte data. Het gaat hier om het detecteren en corrigeren van de fouten in de geleverde respons. Het gaat ook om het afleiden van nieuwe variabelen door wat er geleverd is te verrijken met aanvullende informatie.
Bij dat laatste gaat het om de omrekening van uitgevraagde producthoeveelheden naar werkzame stof hoeveelheden door gebruik te maken van de Ctgb-informatie over werkzame stofgehalten (hiervan wordt een hulpbestand gemaakt). Bij sommige middelen wordt de hoeveelheid niet in gewicht opgegeven maar met een volumemaat, zoals aantal liters verf bij ‘antifouling’ (tegengaan van aangroei van wieren, algen en schelpen op onderzijde van boten). In dit soort gevallen moet de soortelijke massa (kg/liter) van desbetreffend middel worden gevonden om het gewicht van de werkzame stof te berekenen. De soortelijke massa is niet bij het Ctgb te vinden en dient bij de toelatingshouder uitgevraagd te worden.
Het is belangrijk dat de dataverwerking transparant, beheersbaar en reproduceerbaar is. Hier geldt als uitgangspunt dat er ‘regelgestuurd’ gewerkt dient te worden. Dat houdt in dat voor iedere mogelijke aanpassing vaste detectie- en correctieregels worden bedacht, inclusief een vaste werkwijze om nieuwe variabelen aan te maken. Dit wordt vertaald in softwareregels.
Sommige soorten fouten komen bij elke data-inzameling voor. Denk bijvoorbeeld aan verkeerd gebruik van de eenheid. Er wordt dan een getal in grammen ingevuld (bijvoorbeeld 12.000), maar het had in kilogrammen gemoeten. Na detectie van deze eenheid-fout wordt het ingevulde getal door 1.000 gedeeld (12 kg). Voor dit soort standaardfouten is een geautomatiseerde dataverwerking de norm.
Helaas zijn niet alle correcties (en detectie van fouten) in een standaardmal te gieten. In de praktijk blijven er altijd ‘handmatige correcties’ nodig. Die zijn dan te uniek om in een algemeen geldende standaardregel te gieten. In regelgestuurd werken worden de handmatige correcties nauwgezet bijgehouden, waardoor deze traceerbaar en reproduceerbaar zijn. Bovendien is kennis van handmatige correcties nodig om het dataverwerkingsproces steeds verder te optimaliseren. De beschikbare tijd is immers schaars.
Het regelgestuurd werken zorgt ervoor dat de aanpassingen in de dataverwerking voor iedereen duidelijk zijn (transparantie), dat soortgelijke gevallen iedere keer op soortgelijke wijze gecorrigeerd worden (beheersbaarheid), en dat het niet uitmaakt wie de software uitvoert (reproduceerbaarheid). In de praktijk kan het aanmaken van nieuwe variabelen vrij eenvoudig in softwareregels vertaald worden (mits deterministisch en niet modelmatig), maar zal de automatisering van de detectie en correctie van fouten niet eenvoudig zijn. Door ervaring op te doen zullen bij gebruik van een register steeds meer handmatige correcties getransformeerd worden naar standaard (software)regels voor detectie en automatische correctie.
Bij de detectie van fouten gaat het niet alleen om een plausibiliteitscheck, die bepaalt in welke mate de geleverde gegevens (on)betrouwbaar zijn. Het omvat ook een volledigheidscheck (niet elke variabele hoeft ingevuld te zijn) en of een toelatingshouder eenzelfde variabele meerdere keren heeft aangeleverd (dubbeltellingen zijn ongewenst: welke datalevering is juist?). Na de detectie van een mogelijke fout dient (automatisch) beslist te worden of correctie nodig is en, zo ja, of gegevens verwijderd, aangevuld, opgeteld, of gewijzigd dienen te worden. Om het detectie- en correctieproces te verbeteren, helpt het om ook de metagegevens over het hele aanpasproces te monitoren (o.a. hoe vaak een fout voorkomt).
3.3.4 Statistieken
Stap 3, van bewerkte data naar statistieken (zie Figuur 3.1.1), gaat over het bijschatten van de non-respons om daarmee een schatting van het totaal te krijgen. De non-respons bestaat uit de toelatingshouders die niet gerespondeerd hebben, aangevuld met de toelatingshouders die wel gerespondeerd hebben maar waarvan de respons niet bruikbaar bleek te zijn. Daarbovenop bestaat de non-respons ook uit het deel van de populatie dat überhaupt niet uitgevraagd is. Er bestaan meerdere manieren om de bijschatting te doen. Zo kan aan elk bedrijf met bruikbare respons over verkochte hoeveelheden een ophoogfactor worden toegekend, dusdanig dat de ‘bedrijvensom van ophoogfactor x kilogram’ het totaal aan kilogrammen geeft.
Het bijschatten van de non-respons valt buiten de scope van het pilot-onderzoek. De eerste indruk is, dat het lastig zal zijn om voor deze bijschatting een goede methode te ontwikkelen. Dit komt door het unieke karakter van een relatief groot deel van de populatie; d.w.z. (te) veel werkzame stoffen zijn gekoppeld aan slechts één toelatingshouder. Respondeert zo’n unieke toelatingshouder niet, dan tast je in het duister welke hoeveelheid werkzame stof daarbij hoort.
Als zo’n unieke toelatingshouder jarenlang niet respondeert, dan kan de missende hoeveelheid niet geschat worden vanuit de eerdere jaaropgave(n). Door het unieke karakter van de niet responderende toelatingshouder bestaat er ook geen vergelijkbare toelatingshouder, waarvan de respons gebruikt zou kunnen worden voor de bijschatting van de non-respons. Het is dus nodig om te streven naar honderd procent bruikbare respons.
3.3.5 Vrijgegeven data
Als laatste stap dient er goedkeuring te komen om de statistische output vrij te geven. Niet alle data mag zomaar naar buiten. In beginsel mag de data niet individueel herleidbaar zijn. Er wordt daarom statistische beveiliging toegepast. Zo geldt binnen het CBS statistische geheimhouding, zie artikel 37 in de Wet op het Centraal bureau voor de statistiek (Overheid, Geraadpleegd november 2025a), zie ook hieronder:
Artikel 37 CBS Wet
- De door de directeur-generaal in het kader van de uitoefening van de taken ter uitvoering van deze wet ontvangen gegevens worden uitsluitend gebruikt voor statistische doeleinden.
- De in het eerste lid bedoelde gegevens worden niet verstrekt aan anderen dan degenen die belast zijn met de uitvoering van de taak van het CBS.
- De in het eerste lid bedoelde gegevens worden slechts zodanig openbaar gemaakt dat daaraan geen herkenbare gegevens over een afzonderlijk persoon, huishouden, onderneming of instelling kunnen worden ontleend, tenzij, ingeval het gegevens met betrekking tot een onderneming of instelling betreft, er een gegronde reden is om aan te nemen dat bij de betrokken onderneming of instelling geen bedenkingen bestaan tegen de openbaarmaking.
Dit wetsartikel impliceert dat het CBS de tijdens het statistische proces gebruikte gegevens niet mag delen met anderen en dat de gepubliceerde statistische output niet herleidbaar mag zijn naar individuele bedrijven. Zie CBS - Onze organisatie (CBS, Geraadpleegd november 2025b) en Zo waarborgt CBS beveiligde uitwisseling van gegevens (CBS, Geraadpleegd november 2025a).
De strikte toepassing van de CBS-beveiligingsregels beperkt de publicatie van de verkochte hoeveelheden aan biociden enorm, als per afzonderlijke werkzame stof de hoeveelheid gepubliceerd dient te worden. Na toepassing van CBS-beveiligingsregels mogen van ongeveer driekwart van de werkzame stoffen geen hoeveelheden gepubliceerd worden.
Als soortgelijke werkzame stoffen samengevoegd kunnen worden tot een logische groep, kan er op groepsniveau meer naar buiten gebracht. Dit brengt echter informatieverlies met zich mee, omdat op groepsniveau de informatie over de toxiciteit en toepassingsbereik verdwijnt. Er is (nog) geen geschikte classificatie beschikbaar om zo’n optelling naar stofgroepen te doen.
Voor andere organisaties dan het CBS gelden beveiligingsregels die minder strikt zijn. Er kan dan (veel) meer informatie vrijgegeven worden dan wat het CBS wettelijk mag doen. Bij openbaar beschikbare informatie gaat het om de door de registerhouder vrijgegeven data en de door het Ctgb naar buiten gebrachte informatie.
Als de registerhouder zelf aanpassingen en verrijkingen op de Ctgb-informatie doorvoert, en Ctgb heeft dat niet overgenomen, dan is het geen vanzelfsprekendheid dat het toegevoegde deel ook openbaar gemaakt mag worden. Het kan bij die toevoegingen om vertrouwelijke informatie gaan. In zekere zin geldt voor de Ctgb-informatie (populatiekader en werkzame stofgehalte) een soortgelijk standaardproces als in Figuur 3.1.1. Alleen de eerste drie datavormen spelen een rol. Ctgb-informatie komt als ruwe data binnen en wordt daarna gestandaardiseerd en bewerkt. Het dient daarna als hulpinformatie in het dataverwerkingsproces horend bij de afzetgegevens (via A, B en C in Figuur 3.1.1).
3.4 Populatiekader
De informatie van het Ctgb over de toelatingshouders en hun toelatingen is geschikt om in het pilot-onderzoek als populatiekader ingezet te worden. Zoals beschreven in paragraaf 1.1 in de eerdere CBS-dataverkenning (CBS, 2024a) is deze informatie niet compleet. Zonder in detail te treden bestaan er toelatingen die niet geregistreerd zijn bij het Ctgb in Nederland, maar wel bij de Europese tegenhanger (de toelatingendatabase van ECHA: European Chemicals Agency). Het gaat dan om de Toelatingen van de Unie en de Vereenvoudigde toelatingen, waarvoor het Ctgb niet de beoordelende autoriteit was.
Bij de Toelatingen van de Unie gaat het om een EU-brede toelating. Er is dan geen specifieke nationale toelating nodig om het in een EU-lidstaat op de markt te brengen. De Vereenvoudigde toelatingen zijn erop gericht om het gebruik te bevorderen van biociden die minder schadelijk zijn voor het milieu en de gezondheid van mens en dier. Deze producten voldoen aan bepaalde wettelijk vastgelegde criteria; ze bevatten bijvoorbeeld geen (zeer) zorgwekkende stoffen. Bij Vereenvoudigde toelatingen kan een vereenvoudigde toelatingsprocedure gevolgd worden in een EU-lidstaat en mag het na goedkeuring ook in de andere EU-lidstaten verkocht worden.
Het is nu geen optie om in plaats van Ctgb-informatie over te stappen naar ECHA-informatie. Het is weliswaar de bedoeling dat de ECHA-database alle nationale toelatingen van de Europese Unie gaat opnemen, maar dit is in een langdurige overgangssituatie. Het kan 10 tot 15 jaar duren voordat alle nationale toelatingen opgenomen zijn in de ECHA-database. Bovendien is er geen goede reden te bedenken om nu al over te stappen op de ECHA-database. De Ctgb-informatie is immers voldoende compleet om in de komende jaren zinvolle statistieken op te zetten over de afzet van biociden in Nederland, met name als het gaat om ‘biociden met relatief ernstige gevaarseigenschappen’, zoals gewenst in paragraaf 2.1.
De eerste jaren zal de registerhouder de Ctgb-informatie moeten inzetten als primaire input voor het populatiekader. Gaandeweg kan de registerhouder de Ctgb-informatie verrijken met ECHA-toelatingen, voor zover dat nodig is voor het in beeld brengen van de afzet van biociden in Nederland. Parallel hieraan wordt de ECHA-database steeds completer. Waarschijnlijk zal in de toekomst de primaire input voor het populatiekader grotendeels of zelfs volledig van ECHA komen in plaats van het Ctgb.
Er bestaan ook andere redenen om het populatiekader door de registerhouder aan te passen, waarbij het geen vanzelfsprekendheid is dat het Ctgb deze aanpassingen in de eigen database overneemt. Denk bijvoorbeeld aan de toelatingshouders met een buitenlands adres, die niet altijd de verkoop naar de Nederlandse markt zelf doen, maar voor deze verkopen een lokale distribiteur inschakelen. Als de registerhouder de contactgegevens van deze lokale distribiteurs toevoegt aan het populatiekader, dan is het niet vanzelfsprekend dat het Ctgb deze gegevens ook gaat registreren.
3.5 Bevindingen
Het hangt van de registerhouder (en andere keuzes) af in welke mate de in dit hoofdstuk geschetste ontwerp gevolgd wordt. Er kan rekening gehouden worden met:
1) Maak het waarneemproces niet te complex
Het inzamelen van de ruwe data begint met het ontwerp van het waarneemproces. Maak dit niet te complex. Voor het Nederlands afzetregister biociden worden daarom alleen de jaarverkopen van toelatingshouders uitgevraagd (die van het voorafgaande jaar). Dit kan via een Excel upload, die op termijn vervangen kan worden door een (online) vragenlijst. Andere aanpassingen (zoals een frequentieverhoging van jaar naar maand) zijn voorlopig niet aan te raden, omdat deze te veel effect hebben op het dataverwerkingsproces en het daarvoor te bouwen verwerkingssysteem.
2) Transparante, beheersbare en reproduceerbare dataverwerking
De ruwe data kan bestaan uit data die door de registerhouder zelf is verzameld. Het kan ook door externe partijen worden aangeleverd. Alle binnengekomen ruwe data doorlopen dezelfde datastroom. Het wordt gestandaardiseerd, bewerkt (waaronder de omrekening naar werkzame stoffen), opgehoogd naar totale populatie, en uiteindelijk vrijgegeven. De dataverwerking dient transparant, beheersbaar en reproduceerbaar te zijn. Het liefst gebeurt het hele proces met één-druk-op-de-knop, maar in de praktijk zullen handmatige acties altijd nodig zijn. Vooral bij de start van de implementatie. Er zijn dan nog weinig standaard detectie- en correctieregels bekend, die in de software verwerkt kunnen worden.
3) Verzamelde data dient alleen het statistische doel van het register
De binnengekomen ruwe data dient ontdaan te worden van vertrouwelijke gegevens die verzameld zijn voor niet-statistische doeleinden (zoals de contactinformatie met dataleveranciers). Het primaire doel van de dataverwerking is gebonden aan het statistische doel om de jaarlijkse verkochte hoeveelheden van werkzame stoffen te bepalen. Onder strikte voorwaarden, zoals doelbinding, kunnen de gestandaardiseerde data, de bewerkte data en de statistieken ook voor andere organisatiedoelen gebruikt worden. Er wordt aangenomen dat de verzamelde data alleen het statistische doel van het Nederlands afzetregister biociden dient en geen andere organisatiedoelen. Voor de andere doelen kan de vrijgegeven data worden gebruikt (zie Figuur 3.1.1).
4) Statistische beveiliging verhindert het vrijgeven van gegevens
Als het CBS de regelgeving rondom statistische beveiliging strikt toepast, dan mag van ongeveer driekwart van de werkzame stoffen geen hoeveelheid worden gepubliceerd. Het CBS mag die data ook niet delen met andere organisaties. Op bijvoorbeeld stofgroepenniveau kan meer data worden vrijgegeven. Er is niet verkend wat een geschikte classificatie is om een aggregatie naar stofgroepen uit te voeren.
5) Het streven is honderd procent bruikbare respons
Er zijn te veel werkzame stoffen waaraan slechts één toelatingshouder is gekoppeld. Mis je van deze unieke toelatingshouders de respons, dan is de bijschatting van de missende respons al snel te lastig of zelfs onmogelijk. Eigenlijk geldt voor vrijwel alle werkzame stoffen dat er maar enkele toelatingshouders aan zijn gekoppeld. In de statistische praktijk impliceert dit, dat alle toelatingshouders dienen te worden aangeschreven en dat daarbij honderd procent bruikbare respons nagestreefd moet worden.
6) Ctgb-informatie is primaire input voor het populatiekader
De informatie van het Ctgb over de toelatingshouders en toelatingen is voldoende compleet om als populatiekader te dienen voor het Nederlands afzetregister biociden. Het kan in de (verre) toekomst steeds completer gemaakt worden.