Nauwkeurigheid van schatters bij binaire classificatie

Omslag On the accuracy of estimators based on a binary classifier
Publicaties in de officiële statistiek worden vaak uitgesplitst naar domeinen. Het is dan belangrijk om het effect van misclassificaties tussen domeinen te bepalen op de nauwkeurigheid van deze statistieken. In dit rapport beschrijven we enkele algemene regels over het effect van classificatiefouten op statistieken per domein.

De nauwkeurigheid van statistieken per domein wordt onder andere bepaald door de nauwkeurigheid waarmee eenheden worden toegewezen aan hun juiste domein. Officiële statistieken worden steeds vaker gebaseerd op administratieve data en andere niet-traditionele databronnen. Ook neemt het gebruik van automatische classificatiemethoden toe, vaak gebaseerd op machine learning-algoritmen. Het is daarom belangrijk om te bepalen wat het effect van classificatiefouten is op de nauwkeurigheid van te publiceren statistieken.

Uit de literatuur zijn formules bekend voor de vertekening en variantie van geschatte totalen en groeivoeten per domein in het geval dat zich misclassificaties voordoen, maar deze formules zijn relatief ingewikkeld en daarmee kun je niet zo eenvoudig inzien welk effect classificatiefouten in de praktijk hebben. Het doel van dit rapport is om enkele algemene vuistregels te geven voor het effect van classificatiefouten op statistieken per domein. We concentreren ons hierbij op een eenvoudige situatie die in de praktijk vaak voorkomt: statistieken over aantallen eenheden bij twee mogelijke klassen (binaire classificatie). Voor dit geval behandelen we de nauwkeurigheid van een geschatte proportie per klasse, verschillen van geschatte proporties tussen twee perioden en groeivoeten van geschatte aantallen tussen twee perioden. De resultaten worden geïllustreerd met een voorbeeld uit de CBS-praktijk waarbij een text mining-algoritme is gebruikt om de prevalentie van cybercrime in Nederland te schatten.