Evalueren van een tekstanalysemodel voor subpopulaties

In dit rapport analyseren we wat er nodig is om het in 2019 ontwikkelde bètaproduct verder te ontwikkelen tot een officiële statistiek over het aandeel misdrijven dat cyber-gerelateerd is, uitgesplitst naar diverse subpopulaties.
We gebruiken misdaadsoort als voorbeeld van een uitsplitsing. We onderzoeken drie aandachtspunten: de invloed van lege tekstvelden, vertekening door voorspelfouten en het verschil in voorspelkwaliteit tussen misdaadsoorten. Elk van de drie aandachtspunten zijn onderzocht en oplossingen worden voorgesteld. Het verschil in voorspelkwaliteit tussen misdaadsoorten is het lastigst om te verhelpen. De gebruikte methode om verschillen in voorspelkwaliteit te evalueren, kan ook bruikbaar zijn voor andere toepassingen waarbij machine learning wordt gebruikt.