Typeren van bedrijven naar economische activiteit

Onderzoek naar de geschiktheid van web-gebaseerde tekstanalysemethoden om bedrijven te typeren naar economische activiteit.
Het bepalen van de economische activiteit van een bedrijf is voor statistische bureaus een tijdrovende taak. Deze studie onderzoekt de geschiktheid van tekstanalysemethoden voor het automatisch typeren van bedrijven naar economische activiteit op basis van bedrijvenwebsites.
We richten ons daarbij een bestaande bedrijvenpopulatie die gelabeld is op basis van een classificatie in 9 top-sectoren en 29 sub-sectoren.

We hebben een aantal methodologische aspecten van machine-learning technieken geëvalueerd: verschillende manieren om verklarende variabelen te selecteren, verschillende methoden voor het bepalen van gewichten van woorden en het gebruik van verschillende tekstanalysemethoden. Verder hebben we tekstanalysemethoden geëvalueerd voor verschillende soorten data, zoals websites van eenmansbedrijven versus die van grotere bedrijven.

De best presterende methode haalde op top-sector niveau een nauwkeurigheid van 51% maar op sub-sector niveau was het resultaat een stuk minder. In de discussie presenteren we een aantal ideeën om de prestaties in de toekomst te verhogen.

Downloads