Beroepen classificeren met data in online vacatures

Het aantal openstaande vacatures is een belangrijke indicator voor het verloop van de Nederlandse conjunctuur. Daarnaast is het van belang te weten in welke branches en functies de spanning op de arbeidsmarkt het grootst is, en of gevraagde skills aansluiten bij de skills van mensen die nieuw op de arbeidsmarkt komen. Het CBS onderzoekt de mogelijkheid om met online vacatures een vacaturestatistiek te ontwikkelen, die achtergrondinformatie over vacatures weergeeft. Deze nieuwe statistiek zou een aanvulling zijn op de bestaande Kwartaalenquête vacatures.

Teksten van online vacatures bevatten onder meer informatie over de functie, het gevraagde opleidingsniveau, de gewenste skills, de werkgever alsmede de werklocatie. Wanneer het CBS deze gegevens uit online vacatures kan gebruiken, hoeft deze informatie niet uitgevraagd te worden bij bedrijven.
Om te kunnen publiceren over deze achtergrondkenmerken, moet de informatie uit de vacatures geclassificeerd worden naar gestandaardiseerde CBS-indelingen. In dit project wordt de mogelijkheid onderzocht om de functies in online vacatures te classificeren naar de standaard beroepenclassificatie BRC.

Samenwerking met UWV

Er zijn verschillende partijen die online vacatures verzamelen en ook classificeren. Wanneer deze classificatie van voldoende kwaliteit is, kan het CBS hier gebruik van maken en hoeft het de vacatureteksten niet zelf te classificeren. In deze eerste analyse heeft het CBS gekeken hoe goed de classificatie van het beroep uit de vacatureteksten past bij de beroepenclassificatie BRC, op basis waarvan het CBS publiceert. Hierbij is als basis gebruik gemaakt van een dataset van het Uitvoeringsinstituut Werknemersverzekeringen (UWV) met een selectie van geclassificeerde online vacatures van het bedrijf Textkernel, dat is gespecialiseerd in semantische zoek- en matchtechnologie. Textkernel haalt online vacature-informatie geautomatiseerd van het internet. Op haar beurt gebruikt het UWV online vacatures van Textkernel bij het maken van de spanningsindicator.

Ten behoeve van dit project heeft het UWV een set met zes duizend online vacatures aangeleverd bij het CBS, waarbij Textkernel de beroepen uit de vacatureteksten heeft geclassificeerd. De geclassificeerde beroepen uit deze vacatures zijn vervolgens handmatig gecontroleerd door het UWV. Het bestand bevat dus zowel de oorspronkelijke tekst uit de vacature, het geclassificeerde beroep door Textkernel, alsmede het eventueel door het UWV gecorrigeerde beroep. De selectie van zesduizend vacatures vormt een goede afspiegeling van de beroepen in een reguliere complete levering van Textkernel.

90 procent correct geclassificeerd naar BRC-beroepsklasse

Bij 90 procent van de vacatures bleek dat Textkernel het beroep in dezelfde BRC-beroepsklasse als het UWV classificeerde. De gevonden resultaten zijn relatief goed voor pedagogische beroepen, zorg en welzijn beroepen, technische beroepen, ICT-beroepen, dienstverlenende beroepen, alsmede transport- en logistiek beroepen. In deze beroepsgroepen wordt voldaan aan de 10 procent-norm die het CBS ook in de Enquête Beroepsbevolking (EBB) hanteert: per beroepsklasse mag in maximaal 10 procent van de gevallen een verkeerde code toegekend worden.

Tabel 1: Aandeel vacatures correct geclassificeerd, BRC-beroepsklassen

 

 Pedagogische beroepen 97%
 Technische beroepen 93%
 Zorg- en welzijn beroepen 93%
 ICT-beroepen 92%
 Dienstverlenende beroepen 92%
 Transport- en logistiek beroepen 92%
 Totaal 90%
 Commerciële beroepen 88% 
 Agrarische beroepen 88%
 Bedrijfseconomische en administratieve beroepen 87%
 Creatieve en taalkundige beroepen 86%
 Openbaar bestuur, veiligheids- en juridische beroepen 77%
 Managers 73%

Andere beroepsklassen voldoen niet aan de 10 procent-norm. Vooral bij de classificering van managers en overheidsambtenaren treden fouten op. In de vacatureteksten worden vacaturetitels als ‘accountmanager’ en ‘productmanager’ regelmatig geclassificeerd naar manager, terwijl het niet om leidinggevende functies gaat. Bij de beroepsklasse 'Openbaar bestuur, veiligheid en juridische beroepen' lijkt het vooral te gaan om beroepen bij de overheid, die door Textkernel als overheidsbestuurders of overheidsambtenaren worden geclassificeerd, maar die volgens het UWV in beroepsklasse bedrijfseconomische en administratieve beroepen thuishoren. Het gaat dan om functies als belastingadviseur, projectsecretaris, verzuimconsulent en wegverkeersleider.

Het werkzaam zijn bij een overheidsinstelling hoeft niet altijd doorslaggevend te zijn voor de toedeling van beroepen aan de beroepsgroepen overheidsambtenaren, of –bestuurders. Het gaat bij de toedeling immers veel meer om taken, die kenmerkend zijn voor overheidsambtenaren of -bestuurders. Het is in het kader van dit project niet systematisch onderzocht, in hoeverre de keuze van UWV voor een bepaalde code, overeenkomt met de keuze die het CBS zou maken. Het kan dus voorkomen dat er onderling een verschil van inzicht is met betrekking tot het indelen van een bepaalde vacature. Echter, gegeven de nauwe samenwerking tussen het CBS en het UWV op het gebied van afstemming van de mapping van beroepen naar BRC, is voor nu de aanname gedaan dat de beoordeling van UWV-werkbedrijf een betrouwbare weergave geeft van de kwaliteit.

Conclusie en vervolg

Voor de helft van de BRC-beroepsklassen voldoet de kwaliteit van de classificatie van Textkernel aan de door het CBS gehanteerde 10-procent norm. De andere beroepsklassen voldoen net niet aan de norm, met uitzondering van de beroepsklasse 'Openbaar bestuur, veiligheid en juridische beroepen' en de beroepsklasse 'Managers'. Vooral deze laatste beroepsklasse heeft bij publicatie een kanttekening nodig over de kwaliteit van de classificatie.

Tot slot, deze analyse gaat uitsluitend over de kwaliteit van de classificatie. Daarnaast spelen er nog andere kwaliteitsissues, zoals het ontdubbelen van vacatures en het toevoegen of wegvallen van jobboards bij het verzamelen van online vacatures. Deze issues hebben weliswaar geen invloed op de kwaliteit van de classificatie, maar wel op de kwaliteit van de cijfers in de publicatie. Het onderzoek biedt voor het CBS echter voldoende reden om zich verder te verdiepen in het gebruiken van online vacature informatie voor haar publicaties over de arbeidsmarkt. In de komende maanden hoopt het CBS ook de andere genoemde kwaliteitsissues verder te onderzoeken. Het CBS werkt hierbij nauw samen met het UWV, waarbij gestreefd wordt naar zoveel mogelijk eenduidigheid in de vacaturecijfers die door beide organisaties gepubliceerd worden.

Feedback

Het CBS wil graag uw mening weten over het gebruik van online vacatures in een nieuwe statistiek.
Dat kan een algemene indruk zijn, maar het kan ook gaan om meer specifieke punten die u goed of niet goed vindt. Is een publicatie van vacatures naar beroepsklassen in de bovengenoemde 12 categorieën bijvoorbeeld bruikbaar?