Online vacatures als bron voor statistiek

© Hollandse Hoogte

Het CBS publiceert elk kwartaal het aantal vacatures op basis van de Vacature Enquête (VE). In deze enquête wordt bij bedrijven het aantal vacatures opgevraagd. Daarnaast zoekt het CBS naar nieuwe mogelijkheden om op basis van online vacatures meer achtergrondinformatie over vacatures te verzamelen bijvoorbeeld over het gevraagde beroep, zonder de enquêtering bij bedrijven uit te breiden. Omdat het aantal nieuw ontstane online vacatures te sterk afwijkt van het aantal nieuw ontstane vacatures vanuit de Vacature Enquête (VE), is de achtergrondinformatie uit online vacatures niet direct geschikt voor publicatie. Het CBS heeft daarom een weegmodel ontwikkeld dat online vacatures combineert met data uit enquêtes en registers. Op deze manier zijn achtergrondkenmerken, zoals het gevraagde beroep, vanuit online vacatures wel bruikbaar voor publicatie.

Een volledige beschrijving van dit onderzoek is gepubliceerd in het working paper ‘Online vacatures als bron voor statistiek’.

Bron

Informatie over online vacatures wordt verzameld via webscraping op internet. Hierbij wordt systematisch gezocht naar nieuwe advertenties (postings) op websites. Vervolgens worden de teksten van de advertenties in het geheel bewaard. Het CBS heeft van het bedrijf Textkernel (gespecialiseerd in semantische zoek- en matchtechnologie) een bestand ontvangen met alle teksten van online vacatures van het vierde kwartaal van 2017 tot en met het vierde kwartaal van 2018. De bedrijven van de vacatures zijn daarbij ingedeeld naar de Standaardbedrijfsindeling (SBI) en de beroepen naar de International Standard Classification of Occupation (ISCO) en de Nederlandse vertaling daarvan, de Beroepenindeling ROA-CBS (BRC).

Dubbele postings en intermediaire vacatures

Vacatures worden vaak meerdere keren op internet teruggevonden, omdat ze op verschillende websites tegelijk worden geplaatst. Soms worden vacatures ook meerdere keren opnieuw op dezelfde website geplaatst als de vacature nog openstaat. Deze duplicaten zijn al zo goed mogelijk verwijderd door Textkernel. Vacatures kunnen geplaatst worden door het bedrijf dat personeel vraagt (directe vacatures), maar ook door een intermediair, bijvoorbeeld een uitzendbureau. Bij een intermediaire (indirecte) vacature is het vanuit de vacaturetekst vaak niet duidelijk welk bedrijf personeel vraagt, waarmee ook onbekend is in welke bedrijfstak de vacature valt.

Ondanks de ontdubbeling van vacatures en het selecteren van enkel de directe vacatures, sluit het aantal ontstane (nieuwe) vacatures vanuit webscraping niet aan op het aantal ontstane vacatures volgens de VE van het CBS. Hier zijn verschillende redenen voor. Allereerst worden niet alle vacatures online geplaatst. Daarnaast veranderen de technische specificaties van websites voortdurend waardoor vacatures plotseling juist wel of niet gevonden worden en past Textkernel algoritmes aan om vacatures beter te kunnen scrapen en ontdubbelen. Daardoor kunnen de online vacatures niet gebruikt worden om de VE als bron voor het aantal vacatures te vervangen. Het niveau van de ontstane vacatures, maar ook de trend van online vacatures wijkt daarvoor teveel af van de VE. De online vacatures kunnen wel meer informatie over de vacatures toevoegen.

Correctie bedrijfstak

Het CBS voert een aantal correcties uit op de online vacaturedata. De belangrijkste daarvan is het aanpassen van de SBI-code van het bedrijf dat de vacature aanbiedt. De SBI-code geeft aan tot welke bedrijfstak het bedrijf behoort. Textkernel heeft aan de vacature een Kamer van Koophandel(KvK)-nummer en SBI-code toegekend gebaseerd op de naam en locatie van het bedrijf volgens de vacaturetekst. De bedrijfstakinformatie van Textkernel lijkt soms verouderd, of niet van toepassing op de hoofdactiviteit van het bedrijf. Daarom heeft het CBS zelf een SBI-code toegewezen op basis van het Algemeen Bedrijvenregister (ABR). Daarnaast worden SBI-codes door het CBS gecorrigeerd wanneer Textkernel een verkeerd KvK-nummer heeft gebruikt of een KvK-nummer ontbreekt.
Deze SBI-wijzigingen leiden op het eerste gezicht niet tot grote aanpassingen in aandeel vacatures per bedrijfstak op het geaggregeerde niveau van secties. Wanneer we bedrijfstakken echter in meer detail bekijken, bijvoorbeeld verschillende subbranches binnen de gezondheidszorg, dan zien we grotere verschillen tussen het aantal vacatures per subbranche volgens de SBI-toekenning van Textkernel en de SBI-toekenning van het CBS. Voor publicatie naar meer detail binnen bedrijfstakken blijkt de SBI-toekenning van Textkernel niet voldoende geschikt. Het CBS gebruikt daarom voor het vervolg van dit onderzoek de SBI-code uit het ABR.

Weging

Het CBS heeft een weegmodel ontwikkeld dat online vacatures combineert met data uit enquêtes en registers. Bij de ontwikkeling van het weegmodel kon het CBS voortborduren op een methode ontwikkeld door het UWV om online vacatures te wegen naar het totaal aantal vacatures uit de VE. Het CBS heeft een aantal verbeteringen doorgevoerd, waaronder de toekenning van de SBI-codes vanuit het ABR en een andere verwerking van intermediaire vacatures, waardoor het mogelijk is om ook aan te sluiten op het aantal vacatures per bedrijfstak uit de VE. De aansluiting op de VE per bedrijfstak is belangrijk, omdat de VE een betrouwbaarder beeld geeft van de vacatures per bedrijfstak dan de online vacatures.

Om aan te sluiten bij het aantal vacatures per bedrijfstak uit de VE, krijgen de online vacatures elk een eigen gewicht. Deze gewichten worden zo toegekend dat ze zo goed mogelijk corrigeren voor:

  • Vacatures met verschillende beroepsniveaus. Voor elementaire beroepsniveaus wordt er minder online geworven en meer andere kanalen ingezet. Lagere beroepsniveaus krijgen daarom een hoger gewicht dan hogere beroepsniveaus, afgeleid uit het aandeel werkenden naar beroepsniveau uit de Enquête Beroepsbevolking (EBB);
  • Indirecte vacatures via intermediairs. Intermediairs kunnen de enige bron zijn voor een vacature, maar kunnen ook zorgen voor meer dubbele vacatures. Als er voor een vacature zowel direct als indirect online geworven wordt, is het niet altijd duidelijk dat het om dezelfde vacature gaat en wordt er dus niet altijd ontdubbeld. De indirecte vacatures krijgen daarom een kleiner gewicht dan de directe vacatures;
  • Directe vacatures met een onbekende bedrijfstak, zodat deze bij de juiste beroepsniveaus worden meegeteld;
  • Aansluiting van de ontstane vacatures per bedrijfstak bij de aantallen uit de VE voor ieder kwartaal.

Nu iedere online vacature een gewicht heeft gekregen, is het mogelijk om robuuste vacaturecijfers te berekenen per beroepsklasse. Ook is het mogelijk om beroepsklassen van vacatures binnen een bepaalde bedrijfstak samen te stellen. In dit onderzoek zijn de vacatures voor de bedrijfstak Zorg en Welzijn in meer detail geanalyseerd. In deze bedrijfstak heeft het CBS meer correcties op detailniveau uitgevoerd, waarmee het mogelijk is om in meer detail over deze bedrijfstak te publiceren. Ter illustratie volgen hier enkele uitkomsten.

Resultaten

Beroepsklassen

In de periode van het vierde kwartaal van 2017 tot en met vierde kwartaal van 2018 ontstonden 1,44 miljoen nieuwe vacatures. Het aantal ontstane vacatures per kwartaal varieerde van 259 duizend in het vierde kwartaal 2017 tot 313 duizend vacatures in het tweede kwartaal van 2018.

Ontstane vacatures aandeel beroepsklasse
BRC 2014 beroepsklasse4e kwartaal 2017 (%)1e kwartaal 2018 (%)2e kwartaal 2018 (%)3e kwartaal 2018 (%)4e kwartaal 2018 (%)
Technische beroepen20,521,020,118,419,8
Bedrijfseconomische en administratieve beroepen18,218,117,117,818,4
Commerciële beroepen14,013,913,814,213,4
Dienstverlenende beroepen10,210,411,211,19,7
Zorg en welzijn beroepen9,99,68,99,39,5
Transport en logistiek beroepen6,76,87,37,67,3
Managers7,27,16,96,97,2
ICT beroepen6,36,15,66,16,5
Pedagogische beroepen3,63,35,65,04,9
Openbaar bestuur, veiligheid en juridische beroepen1,41,51,41,51,6
Agrarische beroepen1,11,31,31,21,1
Creatieve en taalkundige beroepen0,90,80,80,80,8
Bron: CBS, Textkernel

In elk van de vijf kwartalen was de vraag naar technische beroepen het grootst en de vraag naar creatieve en taalkundige beroepen het kleinst. De verhoudingen tussen de beroepsklassen is vrij stabiel over de tijd. Meerdere beroepsklassen volgen een algemeen seizoenspatroon; het aantal vacatures neemt in de eerste helft van het jaar toe, met een maximum in de lente, en minder tegen het einde van het jaar.

Bij dienstverlenende beroepen is het aantal ontstane vacatures duidelijk hoger in de lente en zomer. Dit wordt onder meer veroorzaakt door een piek in horecavacatures in het zomerseizoen. De vraag naar pedagogische beroepen is met name hoger in het tweede kwartaal, voor aanvang van het nieuwe schooljaar.

Vacatures Zorg & welzijn naar branche

Uit de Vacature Enquête van het CBS blijkt dat er 191 duizend vacatures zijn ontstaan in de bedrijfstak Zorg en Welzijn in de vijf onderzochte kwartalen ( vierde kwartaal 2017 tot en met vierde kwartaal 2018). Het aantal ontstane vacatures voor zorg en welzijn loopt op van 36 duizend vacatures in het vierde kwartaal van 2017 tot 40 duizend in het derde kwartaal 2018.
De meeste vacatures komen vanuit de branche verpleging, verzorging en thuiszorg. In het laatste kwartaal van 2018 zijn daar ruim 10 duizend vacatures verschenen. Dat komt ook overeen met de verwachting: de branche verpleging, verzorging en thuiszorg heeft de meeste werknemers binnen de zorg en welzijn. De minste vacatures komen vanuit de huisartsen en gezondheidscentra. Dit zijn over het algemeen kleine instellingen met weinig werknemers: huisartsen in een maatschap zijn bijvoorbeeld geen werknemers, maar zelfstandigen. De praktijkondersteuner werkt vaak wel in loondienst.

Ontstane vacatures vierde kwartaal 2018
AZW HoofdbrancheAantal vacatures
Verpleging, verzorging en thuiszorg9195
Gehandicaptenzorg5018
Ziekenhuizen en ov.med.spec. Zorg4277
Geestelijke gezondheidszorg3408
Overige Zorg en Welzijn2999
Sociaal werk1911
Kinderopvang (incl. peuterspeelzaalwerk)1644
UMC's1127
Jeugdzorg742
Huisartsen en gezondheidscentra476
Bron: CBS, Textkernel

Privacy

Voor dit onderzoek zijn de geclassificeerde online vacaturedata van Textkernel gebruikt, waarin geen informatie over individuele personen is opgenomen. De gebruikte gegevens zijn vervolgens geaggregeerd naar bedrijfstak en beroepssegment zodat individuele bedrijven niet identificeerbaar zijn in publicaties.

Feedback

Het CBS wil graag uw mening over dit onderzoek en de ontwikkelde methode weten. Heeft u bijvoorbeeld ideeën over mogelijke toepassingen of suggesties om deze methode te kunnen verfijnen? Wij nodigen u van harte uit om via onderstaand formulier uw feedback te geven.

Je browser wordt niet ondersteund. Upgrade je browser. Je hebt een inconsistente user-agent geleverd bij het oplossen van de uitdaging. Mogelijk heb je browserextensies of -instellingen ingeschakeld om de user-agent te vervalsen en moet je deze uitschakelen om door te gaan. Een deel van Turnstile is per ongeluk in de cache opgeslagen. Wis gelieve je cache. De tijd op de klok klopt niet. Zet je klok op de juiste tijd. Een ongespecificeerde fout heeft zich voorgedaan.