Auteur: Chantal Melser, Sven Meijs, Anouk de Rijk en Mark van der Loo
Online vacatures als nieuwe informatiebron voor vacatures in de VVT

4. Beschrijving van de data en aandachtspunten

4.1 Beschrijving van de brondata

In dit rapport beperken we ons tot een samenvatting van de methode voor het verkrijgen van de data over online vacatures. Voor details verwijzen we naar de working paper 'Online vacatures als bron voor statistiek'.

Online vacatures worden verzameld via webscraping. Hierbij wordt eerst systematisch gezocht naar nieuwe advertenties (postings) op websites. Dit is uitgevoerd door het bedrijf Textkernel, dat gespecialiseerd is in semantische zoek- en matchtechnologie. Het CBS heeft zowel de volledige vacatureteksten ontvangen als ook geclassificeerde gegevens. Vacatures worden vaak meerdere keren op internet teruggevonden, omdat ze op verschillende websites tegelijk worden geplaatst. Duplicaten worden door Textkernel uit het bestand verwijderd.

4.2 Classificaties

Textkernel classificeert de beroepen naar de International Standard Classification of Occupation (ISCO) en de Nederlandse vertaling daarvan (BRC). Voor de classificatie van bedrijven en instellingen hebben we voor dit onderzoek gebruik gemaakt van de Standaardbedrijfsindeling (SBI) uit het Algemeen Bedrijvenregister (ABR) van het CBS. Hierbij wordt gebruik gemaakt van een zwaartepunttypering. Dit heeft als gevolg dat de onderverdeling naar Verpleging en Verzorging en Thuiszorg niet helemaal scherp is te maken, omdat organisaties vaak beide vormen van zorg aanbieden, maar slechts in één SBI worden ingedeeld. Zie hiervoor ook paragraaf 4.4 Aandachtspunten.

4.3 Weegmodel

Niet alle vacatures worden online gepubliceerd. Het CBS heeft daarom een weegmodel ontwikkeld om aan te sluiten bij de randtotalen van de vacature-enquête. Iedere vacature krijgt een weging, waarbij één online vacature meegeteld wordt voor een aantal vacatures, afhankelijk van sector, beroepsniveau en kwartaal. Na de weging komt het absolute aantal vacatures uit de online vacaturedata overeen met de vacature-enquête.

Daarnaast is door het CBS een weegmodel gemaakt zodat de online vacatures ieder kwartaal geheel aansluiten bij de aantallen van de vacature-enquête naar SBI-bedrijfstak en beroepsniveau. De totale aantallen in dit rapport voor de hele Nederlandse arbeidsmarkt en voor de sector Zorg en Welzijn zijn daarom altijd identiek aan de gepubliceerde cijfers op StatLine over ontstane vacatures uit de vacature-enquête. Alle informatie op detailniveau onder deze indelingen is nieuw.

Vacatures voor vrijwilligers en stagiaires zijn niet meegenomen omdat dit geen vacatures zijn voor reguliere banen. Deze zijn niet opgenomen in de vacature-enquête, en er is daarom ook nog geen geschikt weegmodel om deze te laten aansluiten bij de juiste aantallen.

Uit deze ontstane vacatures met hun bijbehorende gewicht zijn alle selecties en groepen gemaakt in dit rapport. Deze vormen de basis voor alle figuren en leveren alle teksten voor de textmining naar de gevraagde vaardigheden.

4.4 Aandachtspunten

Bij de analyse zijn we een aantal opvallende zaken tegengekomen waarmee rekening moet worden gehouden bij de interpretatie van de resultaten en mogelijkheden voor verdere analyses.

Ontstane vacatures

De huidige online vacaturecijfers gaan over de nieuw ontstane vacatures. Wat nog niet uit deze nieuwe bron aanwezig is, zijn de openstaande vacatures en de moeilijk vervulbare vacatures. De ‘vacaturegraad’ in dit rapport (vacatures per duizend banen) is dan ook een benadering op basis van de nieuw ontstane vacatures, deze wijkt af van de reguliere CBS-vacaturegraad op basis van openstaande vacatures.

Er wordt aanvullend onderzocht door het CBS of ook de openstaande vacatures af te leiden zijn uit de data over online vacatures. Dit is veelgevraagde informatie, omdat deze duidelijker aangeeft wat de werkelijke, actuele vraag naar werknemers is. Bij krapte zullen er immers meer vacatures blijven openstaan zonder snel vervuld te worden. Daarmee is ook bijvoorbeeld de vacaturegraad te berekenen zoals deze elders in het CBS wordt gebruikt, en daarmee worden de uitkomsten vergelijkbaar met overige vacaturedata van andere sectoren. Hier wordt in 2020 aan gewerkt.

Typeringsfouten en ontbrekende gegevens

Het bestand met online vacatures is door het CBS bewerkt op SBI-indeling van de bedrijven en instellingen, zodat de weging naar sector en beroepsniveau juist is uitgevoerd. Verouderde SBI-coderingen zijn voor een selectie van grote bedrijven en instellingen bijgewerkt en onjuiste koppelingen met het bedrijvenregister rechtgezet. Overige kenmerken in het bestand zijn door het CBS niet bewerkt.

Het opvallend lage aandeel van VVT-vacatures in Zaanstreek en Waterland onthulde dat een relatief grote regionale aanbieder niet was opgenomen in het bronbestand. Dat komt incidenteel voor, en niet alle gevallen zullen bekend zijn. In de huidige dataset had circa 10 procent geen locatiegegevens – deze vacatures zijn daardoor niet opgenomen bij regionale data. Dit zorgt niet voor hele grote bezwaren tegen analyses op detailniveau, maar geeft wel aan dat uitkomsten met de nodige voorzichtigheid geïnterpreteerd moeten worden. In een vervolganalyse wordt onderzocht of we meer hulpinformatie kunnen gebruiken voor een regionale indeling, en daarna of we met de weging ook rekening kunnen houden met regio om het effect van ontbrekende gegevens op regionaal niveau te verkleinen.

Kwaliteit nieuwe variabelen

De kenmerken van vacatures buiten de SBI zijn door het CBS nog niet nagekeken of bewerkt op kwaliteit. Dat gaat over de regionale toedeling, opleidingsniveau, contracttype, dienstverband. In het bestand zijn wat opvallende zaken gevonden. Zo zijn er vacatures voor schoonmakers die voor een standaard contract (geen bijzondere functie) worden ingedeeld bij een gevraagde wo-opleiding. Dit duidt op typeringsfouten van het gevraagde opleidingstype.

In figuur 7 is er een grote toename te zien van wo-vacatures in 2018. Dit zou ook te wijten kunnen zijn aan incidentele verkeerde typeringen in de kleine groep van wo-vacatures. In detail zouden deze vacatures bekeken kunnen worden of het om typeringsfouten gaat, of dat dit voorkomt bij specifieke beroepen en dat er dus inderdaad iets opvallends aan de hand is.

Onderscheid subbranches

Vacatures uit de VVT worden toegewezen aan instellingen die op basis van hun SBI-code horen bij de subbranche Verpleging en verzorging of bij de subbranche Thuiszorg. Veel instellingen verzorgen beide activiteiten, maar zij worden enkel naar hun hoofdactiviteit ingedeeld. Het zwaartepunt van een instelling hoeft echter niet altijd de activiteiten van de vacatures correct weer te geven. Het onderscheid tussen VV en Thuiszorg binnen de VVT moet daarom niet te strikt genomen worden.

Minimale celvulling blijft nodig voor zinvolle uitkomsten

De analyses in dit rapport geven aan welke gegevens met welke details beschikbaar zijn in de data. Theoretisch kan je de ontwikkeling volgen van vacatures van maatschappelijk werkers met opleidingsniveau hbo in de regio Utrecht. In de praktijk zal dit om zo weinig vacatures gaan, dat dit ook met deze brondata geen zinvolle uitkomsten zal opleveren. Gegeven dat er ook typeringsfouten in de dataset voorkomen, is er altijd een minimale celvulling nodig voor zinvolle analyses en het voorkomen van onthulling van gegevens van individuele instellingen.

Weegmodel

Omdat niet alle vacatures online worden gepubliceerd, heeft het CBS een weegmodel ontwikkeld. Dit weegmodel is gebaseerd op de vacature-enquête. Dat heeft als consequentie dat de online vacaturedata via de huidige methode pas geanalyseerd kunnen worden als de uitkomsten van de vacature-enquête beschikbaar zijn. Een versnelling van publicatie is pas mogelijk na onderzoek op basis van data over een langere periode, zie ook hoofdstuk 2.7.