2. Methoden en data

2.1 Sequentieanalyse

Sequentieanalyse is een statistische methode waarmee een reeks opeenvolgende staten als één geheel kan worden beschreven en geanalyseerd (Cornwell, 2015). Sequentieanalyse werd oorspronkelijk gebruikt om DNA-strengen – lange reeksen van vier soorten nucleotiden (A, T, G en C) – te analyseren en verschillende soorten te kunnen onderscheiden. DNA-sequencing wordt bijvoorbeeld gebruikt om verschillende varianten van het COVID-19-virus te onderscheiden. Sequentieanalyse kan echter ook worden toegepast in sociaalwetenschappelijk onderzoek. Veel longitudinale fenomenen, zoals levenslopen of carrières, kunnen ook worden gezien als reeksen van opeenvolgende staten. Om een loopbaan als voorbeeld te nemen: iemand begint als student (S), vindt daarna een eerste flexibele baan (F), krijgt na een jaar een vast contract (V), raakt na een jaar werkloos (W) en gaat daarna weer op een flexibel contract aan de slag (F). Een reeks van opeenvolgende staten S-F-V-W-F dus, die op eenzelfde manier geanalyseerd kan worden als een DNA-streng van A-T-G-C. Sequentieanalyse wordt daarom ook steeds meer gebruikt om longitudinale sociale fenomenen te analyseren.

Ten opzichte van traditionele tabellen, maar ook ten opzichte van meer geavanceerde methoden voor longitudinale analyses zoals survival analysis, heeft sequentieanalyse het belangrijke voordeel dat alle gebeurtenissen gedurende de geobserveerde periode op individueel niveau kunnen worden meegenomen. In tabellen worden vaak alleen geaggregeerde percentages op een bepaald tijdsmoment zichtbaar en is niet duidelijk hoe individuele loopbanen verlopen. Degene die in jaar t bij de groep met een vast contract hoort, zit in jaar t+1 niet per se in diezelfde groep, maar dat valt uit deze tabellen niet af te leiden. In geavanceerdere methoden staat vaak één bepaalde uitkomst of transitie centraal en wordt gekeken na hoeveel tijd die uitkomst zich voordoet, bijvoorbeeld hoelang het duurt totdat iemand een vast contract heeft. Dat is relevante informatie, maar deze methode laat niet zien wat er in de tussentijd gebeurt, terwijl dat juist van invloed kan zijn op de uitkomst of het tijdstip waarop die plaatsvindt. Ook wordt alles wat er ná die eventuele uitkomst gebeurt niet meer meegenomen in de analyse. Sequentieanalyse behandelt in principe alle gebeurtenissen in de periode gelijkwaardig en laat het volledige loopbaanverloop zien. Het resultaat is een veel completer beschrijvend beeld van de meest voorkomende typen van (in dit geval) individuele loopbanen, gebruikmakend van longitudinale statistische samenhangen binnen die loopbanen, dan een reeks van opeenvolgende dwarsdoorsneden van de hele populatie.

Sequentieanalyse biedt nog een aantal voordelen. In de eerste plaats kunnen de resultaten zo in beeld worden gebracht dat inzichtelijk wordt hoe individuele loopbanen verlopen en hoe divers of stabiel deze zijn. De figuren die hiervoor worden gebruikt heten index plots (Scherer, 2001). Deze figuren hebben een x-as die de tijd weergeeft, in dit geval de leeftijd van de jongere die begint bij 23 en eindigt bij 32. De individuele loopbanen worden weergegeven als horizontale lijnen. De y-as bestaat dus uit de stapel van deze loopbanen. De kleuren in de figuur geven aan in welke arbeidsmarktpositie iemand zich op enig moment bevindt. Deze figuren worden ook gebruikt om de uitkomsten van de sequentieanalyse te laten zien.

Daarnaast bestaat er een arsenaal aan statistische maten waarin de aard van de sequenties kan worden uitgedrukt (zie voor een gedetailleerd overzicht Ritschard (2021)). Sommige hiervan werden ook al los van sequentieanalyse gebruikt om meer inzicht te geven in het verloop van loopbanen, maar sluiten in de kern goed aan bij het principe van sequentieanalyse. Deze maten houden op verschillende manieren rekening met het aantal verschillende staten in een sequentie, de duur van een bepaalde staat, het aantal overgangen in een sequentie, het aantal subsequenties, de voorspelbaarheid van zowel de staten als de duur ervan en soms zelfs de wenselijkheid van de verschillende staten. In de resultaten worden de volgende loopbaanstatistieken gerapporteerd:

Het aantal verschillende staten binnen een sequentie. Dit geeft een beeld van de variatie in een loopbaan. Een loopbaan waarin iemand veel verschillende soorten staten doorloopt is dynamischer dan een loopbaan met maar één of twee verschillende staten.
Duur van de staat. Dit is een indicator die ook buiten de context van sequentieanalyse gebruikt wordt. Deze geeft aan hoeveel (procent van de) tijd iemand in een bepaalde staat heeft doorgebracht in de onderzochte periode. In aanvulling op de vorige indicator geeft dit type indicator ook een beeld van de verdeling van de tijd over de verschillende staten, in hoeverre die gelijkmatig was of juist erg scheef verdeeld.
Het aantal transities. Deze indicator geeft aan hoe vaak er binnen een sequentie van staat gewisseld wordt. Dit geeft een beeld van de stabiliteit van de loopbaan. Een loopbaan met veel wisselingen is dynamischer dan een loopbaan waarin weinig of geen transities plaatsvinden. Deze indicator is positief, maar niet perfect gecorreleerd met het aantal verschillende staten.
Entropie. Deze indicator geeft weer hoe groot de verscheidenheid is in het aantal staten binnen een sequentie en hoe die zich tot elkaar verhouden (Elzinga & Liefbroer, 2007). Deze maat geeft aan hoe gelijk de staten over een sequentie zijn verdeeld en hoe voorspelbaar een sequentie is. Als alle mogelijke staten even vaak voorkomen in de sequentie, is de entropie maximaal, want de kans op iedere mogelijke staat is even groot. Als er slechts één staat voorkomt in de sequentie, is de entropie minimaal, want de kans op die ene staat is 100 procent. Als er twee staten binnen een sequentie zijn die even vaak voorkomen, is de entropie hoger, en de sequentie dus moeilijker te voorspellen, dan wanneer één staat meer voorkomt dan de andere staat. Entropie wordt gemeten op een schaal van 0 tot 1.
Complexiteit. Deze indicator combineert het aantal transities met de entropie (Gabadinho et al., 2011). Op deze manier houdt deze maat, in tegenstelling tot die van het aantal transities, rekening met het aantal verschillende staten in de sequentie. Zo hebben de sequenties ABBA en ABBC hetzelfde aantal transities, maar de tweede heeft een hogere complexiteit dan de eerste. Daarnaast houdt complexiteit, in tegenstelling tot entropie, wel rekening met het aantal transities dat plaatsvindt binnen een sequentie. Zo krijgen sequenties ABAB en AABB dezelfde score op entropie, maar krijgt de eerste een hogere complexiteit dan de tweede. Ook complexiteit wordt gemeten op een schaal van 0 tot 1.

Tot slot is sequentieanalyse bij uitstek geschikt voor het maken van typologieën met behulp van clusteranalyse. Bij de oorspronkelijke toepassing van sequentieanalyse op DNA kunnen op deze manier bijvoorbeeld verschillende soorten dieren of varianten van virussen worden onderscheiden. Een clusteranalyse van een sequentieanalyse van loopbanen kan een beter beeld opleveren van de soorten loopbanen die in de populatie voorkomen door de loopbanen die het meest op elkaar lijken bij elkaar te groeperen.

Om de gelijkenis van loopbanen vast te stellen kunnen verschillende methoden worden gebruikt. Een veelvoorkomende methode is optimal matching (Abbott & Forrest, 1986). Deze methode telt het aantal substituties en permutaties dat nodig is om de ene sequentie te veranderen in de andere sequentie. Bijvoorbeeld: om de sequentie AAAA te veranderen in AABC zijn er twee wijzigingen nodig. Om de sequentie AAAA te veranderen in ABBC zijn 3 wijzigingen nodig. De sequentie AAAA lijkt dus meer op de sequentie AABC dan op de sequentie ABBC. Ieder type wijziging kan ’geprijsd’ worden, waarbij bepaalde wijzigingen ‘duurder’ zijn dan andere. Bijvoorbeeld: wijziging van A in B is ‘goedkoper’ te maken dan de wijziging van A in C, bijvoorbeeld omdat A en C inhoudelijk verder van elkaar verwijderd zijn dan A en B.

Hoewel optimal matching de meest voorkomende methode is, bestaan er ook veel variaties hierop die gebruikt kunnen worden om de gelijkenis van sequenties vast te stellen. Optimal matching is bijvoorbeeld redelijk ongevoelig voor verschillen in timing, omdat het invoegen en weglaten van staten is toegestaan. In onderzoek naar loopbanen is timing echter vrij belangrijk, omdat het nogal kan uitmaken of iemand snel een vaste baan vindt of pas laat. De Hamming distance (Hamming, 1950) kan beter rekening houden met verschillen in timing, omdat dit algoritme geen invoegingen en weglatingen toestaat (Studer & Ritschard, 2016). In dit artikel wordt daarom de Hamming distance gebruikt om de gelijkenis tussen sequenties te berekenen.

Wanneer de gelijkenis tussen alle sequenties onderling is berekend, kan die informatie gebruikt worden om de sequenties te clusteren op basis van die gelijkenis. Waar er verschillende manieren bestaan om de gelijkenis tussen sequenties te berekenen, bestaan er ook talloze methoden om clusteranalyses uit te voeren. In dit artikel wordt de Ward clustering (Ward, 1963) gebruikt. Dit is een agglomeratieve hiërarchische clusteringmethode. Dit betekent dat het algoritme de verzameling sequenties paarsgewijs (of groepsgewijs) samenvoegt, zodanig dat steeds zo min mogelijk informatie verloren gaat.

Om het aantal clusters van de typologie te bepalen, kan gebruikgemaakt worden van kwaliteitsmaatstaven (Studer, 2013). Deze zijn vaak gebaseerd op de verhouding tussen de homogeniteit binnen clusters en de heterogeniteit tussen clusters. Bij een hoge heterogeniteit in sequenties kan het echter voorkomen dat deze maatstaven minder goed bruikbaar zijn (Mattijssen & Pavlopoulos, 2019). Dat is in dit artikel helaas ook het geval. Daarom is het aantal clusters kwalitatief bepaald. Hierbij is bekeken in hoeverre een extra cluster substantieel nieuwe informatie toevoegt aan de typologie.

2.2 Data

In dit onderzoek wordt gebruikgemaakt van informatie uit het Stelsel van Sociaal-statistische Bestanden (SSB) (Bakker et al., 2014) en specifiek demografische gegevens, opleidingsgegevens en arbeidsloopbanen uit de Polisadministratie. De Polisadministratie vormt de basis voor statistieken over banen en werknemers en bevat gegevens uit de periodieke aangiftes loonheffingen van inhoudingsplichtigen als werkgevers, pensioenfondsen en uitkeringsinstanties. In de Polisadministratie wordt (geanonimiseerd) op persoonsniveau de aard en hoogte van loon en uitkeringen vastgesteld. Tevens bevat de Polisadministratie informatie over onder andere gewerkte uren en dienstverbanden. Het opleidingsniveau komt uit het SSB-Opleidingsniveaubestand en demografische kenmerken komen uit de Basisregistratie Personen (BRP).

De doelpopulatie van dit onderzoek zijn jongeren die zijn geboren in de periode 1983-1985. Voor deze groep is jaarlijkse informatie over hun arbeidsmarktposities vanaf hun 23e levensjaar tot en met hun 32e levensjaar meegenomen in de analyse. Jongeren bij wie informatie over hun arbeidsmarktposities ergens in deze periode ontbreekt, bijvoorbeeld omdat zij een periode in het buitenland doorbrachten, zijn niet meegenomen in de analyse. Dit geldt voor 7,5 procent van de populatie.

Er wordt onderscheid gemaakt tussen de volgende categorieën:

een vast contract
een flexibel contract (een contract voor bepaalde tijd, een oproepcontract of een uitzendcontract)
zelfstandige
onderwijsvolgend en
niet werkend.

Die laatste categorie bevat mensen die werkloos zijn, om een andere reden niet kunnen werken of die niet actief zijn op de arbeidsmarkt.

Tot slot nemen we twee achtergrondkenmerken mee in de analyse waarmee groepsverschillen kunnen worden getoond, namelijk geslacht en opleidingsniveau. Opleidingsniveau is gemeten aan het eind van de onderzoeksperiode. Voor een deel van de jongeren is het opleidingsniveau helaas niet bekend. Deze groep (10 procent) is daarom niet meegenomen in de analyses.

In totaal bestaat de populatie van dit onderzoek uit 468 026 personen. Onder hen zijn 237 302 mannen (50,7 procent) en 230 724 vrouwen (49,3 procent). Het hoogst behaalde opleidingsniveau is voor 45 procent minstens hbo- of wo-bachelor, voor 42,3 procent de bovenbouw van havo/vwo, de basisberoepsopleiding (mbo-2), de vakopleiding (mbo-3) en de middenkader- en specialistenopleidingen (mbo-4), en voor 12,7 procent maximaal mbo1 of havo/vwo onderbouw.