De eerste, de beste?

2. Methoden

2.1. Data

Alle gegevens voor dit onderzoek komen uit het Stelsel van Sociaal statistische Bestanden (SSB). Het SSB bevat gegevens op het gebied van onder andere demografie, arbeidsmarkt, criminaliteit en opleiding. Op het moment van het onderzoek waren deze gegevens vanaf 1995 (sociaaleconomische gegevens) tot en met 2017 integraal beschikbaar voor de gehele Nederlandse bevolking. De data die in deze studie gebruikt zullen worden hebben betrekking op (1) de hoogste opleiding van de kinderen, (2) inkomens van alle ouders van kinderen in september 2005 en (3) huishoudens van kinderen als volwassenen. De data met betrekking tot opleiding en het huishouden zijn geselecteerd op het jaartal waarin de kinderen 34 jaar oud waren. Aangezien de kinderen geboren zijn in de periode 1971–1981, betekent dit dat er data worden gebruikt uit de jaren 2005–2015. In deze studie wordt de broer/zus-structuur gevormd door kinderen die een gemeenschappelijke (juridische) moeder hebben. De analyse richt zich op moeders met minimaal één kind geboren tussen 1971 en 1981. Dit zijn 1.006.974 moeders en 1.592.544 kinderen.

2.2. Afhankelijke variabele

Opleidingsniveau

De data over het hoogst behaalde opleidingsniveau komen uit het opleidingsniveaubestand. Het is geen integraal bestand, maar de dekking is wel vrij hoog: van twee op de drie personen in Nederland is het opleidingsniveau bekend. De gegevens zijn wel selectief, omdat hoogopgeleiden veel beter vertegenwoordigd zijn dan laag- en middelbaar opgeleiden. Dit komt omdat van diplomagegevens van universiteiten en hbo-instellingen al vanaf halverwege de jaren 1980 een registratie is bijgehouden en deze gegevens vanaf dat moment integraal beschikbaar zijn. Voor het middelbaar en lager onderwijs zijn registraties bij het CBS pas vanaf 2000 beschikbaar. Om toch een representatief beeld te krijgen van de opleidingsniveaus in Nederland is het nodig om het opleidingsniveau in de analyses te wegen. De lager- en middelbaar opgeleiden worden sterker gewogen dan de hoogopgeleiden. Hiervoor is het opleidingsniveaubestand aangevuld met opleidingsgegevens uit de steekproeven van de Enquête Beroepsbevolking (EBB). Deze data zijn voorzien van ophooggewichten. We nemen het hoogst behaalde opleidingsniveau wanneer het kind 34 jaar oud is. De CBS Standaard Onderwijs Indeling (2016) maakt onderscheid tussen achttien verschillende afgeronde opleidingsniveaus. De opleidingsniveaus zullen worden gehercodeerd naar het aantal opleidingsjaren dat daar standaard voor staat. Deze zullen worden gebruikt in de data-analyses.

2.3. Onafhankelijke variabelen

Aantal kinderen

Dit is het totaal aantal kinderen dat de moeder van het kind kreeg. Deze variabele varieert van één tot twintig. Hoewel de kinderen geboren zijn tussen 1971 en 1981, kan het aantal kinderen ook bestaan uit kinderen die vóór of na deze periode zijn geboren. Voor de analyses is een categorische variabele afgeleid bestaande uit 6 categorieën: (1) één kind, (2) twee kinderen, (3) drie kinderen, (4) vier kinderen, (5) vijf kinderen en (6) zes of meer kinderen. De gezinnen bestaande uit zes of meer kinderen zijn samengevoegd vanwege de kleine aantallen. We analyseren ook het verschil in succes tussen kinderen die minstens één broer of zus hebben en enig-kinderen.

Geboortevolgorde

Dit is de positie van de kinderen binnen één gezin op basis van het hoeveelste kind zij zijn (dus bijvoorbeeld eerste, tweede, derde, etc.). Deze geboortevolgorde geldt voor de kinderen en hun positie in het gezin waarin ze geboren zijn, vanuit de moeder bekeken. Dit betekent dat ook broers en zussen meegenomen worden die buiten onze onderzoekspopulatie (de in de periode 1971–1981 geborenen) vallen. Op basis van alle kinderen van de moeder is een categorische variabele geconstrueerd, op dezelfde manier als bij het aantal kinderen: (1) eerstgeborene, (2) als tweede geborene, (3) als derde geborene, (4) als vierde geborene, (5) als vijfde geborene en (6) als zesde of later geborene.

2.4. Controlevariabelen

Leeftijd moeder bij geboorte

Over het opleidingsniveau van de moeder is geen integrale informatie. Omdat bekend is dat hoger opgeleide moeders hun kind(eren) vaker op latere leeftijd krijgen, is een variabele opgenomen die aangeeft hoe oud de moeder was bij de geboorte van het kind. De geboortejaren van de kinderen zijn in de jaren 1971–1981. Dit is de periode waarin de gemiddelde leeftijd van de moeder bij de geboorte van een kind begon te stijgen (CBS, 2019; Wijsen, 2002). De leeftijd van de moeder bij de geboorte is een categorische variabele die als volgt is gedefinieerd: (0) 15 tot en met 21 jaar oud, (1) 22 tot en met 25 jaar oud, (2) 26 tot en met 30 jaar oud, (3) 31 tot en met 35 jaar oud en (4) 36 jaar of ouder.

Sociaaleconomische status

Als proxy voor de sociaaleconomische achtergrond van de kinderen wordt het inkomen van de ouders in september 2005 gebruikt. Voor dit jaar is gekozen omdat de meeste ouders dan nog niet gepensioneerd zijn. Voor de analyse worden de inkomensgegevens bijeengebracht in kwintielgroepen. De beschrijvende statistieken van alle variabelen staan in tabel 2.

2.5. Selectie kinderen

Vooraf zijn alle kinderen geselecteerd die in Nederland geboren zijn tussen 1971 en 1981. In tabel 3 staat de beschrijving van de kinderen die uit dit bestand zijn verwijderd en om welke redenen. Een restcategorie bestaat uit kinderen van wie relevante gegevens ontbreken, of die om andere redenen niet tot de doelgroep behoren, bijvoorbeeld kinderen in onwaarschijnlijk grote huishoudens. Kinderen worden als broers en zussen gezien als ze dezelfde moeder hebben. Voor een zeer klein percentage van deze kinderen geldt dat ze verschillende vaders hebben en dus halfbroers- of –zussen zijn.

2.6. Methode

Er zal gekeken worden naar de effecten van het aantal kinderen, de geboortevolgorde, de leeftijd van de moeder bij de geboorte van het kind en de sociaaleconomische status op het hoogst behaalde opleidingsniveau. Er zullen lineaire regressies worden uitgevoerd waarin deze effecten bekeken worden, gecontroleerd voor meerdere variabelen. Er zal worden gekeken naar de effecten van het aantal kinderen en de geboortevolgorde, en de variabelen die deze effecten naar verwachting zullen modereren, te weten de leeftijd van de moeder en de sociaaleconomische status. Daarnaast zullen geslacht en geboortejaar steeds worden meegenomen als controlevariabelen. Om de invloed van tijdsconstante broer/zus-kenmerken te meten is het zinvol een random multi-level model met alle kinderen te schatten, waarin rekening wordt gehouden met het feit dat alle kinderen dezelfde achtergrond hebben: ze zijn niet onafhankelijk. Er wordt een intra-class correlatie coëfficiënt berekend, die aangeeft in hoeverre er een gezinseffect is. Dat betekent dat er samenhang bestaat tussen kinderen binnen hetzelfde gezin voor wat betreft de afhankelijke variabele.

Om te weten wat de verschillen zijn tussen eerder en later geboren kinderen, wordt een fixed effects multi-level model met alle kinderen geschat. In een fixed effects multi-level model worden alle waargenomen en niet-waargenomen familiekenmerken die tijdsconstant zijn en voor alle kinderen binnen het gezin gelden uit het verklaringsmodel gehouden. Als de positie binnen het broer/zus-netwerk er werkelijk toe doet, dan moet dit zichtbaar blijven in het fixed effects multi-level model. Het nadeel is dat de tijdsconstante factoren niet mee kunnen worden genomen in de analyse (Allison, 2009). Enig-kinderen worden in de multi-level regressies uiteraard niet meegenomen.