2. Data en methode
De analyses zijn uitgevoerd op registerdata uit het Stelsel van Sociaal-Statistische Bestanden (SSB), dat gegevens over de totale bevolking van Nederland bevat (Bakker et al., 2014).
Populatie
De studiepopulatie bestaat uit ruim 4,4 miljoen vrouwen in de vruchtbare leeftijd, afgebakend als 16 tot 45 jaar, ongeacht relatiestatus of huishoudenssamenstelling. Deze leeftijdsgroep is geselecteerd in alle jaren tussen 2012 en 2023. In totaal zitten er 32,7 miljoen jaarrecords in de dataset. Het model houdt er rekening mee dat niet alle vrouwen alle jaren in de dataset zitten, bijvoorbeeld vanwege de leeftijdsgrenzen of omdat iemand een of meerdere jaren niet in Nederland woonde. Vrouwen die in een instelling wonen, zijn niet meegenomen, omdat zij niet in reguliere huur- of koopwoningen wonen. Dat laatste staat in dit onderzoek immers centraal.
Variabele over geboorte van kinderen
Van alle vrouwen in de data zijn gegevens gebruikt over geboorte van kinderen, in het jaar na de meting van de woonsituatie. De data over de woonsituatie en de achtergrondkenmerken zijn gemeten van 2012 tot en met 2022. De data over geboorte van kinderen lopen van 2013 tot en met 2023. Het idee hierachter is dat het bij het verband tussen woonsituatie en geboortekans in feite gaat om het moment dat een kind verwekt wordt. De daadwerkelijke geboorte vindt dan vaak in het jaar daarna plaats. Vrouwen die toen niet meer in het bevolkingsregister zaten, door emigratie of overlijden, zijn uit de dataset verwijderd. Bij iedere geboorte geeft een aparte variabele aan het hoeveelste (juridische) kind het geboren kind is van de persoon. Hiermee wordt gecorrigeerd voor de eventuele samenhang van andere modelvariabelen met kind-volgorde.
Variabelen over de woonsituatie
Voor de woonsituatie zijn gegevens gebruikt over het type woning waarin men woont. Als de persoon zelf of diens partner eigenaar is van de woning, is de variabele gecodeerd als ‘huiseigenaar’, en anders als ‘huurder’. Voor de meting van de duur van huiseigenaarschap (hypothese 4) is onderscheid gemaakt naar huiseigenaren die voor het eerst een huis kochten
- in het afgelopen jaar;
- tussen een en drie jaar geleden;
- meer dan drie jaar geleden.
In het model met deze variabele wordt een kortere tijdsperiode geanalyseerd: 2015-2023 in plaats van 2012-2023, want voor de periode vóór 2015 kon de duur van huiseigenaarschap niet worden berekend. Dit model heeft betrekking op bijna 3,7 miljoen vrouwen.
Daarnaast zijn voor iedere persoon gegevens gebruikt over de gemiddelde woningprijs in de COROP-regio waar men woont. Nederland bestaat uit 40 COROP-regio’s, dat zijn regio’s gebaseerd op functionele relaties tussen gebieden. Ze bestaan meestal uit een centrale stad en het servicegebied eromheen, en omvatten gemiddeld iets meer dan 400 duizend inwoners. Bijna drie kwart van alle verhuizingen vindt plaats binnen een COROP (Lennartz et al., 2023), wat erop duidt dat COROP-regio’s een aardige benadering zijn van woningzoekgebieden. De jaarlijkse gemiddelde verkoopprijs van bestaande koopwoningen in de COROP-regio is uitgedrukt in eenheden van 100 duizend euro (CBS Statline, 2024b). De prijzen zijn gemeten in het eerste kwartaal van elk jaar en zijn gecorrigeerd voor inflatie naar 2022-prijzen (het meest recent beschikbare inflatiecorrectie-jaar ten tijde van de analyse).
Controlevariabelen
Van een aantal persoonskenmerken is bekend dat ze samenhangen met de kans op geboorte van een kind, dus daarvoor wordt gecontroleerd in de analyse. De controlevariabelen op individueel niveau zijn leeftijd, inkomenskwintiel, economische hoofdactiviteit, opleidingsniveau en herkomst. Daarnaast zijn als controlevariabelen op COROP-niveau opgenomen: werkloosheidspercentage (als indicator van regionale werkgelegenheid) en percentage mensen dat minimaal maandelijks een religieuze bijeenkomst bezoekt (Schmeets & Houben, 2023). Het is bekend dat religieuze mensen gemiddeld meer kinderen krijgen (Bein, 2021). Omdat persoonsgegevens over religiositeit niet beschikbaar zijn, is het percentage religieuze mensen in de regio gebruikt. Ten slotte wordt in alle modellen voor kalenderjaar gecontroleerd. De tabellenset in de bijlage toont van alle gebruikte variabelen de gemiddelden (continue variabelen) en frequenties (categorische variabelen).
Analyse
In de analyses wordt de jaarlijkse kans om een kind te krijgen geschat, voor vrouwen tussen 16 en 45 jaar, gecontroleerd voor leeftijd, kalenderjaar, inkomen, economische activiteit, opleidingsniveau, herkomst, aantal kinderen, regionaal werkloosheidspercentage en regionaal percentage religieuzen.
De data zijn geanalyseerd met logistische regressiemodellen. Deze modellen schatten de jaarlijkse kans op een gebeurtenis (in dit geval: ‘een kind krijgen’) en het verband met de andere variabelen. De standaardfouten van de regressiecoëfficiënten zijn geclusterd op persoonsniveau om er rekening mee te houden dat vrouwen meerdere jaren voorkomen in de data. Model 1 bevat, naast de controlevariabelen, variabelen over regionale woningprijzen. In model 2 wordt een variabele toegevoegd die de individuele woonsituatie meet (huiseigenaar of huurder). Voor dit model is gebruik gemaakt van een mediatieanalyse om te schatten welk deel van het regionale woningprijs-effect toe te schrijven is aan de persoonlijke woonsituatie (Karlson et al., 2012). In model 3 wordt een interactie-term tussen de individuele huiseigenaar-/huurdervariabele en de regionale woningprijsvariabelen toegevoegd. In model 4 wordt de huiseigenaar-/huurdervariabele vervangen door de variabele die huiseigenaarschap naar duur onderscheidt. Verder laat een interactieterm tussen deze duur van huiseigenaarschap en de regionale woningprijsvariabelen zien in hoeverre regionale woningprijseffecten afhangen van het moment waarop men huiseigenaar werd.
De effecten van regionale woningprijzen worden geschat via twee variabelen.
- De gemiddelde woningprijs in de periode 2012 tot en met 2022 per COROP-regio. Hiermee wordt het effect van variatie in woningprijzen tussen COROP-regio’s geschat, het tussen-regio-effect.
- De afwijking van dat COROP-gemiddelde in ieder jaar. Hiermee wordt het effect van veranderingen in woningprijzen over de tijd binnen elke COROP-regio geschat, het binnen-regio-effect.
Beide variabelen worden tegelijk in het model gestopt (Schunk, 2013). Dit maakt het mogelijk om een onderscheid te maken tussen de gevolgen van het wonen in een woningmarktregio waar de prijzen gemiddeld genomen hoger liggen dan in andere regio’s (het tussen-regio-effect) en de gevolgen van het wonen in een regio waar de woningprijzen sterk zijn gestegen (het binnen-regio-effect).
De effectgrootte van de regressie-coëfficiënten in de multivariate modellen is lastig rechtstreeks te interpreteren. Daarom worden van de belangrijkste variabelen de effecten getoond als voorspelde relatieve kansen op geboorte van een kind bij oplopende waarden van regionale woningprijsverschillen en bij oplopende waarden van prijsstijgingen over de tijd, bij constant houden van de controlevariabelen. In de bijlage zijn de modeluitkomsten opgenomen (regressie-coëfficiënten van alle variabelen en de modelfit-maten (AIC en log likelihood)). Gevonden verschillen in de modellen duiden op werkelijke verschillen in de populatie en worden dus niet getoetst op hun statistische significantie (zoals bij steekproefmodellen).
De hoofdmodellen geven resultaten weer die betrekking hebben op alle vrouwen in de studiepopulatie, en op alle geboorten. Daarnaast zijn aparte modellen gedraaid voor een selectie van vrouwen die met een partner samenleven (waarbij ook wordt gecontroleerd voor kenmerken van de partner), voor mannen en voor verschillende pariteiten (eerste, tweede, derde en volgend kind).