Auteur(s): Brenda Bos, Sascha de Breij, Naomi Schalken, Sander Scholtus, Jaap Walhout, Jochem Zweerink Publicatiedatum: 2-10-2023 11:50

Verkenning alternatief verdeelmodel voor voortijdig schoolverlaten; herziene versie

4. Ontwikkeling model voor het mbo

4.1 Inleiding

In dit hoofdstuk bespreken we de totstandkoming van het model waarmee op studentniveau de kans op vsv kan worden geschat voor het mbo volgens de aanpak zoals beschreven in paragraaf 2.7. Net zoals bij het vo, zullen we als eerste stap de selectie van achtergrondkenmerken beschrijven met behulp van beschrijvende en bivariate analyses. In de tweede stap wordt een stepwise selectieprocedure toegepast op het cohort 2018/’19 en op het validatiecohort 2017/’18. Als derde stap bespreken we de resultaten uit de kruisvalidaties. Ook onderzoeken we de toegevoegde waarde van een multilevel component als vierde stap. Tot slot presenteren we in de laatste paragraaf een vergelijking van de modelschattingen op basis van een DUO-cohort en een eerste beeld van de resultaten op RMC-regio niveau.

4.2 Stap 1: Voorselectie kenmerken

Op basis van beschrijvende statistieken en bivariate analyses hebben we een voorselectie gemaakt van de achtergrondkenmerken uit paragraaf 2.5 voor het mbo. Op basis van deze analyses zijn er keuzes gemaakt in de codering van variabelen, zijn referentiecategorieën bepaald en is een keuze gemaakt bij (inhoudelijk) vergelijkbare kenmerken.

De belangrijkste wijzigingen zijn hier uitgelicht:

Inkomen onder de lage inkomensgrens: Dit kenmerk overlapt sterk met de welvaartspercentielen, waardoor we hebben gekozen om de welvaartspercentielen mee te nemen in plaats van deze variabele. Dit kenmerk bevat daarnaast alleen inkomen, terwijl de welvaartspercentielen ook rekening houden met het vermogen. Hetzelfde geldt voor het kenmerk op buurtniveau.
Lage welvaart in het huishouden: Omdat de welvaartspercentielen in vijf categorieën een vollediger beeld geven dan alleen het laagste percentiel, is er voor gekozen de lage welvaart niet mee te nemen in de verdere analyses.
Problematische schulden: Voor het mbo maken we onderscheid in drie categorieën in tegenstelling tot de twee categorieën zoals beschreven bij het vo: geen problematische schulden (0), problematische schulden op persoonsniveau (1), en problematische schulden in het huishouden (2). Omdat studenten op het mbo wel vaker persoonlijke schulden hebben volgens de definitie van bijlage 3, is hier een aparte categorie toegevoegd voor het mbo.
Mbo richting sectorkamer: Dit kenmerk bevatte veel kleine groepen, daarom is er voor gekozen opleidingsrichting volgens ISCED-indeling mee te nemen, zoals beschreven in bijlage 3. Bovendien is de ISCED-indeling stabieler beschikbaar over de tijd.
Aantal jaren op het mbo: Omdat het mbo uit verschillende niveaus bestaat en variatie kent in de duur van de opleiding, is het aantal jaren op het mbo geen duidelijke indicator voor vsv. We nemen dit kenmerk daarom niet mee in de vervolganalyses.

4.3 Stap 2: Stepwise analyse

Na de voorselectie van kenmerken is er een stepwise procedure toegepast om zo een verdere selectie te maken van de achtergrondkenmerken. Dit is net zoals bij het vo gedaan met een forward, backward, en gecombineerde aanpak. We selecteren uiteindelijk een model dat eenvoudig en transparant is, maar ook voldoende verklaringskracht heeft. Ook bij het mbo komt het meest compacte model uit de forward methode en is er geen tot weinig verschil te zien met de backward methode (forward: BIC = 166 398, McKelveyZavoina R² = 0,29; backward: BIC =166 387, McKelveyZavoina R² = 0,29).

De forward analyse resulteerde in de volgende selectie van kenmerken, in volgorde van belang voor het model:

Mbo-niveau
Leeftijd
Psychosociale problemen student
Verdacht van misdrijf
Ouderlijke structuur
Geslacht
Problematische schulden aanwezig
Hoogst behaalde opleidingsniveau moeder
Leerweg
Onderwijsrichting volgens ISCED
Welvaart huishouden
Stedelijkheid van de buurt
Hoogst behaalde opleidingsniveau vader
Niveau van vooropleiding
Ouder(s) geregistreerd als wanbetaler premie zorgverzekering
Langdurige gezondheidsproblemen
Herkomstland moeder
Acute gezondheidsproblemen
Migratieachtergrond vader
Verblijfsduur van moeder in Nederland

Na de selectie van het 20^e kenmerk stopte de stepwise procedure, omdat er volgens het model geen extra verklaringskracht meer werd toegevoegd.

Bij de forward methode wordt er telkens één kenmerk toegevoegd aan het model. Per stap in deze methode is de BIC uitgerekend om te bepalen in hoeverre er nog modelverbetering optreedt. Figuur 4.3.1 laat de ontwikkeling van de BIC-waarde zien gedurende de stepwise procedure. Hierbij geldt dat een lagere BIC-waarde een betere modelkwaliteit betekent.

4.3.1 BIC-waarden bij het mbo-model naar het aantal achtergrondkenmerken
volgorde	BIC (BIC-waarde)
0	194960
1	183039
2	175702
3	173939
4	172564
5	171315
6	170148
7	169140
8	168409
9	167843
10	167252
11	166905
12	166715
13	166591
14	166495
15	166466
16	166439
17	166415
18	166405
19	166402
20	166398

4.3.1 BIC-waarden bij het mbo-model naar het aantal achtergrondkenmerken
volgorde	BIC (BIC-waarde)
0	194960
1	183039
2	175702
3	173939
4	172564
5	171315
6	170148
7	169140
8	168409
9	167843
10	167252
11	166905
12	166715
13	166591
14	166495
15	166466
16	166439
17	166415
18	166405
19	166402
20	166398

In de figuur is te zien dat de BIC daalt wanneer er meer kenmerken worden toegevoegd aan het model. De sterkste daling zit in het begin van de figuur, aan het einde van de figuur vlakt de daling af. De modelkwaliteit neemt na het toevoegen van het twaalfde kenmerk nog nauwelijks toe (daling BIC-waarden is minder dan 150). In de verdere analyses hebben we kenmerk 19, de migratieachtergrond van de vader, vervangen door die van de moeder. Dit zal in combinatie met kenmerk 17, het herkomstland van de moeder, een consistenter beeld geven.

Daarnaast is de forward stepwise procedure toegepast op het validatiecohort (2017/’18) om de stabiliteit van het model te onderzoeken. Er is dus opnieuw een stepwise procedure toegepast. Hierbij is weer opnieuw bepaald welke modelkenmerken relevant zijn voor dat cohort. Omdat het mbo-model uit de stepwise procedure meer kenmerken heeft in vergelijking met het vo-model, zal het ook lastiger zijn om dezelfde stabiliteit te behouden met zo’n groot model. De resultaten van de vergelijking worden weergegeven in tabel 4.3.2.

4.3.2 Vergelijking stepwise selectie mbo tussen basis- en validatiecohort
Volgorde	Basiscohort (2018/’19)	Validatiecohort (2017/’18)
1	Mbo-niveau	Mbo-niveau
2	Leeftijd	Leeftijd
3	Psychosociale problemen	Problematische schulden aanwezig
4	Verdacht van misdrijf	Psychosociale problemen
5	Ouderlijke structuur	Geslacht
6	Geslacht	Ouderlijke structuur
7	Problematische schulden aanwezig	Verdacht van misdrijf
8	Hoogst behaalde opleidingsniveau moeder	Hoogst behaalde opleidingsniveau moeder
9	Leerweg	Stedelijkheid van de buurt
10	Onderwijsrichting volgens ISCED	Leerweg
11	Welvaart huishouden	Onderwijsrichting volgens ISCED
12	Stedelijkheid van de buurt	Welvaart huishouden
13	Hoogst behaalde opleidingsniveau vader	Herkomstland
14	Niveau van vooropleiding	Niveau van vooropleiding
15	Ouder(s) geregistreerd als wanbetaler premie zorgverzekering	Hoogst behaalde opleidingsniveau vader
16	Langdurige gezondheidsproblemen	Langdurige gezondheidsproblemen
17	Herkomstland moeder	Ouder(s) geregistreerd als wanbetaler premie zorgverzekering
18	Acute gezondheidsproblemen	Acute gezondheidsproblemen
19	Migratieachtergrond moeder
20	Verblijfsduur van moeder in Nederland

Eerder zagen we, in figuur 4.3.1, dat er vanaf twaalf kenmerken weinig extra toegevoegde waarde is in de verklaringskracht van het model. Bovenstaande tabel toont dat, hoewel de exacte volgorde van de kenmerken verschilt tussen de cohorten, de eerste 12 kenmerken voor beide cohorten hetzelfde zijn.

Stepwise analyses naar mbo-niveau

In de vorige paragraaf zagen we dat mbo-niveau als eerste werd geselecteerd in de stepwise selectie. Mbo-niveau bestaat uit entreeopleiding en niveau 2, 3 en 4. Uit eerder onderzoek blijkt dat mbo-entree een andere populatiesamenstelling heeft dan de andere mbo-niveaus en ook verschilt op de aanwezigheid van problemen. Ter controle hebben we daarom extra analyses uitgevoerd waarbij vsv op de mbo-entree en mbo niveaus 2-4 als twee aparte modellen worden geschat. De stepwise procedure is daarbij per model opnieuw toegepast.

Uit die analyse bleek dat de modellen inderdaad tot een verschillende selectie van kenmerken kwamen. Het mbo niveau 2-4 model kwam tot grotendeels dezelfde selectie kenmerken als het totale mbo-model en verschilde bij enkele kenmerken alleen in de volgorde. Het mbo-entreeopleiding model kwam daarentegen wel tot een andere selectie van kenmerken en daarbij ook een andere volgorde.

Daarnaast zijn de modellen ook weer toegepast op het validatiecohort. De resultaten lieten echter zien, dat voornamelijk bij het mbo-entree model de kenmerken niet stabiel werden geselecteerd tussen de cohorten. Bij de andere mbo-niveaus waren deze verschillen minder aanwezig. Vanwege deze instabiliteit en de voorkeur van het ministerie van OCW om de ontwikkeling van een nieuw verdeelmodel simpel en transparant te houden, is er daarom in overleg met het ministerie voor gekozen om geen aparte modellen te ontwikkelen. Binnen het totale mbo-model wordt er bovendien nog steeds rekening gehouden met de verschillen binnen de entreeopleiding en andere niveaus doordat mbo-niveau als eerste kenmerk in het model is meegenomen.

4.4 Stap 3: Kruisvalidaties

Naast de stepwise analyses zijn er als derde stap kruisvalidaties uitgevoerd op het totale mbo-model. Tijdens deze analyse is eerst een leeg model geschat, om te onderzoeken wat de modelkwaliteit is zonder verklarende kenmerken. Daarna is er herhaaldelijk een nieuw model geschat waarbij telkens een extra kenmerk is toegevoegd op basis van de eerder vastgestelde volgorde. Uiteindelijk resulteerde dit in het complete model met de 20 kenmerken uit het laatste model van de vorige stap.

De kruisvalidaties zijn geëvalueerd met behulp van de fitmaten zoals beschreven in bijlages 4.1.2 en 4.1.3 en weergegeven in tabel 4.4.1. Voor het berekenen van recall-, precision- en F1-waarde zijn studenten ingedeeld in twee categorieën: geen vsv (0), en wel vsv (1). Dit is gedaan met een grenswaarde, zoals beschreven in bijlage 4.1.3. Bij de daadwerkelijke toepassing van het model zullen we niet gaan werken met een classificatie van 0 of 1, maar met de daadwerkelijke kansen per student om vsv’er te worden. Deze fitmaten geven dus vooral een globaal beeld van de modelkwaliteit en dienen gebruikt te worden voor onderlinge modelvergelijkingen. Dit geldt niet voor de (relatieve) entropie en gemiddelde R².

4.4.1 Resultaten kruisvalidaties mbo
Model	Entropie	Relatieve entropie¹⁾	Gemiddelde R^{2 2)}	Recall	Precision	F1
intercept³⁾	97 474	.	.	.	.	.
1	91 497	0,061	0,09	0,50	0,16	0,24
2	87 778	0,099	0,21	0,59	0,17	0,26
3	86 890	0,109	0,23	0,65	0,16	0,26
4	86 197	0,116	0,24	0,67	0,16	0,26
5	85 562	0,122	0,25	0,73	0,15	0,25
6	84 972	0,128	0,26	0,74	0,16	0,26
7	84 459	0,134	0,26	0,72	0,16	0,26
8	84 076	0,137	0,27	0,71	0,17	0,27
9	83 782	0,140	0,27	0,72	0,16	0,27
10	83 462	0,144	0,28	0,75	0,16	0,26
11	83 262	0,146	0,28	0,75	0,16	0,26
12	83 148	0,147	0,29	0,73	0,17	0,27
13	83 070	0,148	0,29	0,73	0,17	0,27
14	83 011	0,148	0,29	0,74	0,17	0,27
15	82 991	0,149	0,29	0,74	0,17	0,27
16	82 973	0,149	0,29	0,74	0,17	0,27
17	82 910	0,149	0,29	0,75	0,17	0,27
18	82 900	0,150	0,29	0,75	0,17	0,27
19	82 896	0,150	0,29	0,75	0,16	0,27
20	82 885	0,150	0,29	0,75	0,16	0,27
¹⁾ De relatieve entropie staat ook wel bekend als de McFadden (1974) pseudo-R²-waarde en kan daarbij ook vergeleken worden met de gemiddelde R². ²⁾ We geven de gemiddelde R² weer, omdat deze per groep in de kruisvalidatie wordt berekend zoals beschreven in Bijlage ‘Fitmaten voor logistische regressie’. 3) Voor het intercept model worden geen fitmaten (excl. de entropie) weergegeven, omdat deze geen informatieve waarde hebben in de vergelijking van de modellen met kenmerken.

In de tabel zien we dat de entropie afneemt, naarmate het model uitgebreider wordt. Het meest uitgebreide model kan de beste schatting maken voor vsv. De relatieve entropie geeft de relatieve verbetering ten opzichte van het lege model weer. Deze fitmaat laat zien dat er niet meer veel verandert vanaf het model met twaalf kenmerken (afname in entropie-waarde is minder dan 100).

De recall-waarde ligt tussen de 0,50 en 0,75. In het model tot zeven kenmerken neemt de recall telkens toe, vanaf zeven kenmerken zien we wisselingen in de waarde van de recall. De recall blijft echter altijd rond de 0,74 schommelen, wat betekent dat het mbo-model 74 procent van de studenten die werkelijk vsv’er worden vaak als zodanig classificeert. De precision ligt tussen de 0,15 en 0,17 wat relatief laag is voor een precision-waarde, maar ook wel volgens verwachting bij een model met een laag aandeel vsv’ers in de populatie (7,9% op het mbo, zie ook paragraaf 2.4). De achtergrondkenmerken voegen echter wel veel toe aan het model in vergelijking met een leeg model. Stel de achtergrondkenmerken worden niet meegenomen en iedereen zou als vsv’er geclassificeerd worden, dan zou de precision gelijk zijn aan het aandeel vsv’ers in de mbo populatie, dus 0,079. Een model met kenmerken laat daarom een vooruitgang zien in de precision. De F1 neemt de bovenstaande resultaten samen.

De gemiddelde McKelveyZavoina R² over de kruisvalidaties ligt tussen de 0,09 en 0,29. Hierbij is er een toename te zien tot het model met twaalf kenmerken, waarna de waarde constant blijft. Volgens deze fitmaat heeft het opnemen van meer dan twaalf kenmerken geen toegevoegde waarde voor de verklaringskracht van het model. Deze R² variant moet wel met voorzichtigheid worden geïnterpreteerd en de grootte van het effect is daarbij ook context-afhankelijk. We gebruiken de R² in de kruisvalidaties dan ook voornamelijk om modelvergelijkingen te maken.

4.5 Conclusie modelselectie

Op basis van de eerdere analyses is een definitief voorkeursmodel voor het mbo gekozen. Het doel was om een eenvoudig, transparant en goed uit te leggen model te maken, met zo veel mogelijk verklaringskracht. Bij de keuze voor een voorkeursmodel spelen verschillende factoren een rol. Een belangrijke reden is de stabiliteit van het model tussen cohorten. Het is van belang om een generiek model te ontwikkelen, dat ook inzetbaar is in andere cohorten. De resultaten in dit hoofdstuk lieten zien dat het model bij meer dan twaalf kenmerken minder stabiel wordt. Bovendien lieten de modelfitmaten zien dat er vanaf twaalf kenmerken weinig toegevoegde waarde was wat betreft de verklaringskracht van het model. Ook figuur 4.3.1 toonde een afvlakkende daling in de BIC-waarde vanaf twaalf kenmerken. Deze redenen samen leiden tot de conclusie dat een model met twaalf kenmerken de voorkeur heeft. De coëfficiënten en odds ratio’s behorende bij het model met twaalf kenmerken worden weergegeven in bijlage 5.

Met behulp van de gegevens in figuur 4.5.1 kan een voorbeeld gegeven worden van de toepassing van de odds ratio’s voor een fictieve student. Deze student heeft bepaalde kenmerken, zoals mbo-niveau en leeftijd van de student. Elke categorie waarin een student valt, heeft een odds ratio ten opzichte van de referentiecategorie. Door vervolgens deze met elkaar te vermenigvuldigen, komen we uit op de odds op vsv van de betreffende student. Zie paragraaf 2.7 voor een uitgebreidere uitleg van odds en odds ratio’s. Volgens de figuur is de kans op vsv voor die student 0,285 keer zo groot als de kans op geen vsv. Bij deze kansverhouding hoort een geschatte kans op vsv van 0,222. De kans dat een student met deze combinatie van achtergrondkenmerken vsv’er wordt is dus 22,2%.

Omdat het hoogst behaalde opleidingsniveau van de moeder terugkomt in het uiteindelijke model met twaalf kenmerken, is er opnieuw beoordeeld of multipele imputatie nodig was. Dit is onderzocht door de resultaten uit twee imputatieronden met elkaar te vergelijken. Daaruit bleek dat de resultaten van de imputatieronden stabiel waren, waardoor geen multipele imputatie nodig was. De resultaten uit de eerste imputatieronde zijn gebruikt in het uiteindelijke model.

4.6 Stap 4: Uitbreiding met multilevel-component

Studenten zijn geclusterd binnen RMC-regio’s. Om te onderzoeken hoe sterk deze clustering is en of hier in de analyses rekening mee gehouden dient te worden, hebben we een multilevel model geschat. In een model met alleen een random intercept op RMC-regio niveau (dus zonder kenmerken in het model) was de Median Odds Ratio (MOR) 1,19 (95% betrouwbaarheidsinterval (BI): 1,15-1,25). Dat wil zeggen dat wanneer een student verhuist van een RMC-regio met een lagere odds op vsv naar een RMC-regio met een hogere odds op vsv, de mediane odds op vsv 1,19 keer zo groot zijn. Aangezien de MOR een odds ratio is, kan hij ook direct vergeleken worden met de andere odds ratio’s van de variabelen in het model. In verhouding is dit effect van RMC-regio dusdanig klein, dat wij hebben besloten hier in de analyses geen rekening mee te houden. Aanvullend is wel nog onderzocht of deze MOR nog kleiner werd na het toevoegen van de twaalf geselecteerde verklarende variabelen, wat inderdaad het geval was.

In het validatiecohort vonden wij een MOR van eenzelfde grootte (1,21, 95% BI: 1,17-1,28).

Hoewel de gevonden clusteringseffecten klein zijn, zijn ze wel statistisch significant. Hierbij moet worden bedacht dat het bestand een groot aantal waarnemingen bevat waardoor de kans op statistisch significante resultaten wordt vergroot.

4.7 Extra analyses

Tot slot zijn er twee aanvullende analyses uitgevoerd. Ten eerste hebben we, om de resultaten van het model te valideren, ook een vergelijkbare analyse uitgevoerd op basis van DUO-data. Zoals beschreven in paragraaf 2.3 en 2.4 hanteert DUO een andere afbakening van de populatie en een andere definitie van vsv dan het CBS. We willen deze data daarom vooral gebruiken om te zien of een model op basis van DUO-data vergelijkbare kenmerken selecteert als het model dat is geschat op de CBS-data. Hiervoor is dezelfde forward stepwise procedure toegepast.

In tabel 4.7.1 worden de resultaten vergeleken. Het model op basis van DUO-data komt net als het model op basis van CBS-data uit op 20 kenmerken. Hoewel de volgorde wat verschilt is de selectie van de eerste twaalf kenmerken hetzelfde. In paragraaf 4.5 hebben we geconcludeerd dat het model met twaalf kenmerken het beste als eindmodel gebruikt kan worden. Onderstaande resultaten kunnen gezien worden als een extra bevestiging dat dit twaalf belangrijke kenmerken zijn om de kans op vsv te schatten.

4.7.1 Stepwise selectie op basis van CBS- en DUO-data voor het mbo
Volgorde	Kenmerken (CBS 2018/’19)	Kenmerken (DUO 2018/’19)
1	Mbo-niveau	Mbo-niveau
2	Leeftijd	Leeftijd
3	Psychosociale problemen	Ouderlijke structuur
4	Verdacht van misdrijf	Verdacht van misdrijf
5	Ouderlijke structuur	Psychosociale problemen
6	Geslacht	Geslacht
7	Problematische schulden aanwezig	Problematische schulden aanwezig
8	Hoogst behaalde opleidingsniveau moeder	Hoogst behaalde opleidingsniveau moeder
9	Leerweg	Stedelijkheid van de buurt
10	Onderwijsrichting volgens ISCED	Leerweg
11	Welvaart huishouden	Onderwijsrichting volgens ISCED
12	Stedelijkheid van de buurt	Welvaart huishouden
13	Hoogst behaalde opleidingsniveau vader	Hoogst behaalde opleidingsniveau vader
14	Niveau van vooropleiding	Herkomst
15	Ouder(s) geregistreerd als wanbetaler premie zorgverzekering	Migratieachtergrond moeder
16	Langdurige gezondheidsproblemen	Acute gezondheidsproblemen
17	Herkomstland moeder	Ouder(s) geregistreerd als wanbetaler premie zorgverzekering
18	Acute gezondheidsproblemen	Verblijfsduur van moeder in Nederland
19	Migratieachtergrond moeder	Langdurige gezondheidsproblemen
20	Verblijfsduur van moeder in Nederland	Migratieachtergrond vader

Daarnaast hebben we op basis van het eindmodel met twaalf kenmerken voor de totale populatie op het mbo een simpele aggregatie uitgevoerd van de geschatte kansen op vsv. Dit betekent dat de geschatte kansen van alle studenten in een bepaalde RMC-regio bij elkaar zijn opgeteld. Hiermee krijgen we al een eerste indicatie van de verschillen tussen het werkelijk en geschatte aantal vsv’ers en hoe dit tussen regio’s verschilt. In fase 2 van dit onderzoek zal deze aggregatie naar RMC-regio niveau uitvoerig onderzocht worden. Hierbij zullen ook verschillende keuzes door het ministerie van OCW gemaakt moeten worden.

Om een eerste indicatie te geven van de samenhang tussen het werkelijke en geschatte aantal vsv’ers per RMC-regio op het mbo, hebben we de Pearson correlatiecoëfficiënt uitgerekend. Deze geeft een sterke samenhang aan tussen het werkelijke en geschatte aantal vsv’ers met \( \rho = 0,995 \).

Omdat het aantal studenten verschillend is per RMC-regio, geven we in figuur 4.7.2 de resultaten relatief weer t.o.v. het totaal aantal studenten per RMC-regio. Dit totale aantal is gebaseerd op de populatiedefinitie van dit onderzoek, dus studenten zonder startkwalificatie. Daarbij is te zien dat er relatief meer spreiding is in de werkelijke percentages dan in de geschatte percentages. Daarnaast komt zowel onderschatting (onder de blauwe lijn) als overschatting (boven de blauwe lijn) voor bij de regio’s.

Aandeel werkelijke en geschatte vsv's t.o.v. het total aantal leeringen op het mbo, per RMC-regio