Auteur: Jaap Walhout, Boris Brandhorst
Jaarlijkse Monitor Onderwijsachterstandenindicator, 2017-2022

4. Resultaten correlatie- en regressieanalyses

In dit hoofdstuk onderzoeken we het verband tussen de onderwijsscore en de eindtoetsscore. In de eerste sectie voeren we daartoe een correlatieanalyse uit om een eerste beeld te krijgen. In aanvulling daarop onderzoeken we in de tweede sectie met behulp van regressieanalyse welk deel van de variantie in de eindtoetsscore met de onderwijsscore kan worden verklaard.

4.1 Correlatieanalyse

In deze sectie bekijken we de correlatie tussen de onderwijsscore en de eindtoetsscore uitgesplitst naar de deelpopulatie voor wat betreft het imputeren van het hoogste opleidingsniveau van de ouders, de verschillende soorten eindtoets en de schooljaren. Bij een correlatie van 0 is er geen lineaire samenhang tussen de onderwijsscore en de eindtoetsscore. Bij een correlatie van 1 respectievelijk -1 is er sprake van een perfecte positieve respectievelijk perfecte negatieve lineaire samenhang tussen de onderwijsscore en de eindtoetsscore. Een correlatie van rond 0,1 is een zwakke correlatie, rond de 0,3 is een middelmatige correlatie, en rond 0,5 is een sterke correlatie.

Omdat het model voor de onderwijsachterstandenindicator ontwikkeld is met behulp van de CET, mag verwacht worden dat de correlatie tussen de onderwijsscores en de eindtoetsscores hoger is voor de CET dan voor eindtoetsen van andere aanbieders. Verder kunnen we verwachten dat de correlatie hoger is naarmate er minder gegevens zijn geïmputeerd bij de hoogste opleidingsniveau-variabelen.

Tabel 4.1.1 toont de correlatie tussen de onderwijsscore en de eindtoetsscore uitgesplitst naar eindtoetsaanbieder en schooljaar en tabel 4.1.2 toont de correlatie tussen de onderwijsscore en de eindtoetsscore uitgesplitst naar deelpopulatie, type eindtoetsaanbieder en schooljaar.

4.1.1 Correlatie tussen onderwijs- en eindtoetsscore naar eindtoets aanbieder
Eindtoetsaanbieder2016/'172017/'182018/'192020/'212021/'22, okt2021/'22, feb
CET0,380,370,370,390,380,38
IEP0,360,330,350,360,350,36
ROUTE 80,360,350,360,370,370,37

4.1.2 Correlatie tussen onderwijs- en eindtoetsscore naar deelpopulatie en eindtoets aanbieder
EindtoetsaanbiederDeelpopulatie2016/'172017/'182018/'192020/'212021/'22, okt2021/'22, feb
CETA0,140,120,110,130,150,16
B0,320,300,30,310,290,29
C0,300,300,290,310,300,30
D0,450,440,430,450,430,43
IEPA0,130,120,110,130,120,13
B0,310,280,280,270,270,27
C0,280,250,260,270,260,26
D0,430,400,410,410,400,40
ROUTE 8A0,140,110,110,130,140,15
B0,290,290,280,270,250,24
C0,290,290,290,250,280,28
D0,450,420,420,420,430,43

Op basis van tabel 4.1.1 kunnen we concluderen dat de correlatie tussen de onderwijsscores en de eindtoetsscores – conform verwachting – het hoogst is voor de kinderen die de CET hebben gemaakt. Voor de twee andere grote aanbieders – IEP en ROUTE 8 – levert de analyse een minder sterke, maar vergelijkbare correlatie op. Dit patroon is hetzelfde voor alle onderzochte schooljaren. Hoewel de correlaties voor de verschillende aanbieders vergelijkbaar zijn, is geen van de correlaties sterk te noemen. Deze correlaties liggen in lijn met wat verwacht mag worden op basis van de methodologische onderzoeken die ten grondslag liggen aan de onderwijsachterstanden­indicator. Wel zien we dat de correlaties redelijk stabiel blijven in de tijd. De correlaties zijn voor oktober 2021 en februari 2022 nagenoeg gelijk, wat betekent dat de herijking van het model weinig invloed heeft gehad op de correlaties tussen onderwijs- en eindtoetsscore.

Kijken we naar de uitsplitsing naar deelpopulatie in tabel 4.1.2, dan zien we dat – conform verwachting – de correlaties voor de deelpopulatie D (het opleidingsniveau van beide ouders is bekend) het hoogst is. Er is met r ≈ 0,11-0,13 een zwakke correlatie tussen de onderwijsscore en de eindtoetsscore voor deelpopulatie A . Voor deelpopulaties B en C ligt de correlatie ruim twee keer zo hoog als voor deelpopulatie A: met een correlatie van r ≈ 0,3 is hier sprake van een middelmatige correlatie tussen onderwijsscores en eindtoetsscores in de onderzochte schooljaren.

4.2 Regressieanalyse (alleen CET)

In deze sectie onderzoeken we welk gedeelte van de variantie in de CET-eindtoetsscore door de onderwijsscore wordt verklaard met behulp van een regressieanalyse. Zoals in hoofdstuk 2 uiteengezet, maken we bij de regressieanalyse gebruik van een stapsgewijze aanpak. In deze sectie kijken we alleen naar het startmodel en het uiteindelijke – best passende– model.

Eenvoudig model

Het eenvoudige model is opgebouwd uit de CET-eindtoetsscore als afhankelijke variabele en onderwijsscore als voorspeller (lees: onafhankelijke variabele). Tabel 4.2.1 toont de resultaten van het eenvoudige regressiemodel. De verwachting is dat het model de meeste variantie verklaart voor cohort 2016/’17 en de minste voor cohort2021/’22 omdat het tijdsinterval tussen ontwikkeling van de onderwijsachterstandenindicator en het moment van berekenen van de onderwijsscore en de afname van de eindtoets steeds groter wordt (zie ook de derde alinea van de inleiding). Daarnaast is de verwachting dat R2 voor februari 2022 afwijkt van de rest, omdat de onderwijsscore voor dat peilmoment op een andere manier is berekend.

4.2.1 Resultaten eenvoudig lineair regressiemodel met eindtoetsscore als afhankelijke variabele en onderwijsscore als voorspeller
2016/'172017/'182018/'192020/'212021/'22,okt2021/'22, feb
(Intercept)-43,8 (4,18)***7,2 (4,18) 30,34 (4,31)***-22,99 (4,58)***-4,12 (4,67) -23,69 (4,84)***
score1,08 (0,01)***0,99 (0,01)***0,94 (0,01)***1,04 (0,01)***1,01 (0,01)***1,04 (0,01)***
R20,1420,1370,1390,1560,1480,148
AIC850 858,1722 084,7607 101,2576 433,6551 183,7551 180,1
*** p < 0,001, ** p < 0,05, * p < 0,1

Uit de resultaten zoals weergeven in tabel 4.2.1. kunnen we opmaken dat het model ongeveer dezelfde verklarende kracht heeft voor de eerste drie schooljaren met R² ≈ 0,14 en dat deze met R² ≈ 0,16 de grootste verklarende kracht heeft voor het schooljaar 2020/’21. Dit laatste is opvallend en enigszins tegen de verwachting in. De verschillen zijn echter marginaal. Voor 2021/’22 is de R2 ongeveer 0,15. De R2 is hetzelfde voor zowel oktober 2021 als februari 2022. Dit is tegen de verwachting in, maar wel goed nieuws: Dit betekent dat de voorspellende kracht van het herijkte model hetzelfde is als het oude model en dat dit model dus evenveel variantie in eindtoetsscore verklaart. Daarnaast blijft de R2 vooralsnog dus stabiel, wat betekent dat de voorspellende kracht van het model over tijd niet minder lijkt te worden. Dit suggereert dat het model redelijk robuust is over de tijd. De analyses voor de komende jaren zullen uitwijzen in hoeverre de verklaarde variantie zich ontwikkelt.

De uitkomsten van het eenvoudige model kunnen we vergelijken met de uitkomsten die zijn beschreven in het eerste methoderapport.9) Daarin zien we dat wanneer de modelvariabelen als voorspellers zijn opgenomen en de CET-eindtoetsscore als afhankelijke variabele, het model resulteert in een hogere verklaarde variantie (R² = 0,198). Hoewel de verklaarde variantie in het eerste methoderapport hoger is, is er ook een wezenlijk verschil in de gebruikte populaties. De populatie die we hebben gebruikt voor tabel 4.2.1 is inclusief leerlingen waarvoor de onderwijsscore is geïmputeerd. De populatie die is gebruikt voor de uitkomsten in het eerste methoderapport bevat geen kinderen waarvoor de onderwijsscore is geïmputeerd. Verder is de verklaarde variantie in het eerste methoderapport berekend op dezelfde steekproef van kinderen waarop het model voor de onderwijsscore is ontwikkeld. Het is dan geen verrassing dat de verklaarde variantie bij toepassing van de onderwijsscore op een andere populatie iets kleiner is.

Uitgebreid model

Het uiteindelijke – best passende – model heeft naast de CET-eindtoetsscore als afhankelijke variabele en onderwijsscore als onafhankelijke variabele deelpopulatie 3 als tweede onafhankelijke variabele. Daarnaast hebben we in dit model een interactie tussen deelpopulatie en de onderwijsscore opgenomen. In dit model is deelpopulatie “D0” de referentiecategorie. De verwachting is dat het model beter aansluit op de data ten opzichte van het eenvoudige model, omdat we rekening houden met (lees: corrigeren voor) de twee verschillende wijzen van imputeren. Tabel 4.2.2 toont de resultaten van het uiteindelijke model.

4.2.2 Resultaten meervoudig regressiemodel met eindtoetsscore als afhankelijke variabele en onderwijsscore en de interactie tussen onderwijsscore en deelpopulatie 3 als onafhankelijke variabele
2016/'172017/'182018/'192020/'212021/'22,okt2021/'22, feb
(Intercept)-55,33 (5,37)***-7,2 (5,3) 18,65 (5,44)***-36,94 (5,61)***-15,44 (5,67)**-35,54 (5,87)***
deelpop_IMPUTATIEA0122,55 (21,92)***148,69 (23,2)***178,57 (25,75)***195,68 (28,43)***139,8 (29,65)***120,83 (29,85)***
deelpop_IMPUTATIEA1324,42 (45,74)***422,18 (46,37)***402,34 (44,14)***338,63 (51,51)***323,34 (48,49)***377,79 (51,51)***
deelpop_IMPUTATIEB043,52 (11,79)***63,76 (12,07)***67,51 (12,57)***80,8 (13,87)***89,53 (14,37)***99,12 (14,79)***
deelpop_IMPUTATIEB1358,01 (25,59)***364,96 (25)***271,86 (24,86)***302,23 (27,45)***298,16 (27,66)***316,95 (29,11)***
deelpop_IMPUTATIEC033,79 (14,85)*23,07 (15,21) 37,43 (16,03)*56,68 (17,9)**56,59 (18,67)**51,67 (19,35)**
deelpop_IMPUTATIEC1329,64 (127,75)**291,75 (125,69)*62,35 (131,25) 246,93 (136,32) 339 (128,65)**459,79 (140,4)**
score1,1 (0,01)***1,01 (0,01)***0,97 (0,01)***1,07 (0,01)***1,03 (0,01)***1,07 (0,01)***
deelpop_IMPUTATIEA0:score-0,23 (0,04)***-0,28 (0,04)***-0,34 (0,05)***-0,37 (0,05)***-0,26 (0,06)***-0,23 (0,06)***
deelpop_IMPUTATIEA1:score-0,61 (0,09)***-0,8 (0,09)***-0,76 (0,08)***-0,64 (0,1)***-0,61 (0,09)***-0,71 (0,1)***
deelpop_IMPUTATIEB0:score-0,08 (0,02)***-0,12 (0,02)***-0,13 (0,02)***-0,15 (0,03)***-0,17 (0,03)***-0,19 (0,03)***
deelpop_IMPUTATIEB1:score-0,68 (0,05)***-0,69 (0,05)***-0,52 (0,05)***-0,57 (0,05)***-0,56 (0,05)***-0,6 (0,05)***
deelpop_IMPUTATIEC0:score-0,06 (0,03)*-0,04 (0,03) -0,07 (0,03)*-0,11 (0,03)**-0,11 (0,03)**-0,1 (0,04)**
deelpop_IMPUTATIEC1:score-0,63 (0,24)**-0,55 (0,24)*-0,12 (0,25) -0,47 (0,26) -0,64 (0,24)**-0,87 (0,26)***
R20,1460,1430,1450,1610,1540,155
AIC850 266,9721 476,2606 513,4575 940,2550 652,8550 603,1
*** p < 0,001, ** p < 0,05, * p < 0,1

Het uiteindelijke model verklaart met R² ≈ 0.14-0,16 in alle onderzochte schooljaren een groter deel van de variantie in de CET- ten opzichte van het eenvoudige model met R² ≈ 0.148. De verschillen zijn echter marginaal. Daarnaast is de AIC lager voor het complexe model ten opzichte van het eenvoudige model voor elk jaar. De AIC kan alleen tussen modellen binnen hetzelfde jaar worden vergeleken met elkaar, en zoals eerder gezegd betekent een lagere AIC dat het model beter bij de data past.

9) Zie tabel 5.5 op pagina 43 van het eerste methoderapport.