Auteur: Sebastiaan Looijen, Jaap Walhout, Jochem Zweerink
Jaarlijkse Monitor Onderwijsachterstandenindicator, 2017-2021

4. Resultaten correlatie- en regressieanalyses

In deze paragraaf onderzoeken we het verband tussen de onderwijsscore en de eindtoetsscore. In de eerste sectie voeren we daartoe een correlatieanalyse uit om een eerste beeld te krijgen. In aanvulling daarop onderzoeken we in de tweede sectie met behulp van regressieanalyse welk deel van de variantie in de eindtoetsscore met de onderwijsscore kan worden verklaard.

4.1 Correlatieanalyse

In deze sectie bekijken we de correlatie tussen de onderwijsscore en de eindtoetsscore uitgesplitst naar de deelpopulatie voor wat betreft het imputeren van het hoogste opleidingsniveau van de ouders, de verschillende soorten eindtoets en de schooljaren. Bij een correlatie van 0 is er geen lineaire samenhang tussen de onderwijsscore en de eindtoetsscore. Bij een correlatie van 1 respectievelijk -1 is er sprake van een perfecte positieve respectievelijk perfecte negatieve lineaire samenhang tussen de onderwijsscore en de eindtoetsscore.

Omdat het model voor de onderwijsachterstandenindicator ontwikkeld is met behulp van de CET, mag verwacht worden dat de correlatie tussen de onderwijsscores en de eindtoetsscores hoger is voor de CET dan voor eindtoetsen van andere aanbieders. Verder kunnen we verwachten dat de correlatie hoger is naarmate er minder gegevens zijn geïmputeerd bij de hoogste opleidingsniveau-variabelen.

Tabel 4.1.1 toont de correlatie tussen de onderwijsscore en de eindtoetsscore uitgesplitst naar eindtoetsaanbieder en schooljaar en tabel 4.1.2 toont de correlatie tussen de onderwijsscore en de eindtoetsscore uitgesplitst naar deelpopulatie, type eindtoetsaanbieder en schooljaar.

4.1.1 Correlatie tussen onderwijs- en eindtoetsscore naar eindtoetsaanbieder
Eindtoetsaanbieder2016/'172017/'182018/'192020/'21
CET0,380,370,370,39
IEP0,360,330,350,36
ROUTE 80,360,350,360,37

4.1.2 Correlatie tussen onderwijs- en eindtoetsscore naar deelpopulatie en eindtoetsaanbieder
EindtoetsaanbiederDeelpopulatie2016/'172017/'182018/'192020/'21
CETA0,140,120,110,13
CETB0,320,30,30,31
CETC0,30,30,290,31
CETD0,450,440,430,45
IEPA0,130,120,110,13
IEPB0,310,280,280,27
IEPC0,280,250,260,27
IEPD0,430,40,410,41
ROUTE 8A0,140,110,110,13
ROUTE 8B0,290,290,280,27
ROUTE 8C0,290,290,290,25
ROUTE 8D0,450,420,420,42

Op basis van tabel 4.1.1 kunnen we concluderen dat de correlatie tussen de onderwijsscores en de eindtoetsscores – conform verwachting – het hoogst is voor de kinderen die de CET hebben gemaakt. Voor de twee andere grote aanbieders – IEP en ROUTE 8 – levert de analyse een minder sterke, maar vergelijkbare correlatie op. Hoewel de correlaties voor de verschillende aanbieders vergelijkbaar zijn, is geen van de correlaties sterk te noemen. Deze correlaties liggen in lijn met wat verwacht mag worden op basis van de methodologische onderzoeken die ten grondslag liggen aan de onderwijsachterstandenindicator.  Wel zien we dat de correlaties redelijk stabiel blijven in de tijd.

Kijken we naar de uitsplitsing naar deelpopulatie in tabel 4.1.2, dan zien we dat – conform verwachting – de correlaties voor de deelpopulatie D (het opleidingsniveau van beide ouders is bekend) het hoogst is. Er is met r ≈ 0,13 nauwelijks correlatie tussen de onderwijsscore en de eindtoetsscore voor deelpopulatie A in het schooljaar 2020/’21. De correlatie is nog steeds zwak, maar met r ≈ 0,31 ruim twee keer zo hoog voor deelpopulatie B en C als de correlatie voor deelpopulatie A.

4.2 Regressieanalyse (alleen CET)

In deze sectie onderzoeken we welk gedeelte van de variantie in de CET-eindtoetsscore door de onderwijsscore wordt verklaard met behulp van een regressieanalyse. Zoals in paragraaf 2 uiteengezet, maken we bij de regressieanalyse gebruik van een stapsgewijze aanpak. In deze sectie kijken we alleen naar het startmodel en het uiteindelijke – best passende (op basis van de interpretatie van de AIC) – model.

Eenvoudig model

Het eenvoudige model is opgebouwd uit de CET-eindtoetsscore als afhankelijke variabele en onderwijsscore als voorspeller (lees: onafhankelijke variabele). Tabel 4.2.1 toont de resultaten van het eenvoudige regressiemodel. De verwachting is dat het model de meeste variantie verklaart voor cohort 2016/’17 en de minste voor cohort 2020/’21 omdat het tijdsinterval tussen ontwikkeling van de onderwijsachterstandenindicator en het moment van berekenen van de onderwijsscore en de afname van de eindtoets steeds groter wordt (zie ook de derde alinea van de inleiding).

4.2.1 Resultaten eenvoudig lineair regressiemodel met eindtoetsscore als afhankelijke variabele en onderwijsscore als voorspeller
2016/'172017/'182018/'192020/'21
𝛽(𝑆𝐸)(𝑆𝑖𝑔.)𝛽(𝑆𝐸)(𝑆𝑖𝑔.)𝛽(𝑆𝐸)(𝑆𝑖𝑔.)𝛽(𝑆𝐸)(𝑆𝑖𝑔.)
(Constante)-43,8 (4,18)***7,2 (4,18) 30,34 (4,31)***-22,99 (4,58)***
Onderwijsscore1,08 (0,01)***0,99 (0,01)***0,94 (0,01)***1,04 (0,01)***
RΒ²0,1420,1370,1390,156
AIC850858,1722084,7607101,2576433,6

*** p < 0,001, ** p < 0,05, * p < 0,1

Uit de resultaten zoals weergeven in tabel 4.2.1. kunnen we opmaken dat het model ongeveer dezelfde verklarende kracht heeft voor de eerste drie schooljaren met r² ≈ 0,14 en dat deze met r² ≈ 0,16 de grootste verklarende kracht heeft voor het schooljaar 2020/’21. Dit laatste is opvallend en enigszins tegen de verwachting in. De verschillen zijn echter marginaal. De analyses voor de komende jaren zullen uitwijzen in hoeverre de verklaarde variantie zich ontwikkelt.

De uitkomsten van het eenvoudige model kunnen we vergelijken met de uitkomsten die zijn beschreven in het eerste methoderapport9). Daarin zien we dat wanneer de modelvariabelen als voorspellers zijn opgenomen en de CET-eindtoetsscore als afhankelijke variabele, het model resulteert in een hogere verklaarde variantie (r² = 0,198). Hoewel de verklaarde variantie in het eerste methoderapport hoger is, is er ook een wezenlijk verschil in de gebruikte populaties. De populatie die we hebben gebruikt voor tabel 4.2.1 is inclusief leerlingen waarvoor de onderwijsscore is geïmputeerd. De populatie die is gebruikt voor de uitkomsten in het eerste methoderapport bevat geen kinderen waarvoor de onderwijsscore is geïmputeerd. Verder is de verklaarde variantie in het eerste methoderapport berekend op dezelfde steekproef van kinderen waarop het model voor de onderwijsscore is ontwikkeld. Het is dan geen verrassing dat de verklaarde variantie bij toepassing van de onderwijsscore op een andere populatie iets kleiner is.

Uitgebreid model

Het uiteindelijke – best passende – model heeft naast de CET-eindtoetsscore als afhankelijke variabele en onderwijsscore als onafhankelijke variabele deelpopulatie 3 als tweede onafhankelijke variabele. Daarnaast hebben we in dit model een interactie tussen deelpopulatie en de onderwijsscore opgenomen. In dit model is deelpopulatie “D0” de referentiecategorie. De verwachting is dat het model een betere fit heeft met de data ten opzichte van het eenvoudige model, omdat we rekening houden met (lees: corrigeren voor) de twee verschillende wijzen van imputeren. Tabel 4.2.2 toont de resultaten van het uiteindelijke model.

4.2.2 Resultaten meervoudig regressiemodel met eindtoetsscore als afhankelijke variabele en onderwijsscore en de interactie tussen onderwijsscore en deelpopulatie 3 als onafhankelijke variabele
2016/'172017/'182018/'192020/'21
𝛽(𝑆𝐸)(𝑆𝑖𝑔.)𝛽(𝑆𝐸)(𝑆𝑖𝑔.)𝛽(𝑆𝐸)(𝑆𝑖𝑔.)𝛽(𝑆𝐸)(𝑆𝑖𝑔.)
(Constante)-55,33 (5,37)***-7,2 (5,3) 18,65 (5,44)***-36,94 (5,61)***
Deelpopulatie A0122,55 (21,92)***148,69 (23,2)***178,57 (25,75)***195,68 (28,43)***
Deelpopulatie A1324,42 (45,74)***422,18 (46,37)***402,34 (44,14)***338,63 (51,51)***
Deelpopulatie B043,52 (11,79)***63,76 (12,07)***67,51 (12,57)***80,8 (13,87)***
Deelpopulatie B1358,01 (25,59)***364,96 (25)***271,86 (24,86)***302,23 (27,45)***
Deelpopulatie C033,79 (14,85)*23,07 (15,21) 37,43 (16,03)*56,68 (17,9)**
Deelpopulatie C1329,64 (127,75)**291,75 (125,69)*62,35 (131,25) 246,93 (136,32)
Onderwijsscore1,1 (0,01)***1,01 (0,01)***0,97 (0,01)***1,07 (0,01)***
Deelpopulatie A0*Onderwijsscore-0,23 (0,04)***-0,28 (0,04)***-0,34 (0,05)***-0,37 (0,05)***
Deelpopulatie A1*Onderwijsscore-0,61 (0,09)***-0,8 (0,09)***-0,76 (0,08)***-0,64 (0,1)***
Deelpopulatie B0*Onderwijsscore-0,08 (0,02)***-0,12 (0,02)***-0,13 (0,02)***-0,15 (0,03)***
Deelpopulatie B1*Onderwijsscore-0,68 (0,05)***-0,69 (0,05)***-0,52 (0,05)***-0,57 (0,05)***
Deelpopulatie C0*Onderwijsscore-0,06 (0,03)*-0,04 (0,03) -0,07 (0,03)*-0,11 (0,03)**
Deelpopulatie C1*Onderwijsscore-0,63 (0,24)**-0,55 (0,24)*-0,12 (0,25) -0,47 (0,26)
RΒ²0,1460,1430,1450,161
AIC850266,9721476,2606513,4575940,2

*** p < 0,001, ** p < 0,05, * p < 0,1

Het uiteindelijke model verklaart met r² ≈ 0.161 een groter deel van de variantie in de CET-eindtoetsscore in het schooljaar 2020/’21 ten opzichte van het eenvoudige model met r² ≈ 0.156. De verschillen zijn echter marginaal.

9) Zie tabel 5.5 op pagina 43 van het eerste methoderapport.