Auteur: Jaap Walhout, Sebastiaan Looijen, Iris van Santen
Jaarlijkse Monitor Onderwijsachterstandenindicator, 2019-2023

2. Data en methoden

2.1 Selectie en afbakening onderzoeksdata

Voor het uitvoeren van deze jaarlijkse monitor is een onderzoeksbestand samengesteld met daarin de gegevens van de kinderen die in de schooljaren 2019/’20 tot en met 2022/’23 aan de eindtoets van de basisschool hebben deelgenomen (zie tabel 2.1.1 voor het aantal kinderen naar eindtoetsaanbieder en schooljaar).5) Voor de kinderen uit schooljaar 2021/’22 zijn zowel de onderwijsscores zoals berekend op de oude manier, als de onderwijsscores volgens het herijkte model gebruikt. Deze zijn respectievelijk terug te lezen in dit rapport als “2021/’22, okt” en “ 2021/’22 feb”. Van alle kinderen zijn de gegevens, zoals die in de analysebestanden van de onderwijsachterstandenindicator zijn opgeslagen, gekoppeld aan de eindtoetsgegevens uit het Stelsel van Sociaal-statistische Bestanden (SSB) van het CBS. De eindtoetsgegevens bestaan uit de eindtoetsscore, de aanbieder van de eindtoets en het uit de eindtoets voortvloeiende eindtoetsadvies. De keuze voor de eindtoetsscore is noodzakelijk omdat deze variabele is gebruikt als afhankelijke variabele bij de ontwikkeling van de indicator.

De onderwijsachterstandenindicator is oorspronkelijk ontwikkeld met behulp van de CET. Sinds de ontwikkeling van de onderwijsachterstandenindicator is het aandeel van deze eindtoets gedaald. Om die reden is de variabele waarin de aanbieder van de eindtoets is vastgelegd, meegenomen in het onderzoeksbestand. Hierdoor kan ook worden bekeken hoe goed de indicator werkt voor leerlingen van scholen die een andere eindtoets gebruiken dan degene waar de indicator mee is ontwikkeld.

Omdat we verwachten dat de eindtoets, ongeacht de aanbieder, tot een vergelijkbaar advies voor het te volgen voortgezet onderwijs komt, is ook het eindtoetsadvies opgenomen in het onderzoeksbestand. Hierdoor wordt het ook mogelijk om de uitkomsten van de eindtoets over de gehele onderzoekspopulatie te vergelijken; ongeacht aan welke eindtoets de basisschoolleerlingen hebben deelgenomen.

De kinderen in de onderzoekspopulatie die voorkomen in de registraties van het COA en de IND, zijn uitgesloten van de analyses. De reden hiervoor is dat deze kinderen – ongeacht hun achtergrondkenmerken – allen dezelfde onderwijsscore krijgen toegewezen6). Doordat er voor deze kinderen geen verband is tussen hun achtergrondkenmerken en hun onderwijsscore, zou het opnemen van deze kinderen tot vertekening leiden van de uitkomsten van de analyses.

2.1.1 Aantal leerlingen naar eindtoetsaanbieder en schooljaar
Eindtoetsaanbieder2020/'212021/'22, okt2021/'22, feb2022/'23
AMN3 2583 3063 3043 177
CET80 28476 70476 70174 564
DIA6 5177 0677 0687 545
IEP57 05059 09559 08162 082
ROUTE 823 33422 30922 29821 168

2.2 Gebruikte methoden

Om de werking van de onderwijsachterstandenindicator te kunnen monitoren, maken we gebruik van een drietal analyses: frequentieanalyses, correlatieanalyses en regressieanalyses. 

Bij de frequentieanalyses bekijken we hoe vaak een bepaalde score voorkomt. Deze waarnemingen worden hiervoor opgedeeld in groepen. Dit wordt gedaan zodat we de grafieken inzichtelijker kunnen maken: kleine groepen kunnen dan worden samengevoegd en grote groepen juist weer opgesplitst zodat we meer detail kunnen zien. Het gevolg hiervan is dat sommige groepen meer waarnemingen behelzen dan andere groepen. Om de groepen toch vergelijkbaar te houden, worden de betreffende waardes gedeeld door de grootte van de categorie waar de waarde in valt.
Belangrijk in deze analyses is dat de zogenaamde frequentieverdelingen over de jaren heen dezelfde patronen laten zien. Hiertoe splitsen we de frequentieverdelingen uit naar doelvariabelen (eindtoetsadvies en aanbieder eindtoets), de modelvariabelen die worden gebruikt bij de berekening van onderwijsscores en de soort imputatie (imputatie opleidingsniveau ouders en directe imputatie onderwijsscore). Bij de uitsplitsing naar de doelvariabelen kijken we alleen naar de drie grootste aanbieders van de eindtoets: CET, IEP en ROUTE 8. Vanwege de lage aantallen deelnemers nemen we DIA en AMN niet mee in de analyses. 

Om het verband tussen de onderwijsscore en de eindtoetsscore te onderzoeken, voeren we een correlatieanalyse uit. Om een beeld te krijgen van de samenhang tussen de onderwijsscore en de eindtoetsscore kijken we naar de correlatiecoëfficiënt (r). In aanvulling op de correlatieanalyse onderzoeken we met behulp van regressieanalyse welk deel van de variantie in de eindtoetsscore met de onderwijsscore kan worden verklaard. Hierbij kijken wij alleen naar de leerlingen die de CET als eindtoets hebben gemaakt omdat de onderwijsachterstandenindicator hiermee is ontwikkeld. 

Bij de regressieanalyse maken we gebruik van een stapsgewijze aanpak. Vanuit een startmodel, met alleen de onderwijsscore als onafhankelijke variabele (ook wel voorspeller genoemd) en de eindtoetsscore als afhankelijke variabele, kijken we in hoeverre het toevoegen van variabelen met betrekking tot de beschikbaarheid van gegevens tot een beter model leidt. Daarvoor hebben we een drietal deelpopulatievariabelen gedefinieerd. Deelpopulatie 1 geeft aan in hoeverre het opleidingsniveau van de ouders bekend is. De verschillende categorieën voor deze variabele zijn weergegeven in tabel 2.2.1. Deelpopulatie 2 is een dichotome variabele die aangeeft of de onderwijsscore direct is berekend of is geïmputeerd. Deelpopulatie 3 is een combinatie van deelpopulatie 1 en deelpopulatie 2. De verschillende categorieën voor deze variabele zijn weergegeven in tabel 2.2.2.

2.2.1 Deelpopulatie 1
DeelpopulatieBeschrijving
AHet hoogste opleidingsniveau van beide ouders is niet bekend
BHet hoogste opleidingsniveau is bekend voor de moeder maar niet voor de vader
CHet hoogste opleidingsniveau is bekend voor de vader maar niet voor de moeder
DHet hoogste opleidingsniveau van beide ouders is bekend

2.2.2 Deelpopulatie 3
DeelpopulatieBeschrijving
A1Het hoogste opleidingsniveau van beide ouders is niet bekend en de onderwijsscore is geïmputeerd
A0Het hoogste opleidingsniveau van beide ouders is niet bekend en de onderwijsscore is direct bepaald (niet geïmputeerd)
B1Het hoogste opleidingsniveau is bekend voor de moeder maar niet voor de vader en de onderwijsscore is geïmputeerd
B0Het hoogste opleidingsniveau is bekend voor de moeder maar niet voor de vader en de onderwijsscore is direct bepaald (niet geïmputeerd)
C1Het hoogste opleidingsniveau is bekend voor de vader maar niet voor de moeder en de onderwijsscore is geïmputeerd
C0Het hoogste opleidingsniveau is bekend voor de vader maar niet voor de moeder en de onderwijsscore is direct bepaald (niet geïmputeerd)
D0Het hoogste opleidingsniveau van beide ouders is bekend en de onderwijsscore is direct bepaald (niet geïmputeerd)

Om te beoordelen of het toevoegen van een variabele tot een beter model leidt voor wat betreft de verklaarde variantie, kijken we naar de aangepaste R². Deze maat van verklaarde variantie corrigeert voor het aantal voorspellers dat gebruikt wordt in een regressiemodel. Daarnaast kijken we naar het Akaike Information Criterium (AIC) voor extra zekerheid. Deze maatstaf corrigeert ook voor het aantal parameters in een model, en is een uitdrukking van de hoeveelheid misfit tussen het model en de data. In andere woorden: AIC drukt uit in welke mate het model de data goed beschrijft. Een lagere AIC is beter. 

5) In het schooljaar 2019/’20 is geen eindtoets afgenomen. Eindtoetsscores voor dit schooljaar zijn dan ook niet in de analyses meegenomen. De leerlinggegevens voor dit schooljaar nemen we wel mee in de analyses van hoofdstuk 3. We nemen hierbij alleen gegevens mee voor leerlingen die in het schooljaar 2019/’20 een leerkrachtadvies hebben gekregen, zodat de selectie van meegenomen leerlingen voor dit schooljaar zo vergelijkbaar mogelijk is met die voor de andere schooljaren waarin alleen leerlingen met een eindtoetsscore worden meegenomen.  
6) Een uitgebreide uitleg hierover is te vinden in het vierde methoderapport.