Auteur: Brenda Bos, Sascha de Breij, Naomi Schalken, Sander Scholtus, Jaap Walhout, Jochem Zweerink
Verkenning alternatief verdeelmodel voor voortijdig schoolverlaten

Bijlage 4: Onderzoeksmethoden

Deze bijlage beschrijft aanvullende informatie over de gebruikte methodes in dit onderzoek en geeft met name achtergrondinformatie bij de aanpak zoals bespreken in paragraaf 2.7.

B4.1 Logistische regressie 

B4.1.1 Het model

Voor jongere \( i \) in de populatie op 1 oktober van jaar t0 noteren we de doelvariabele als \( y_i = 1 \) wanneer de jongere vsv’er is op 1 oktober van jaar t1 en anders \( y_i = 0 \). Verder noteren we de kans dat jongere \( i \) vsv’er is op die datum als \( p_i = P(y_i = 1) \). Deze kans kan worden gemodelleerd als functie van achtergrondkenmerken via logistische regressie

De algemene vorm van dit model is (Agresti, 2013, pp. 119-120):
\[ \ln \left( \frac{p_i}{1 - p_i} \right) = \beta_0 + \sum_{k=1}^{K} \beta_k x_{ki}, \]
waarbij \( x_{1i}, \ldots, x_{ki}, \ldots, x_{Ki} \) de waarden van jongere \( i \) zijn op de achtergrondkenmerken die zijn opgenomen in het model. De regressiecoëfficiënten \( \beta_0, \beta_1, \ldots, \beta_K \) beschrijven het verband tussen de achtergrondkenmerken en de kans om vsv’er te worden. In de meest eenvoudige variant bevat het model geen achtergrondkenmerken en blijft alleen de constante term \( \beta_0 \) over.

Uit het logistische regressiemodel volgt de volgende formule voor de kans om vsv’er te worden:
\[ p_i = \frac{ \exp (\beta_0 + \sum_{k=1}^{K} \beta_k x_{ki}) }{1 + \exp (\beta_0 + \sum_{k=1}^{K} \beta_k x_{ki}) }. \]
Nadat de regressiecoëfficiënten zijn geschat, zeg door \( \hat{\beta}_0, \hat{\beta}_1, \ldots, \hat{\beta}_K \), kan met deze formule een geschatte kans worden berekend om vsv’er te worden (\( \hat{p}_i \)) voor elke jongere in de populatie.

Voor de interpretatie van de coëfficiënt \( \beta_k \) is het handig om te kijken naar het bijbehorende effect op de zogenaamde kansverhouding (odds):
\[ \frac{p_i}{1 - p_i} = \exp \left( \beta_0 + \sum_{k=1}^{K} \beta_k x_{ki} \right) = \exp (\beta_0) \prod_{k=1}^{K} [\exp (\beta_k)]^{x_{ki}}. \]
De factoren \( \exp (\beta_k) \) in dit product worden ook wel odds ratio’s genoemd. In dit onderzoek werken we uitsluitend met categoriale achtergrondkenmerken, waarbij elke categorie apart is gecodeerd als \( x_{ki} \in \left\{ 0,1 \right\} \). Bij elk kenmerk wordt dan een van de categorieën aangewezen als referentiecategorie, met als bijbehorende coëfficiënt \( \beta_k = 0 \) [en dus als odds ratio \( \exp (\beta_k) = 1 \)]. Voor alle andere categorieën beschrijven de factoren \( \exp (\beta_k) \) de verwachte toename [als \( \beta_k > 0 \) en dus \( \exp (\beta_k) > 1 \)] of afname [als \( \beta_k < 0 \) en dus \( \exp (\beta_k) < 1 \)] van de kansverhouding om vsv’er te worden ten opzichte van de gekozen referentiecategorie, rekening houdend met alle andere kenmerken die zijn opgenomen in het model.

B4.1.2 Fitmaten voor logistische regressie

Schattingen voor de coëfficiënten van het logistische regressiemodel worden bepaald door de natuurlijke logaritme van de likelihood-functie van het model te maximaliseren. Deze functie heeft de volgende vorm, waarbij de som loopt over alle \( n \) leerlingen of studenten in de data waarop het model geschat wordt:
\[ \ln L = \sum_{i=1}^{n} \left\{ y_i \ln p_i + (1 - y_i) \ln (1 - p_i) \right\}. \]
Voor een geschat model \( M \) is \( H(M) = - \ln \hat{L}(M) \) de waarde van deze functie, vermenigvuldigd met \( -1 \), als de geschatte kansen \( \hat{p}_i \) worden ingevuld in plaats van de werkelijke kansen \( p_i \). De functie \( H(M) \) wordt ook wel de kruisentropie van model \( M \) genoemd.

In dit onderzoek gebruiken we een aantal fitmaten om te vergelijken hoe goed verschillende logistische regressiemodellen (met verschillende selecties van achtergrondkenmerken) passen bij de data. Ten eerste wordt dit geëvalueerd via het Bayesiaanse Informatie-Criterium (BIC):
\[ \mathrm{BIC}(M) = ( \ln n ) ( K + 1 ) + 2 H(M). \]
Hierbij is \( K + 1\) het aantal te schatten regressiecoëfficiënten uit model \( M \). Een model past beter bij de data naarmate de BIC-waarde lager is. In dit criterium zit een afweging tussen enerzijds de wens om een model te vinden dat zo goed mogelijk bij de data past (dat wil zeggen een model met een zo laag mogelijke waarde van \( H(M) \)) en anderzijds de wens om het model zo eenvoudig mogelijk te houden (dat wil zeggen een model met een klein aantal parameters \( K + 1 \)).

Vervolgens wordt bij elk geschat model een pseudo-R2-waarde berekend. Bij een lineair regressiemodel is R2 een getal tussen 0 en 1 dat aangeeft welke fractie van de totale variantie van de doelvariabele wordt verklaard door de achtergrondkenmerken in het model. Voor een logistisch regressiemodel bestaat geen maat die exact equivalent is aan R2, maar er bestaan wel diverse pseudo-R2-waarden met een enigszins vergelijkbare interpretatie. Hier gebruiken we een variant die is voorgesteld door McKelvey & Zavoina (1975):
\[ R^{2}_{MZ} = \frac{ \frac{1}{n} \sum_{i=1}^{n} \left( \hat{\eta}_i - \bar{\hat{\eta}} \right)^2 }{ \frac{1}{n} \sum_{i=1}^{n} \left( \hat{\eta}_i - \bar{\hat{\eta}} \right)^2 + \pi^2 / 3 }. \]
Hierbij is \( \hat{\eta}_i = \hat{\beta}_0 + \sum_{k=1}^{K} \hat{\beta}_k x_{ki} \) de geschatte waarde voor jongere \( i \) op de logistische schaal en \( \bar{\hat{\eta}} = \sum_{i=1}^{n} \hat{\eta}_i / n \). Bij een ‘leeg’ model \( M_0 \) zonder achtergrondkenmerken is \( \hat{\eta}_i = \bar{\hat{\eta}} = \hat{\beta}_0 \) voor alle jongeren en dus \( R^{2}_{MZ} = 0 \), net als bij de gewone R2 voor een lineair regressiemodel.

Een laatste maat die we gebruiken om verschillende modellen te vergelijken is de relatieve (verbetering van de) kruisentropie van model \( M \) ten opzichte van het ‘lege’ model \( M_0 \):
\[ \Delta(M) = \frac{ H(M_0) - H(M) }{ H(M_0) } = 1 - \frac{ H(M) }{ H(M_0) }. \]
Dit is een evaluatiemaat die ligt tussen 0 en 1, waarbij 1 wijst op een ideaal schattend model en 0 op een model dat niet beter schat dan het ‘lege’ model. Deze relatieve kruisentropie staat ook wel bekend als de pseudo-R2-waarde van McFadden (1974) en kan daarbij ook vergeleken worden met andere pseudo-R2-waarden.

B4.1.3 Geschat vsv-gedrag voor individuele leerlingen of studenten

Uit een geschat model volgt voor elke jongere een geschatte kans op vsv, \( \hat{p}_i \). Hiermee kan voor elke jongere worden geschat of deze wel of niet vsv’er wordt, door een bepaalde grenswaarde \( 0 \leq \tau \leq 1 \) te kiezen en te definiëren: \( \hat{y}_i = 1 \) als \( \hat{p}_i \geq \tau \) en anders \( \hat{y}_i = 0 \). Hoewel het model niet gebruikt zal worden om voor individuele leerlingen of studenten te schatten of zij wel of niet vsv’er worden, zegt de kwaliteit van zulke schattingen wel iets over de mate waarin het model bij de data past. We bekijken daarom, naast de eerder genoemde fitmaten, ook een aantal bekende maten waarin het geschatte aantal vsv’ers wordt vergeleken met het werkelijke aantal vsv’ers.

Deze evaluatiematen zijn gebaseerd op de volgende kruistabel van het werkelijke en geschatte aantal vsv’ers:

B 4.1.3.1 Vergelijking van het werkelijke en geschatte aantal vsv'ers
Geschat = 1Geschat = 0
Werkelijk = 1True Positives (TP)False Negatives (FN)
Werkelijk = 0False Positives (FP)True Negatives (TN)

De recall voor vsv’ers is gedefinieerd als de verhouding TP / (TP + FN). Dit is de fractie van alle werkelijke vsv’ers die correct worden geschat door het model. De precision voor vsv’ers is gedefinieerd als de verhouding TP / (TP + FP). Dit is de fractie van alle geschatte vsv’ers door het model die ook in werkelijkheid vsv’er zijn. Ten slotte is de F1-score voor vsv’ers gelijk aan het harmonisch gemiddelde van recall en precision. Idealiter zou het model een hoge score moeten hebben op alle drie deze maten. In de praktijk heeft een model met een hogere recall vaak een lagere precision en vice versa.

Bij een gegeven model hangen de waarden van recall, precision en F1-score af van de gekozen grenswaarde \( \tau \). In dit onderzoek is de ‘optimale’ grenswaarde \( \tau \) voor elk model apart bepaald, door de som van de recall voor vsv’ers en de recall voor niet-vsv’ers te maximaliseren. Hierbij is de recall voor niet-vsv’ers gegeven door: TN / (TN + FP).

B4.2 Multilevel analyse

B4.2.1 Het model

In dit onderzoek is alleen gekeken naar uitbreidingen van het logistische regressiemodel met een clustereffect in de constante term (random intercept). Voor leerlingen in het vo zijn multilevel-modellen getest van de volgende vormen:
\[ \ln \left( \frac{p_{isr}}{1 - p_{isr}} \right) = \beta_0 + \sum_{k=1}^{K} \beta_k x_{kisr} + \beta_{01s}, \quad \beta_{01s} \sim N(0, \sigma^{2}_{S}) \]
\[ \ln \left( \frac{p_{isr}}{1 - p_{isr}} \right) = \beta_0 + \sum_{k=1}^{K} \beta_k x_{kisr} + \beta_{01r}, \quad \beta_{01r} \sim N(0, \sigma^{2}_{R}) \]
\[ \ln \left( \frac{p_{isr}}{1 - p_{isr}} \right) = \beta_0 + \sum_{k=1}^{K} \beta_k x_{kisr} + \beta_{01s} + \beta_{02r}, \quad \beta_{01s} \sim N(0, \sigma^{2}_{1S}), \beta_{02r} \sim N(0, \sigma^{2}_{2R}). \]
Hierbij is \( p_{isr} \) de kans om vsv’er te worden voor leerling \( i \) op school \( s \) binnen RMC-regio \( r \). De constante term \( \beta_{01s} \) verschilt per school, de constante termen \( \beta_{01r} \) en \( \beta_{02r} \) verschillen per regio. Een aanname van het multilevel-model is dat deze variërende constante termen gemiddeld nul zijn en mogen worden opgevat als trekkingen uit een normale verdeling. Het eerste model bevat een clustering op schoolniveau, het tweede model een clustering op regionaal niveau en het derde model bevat beide typen clustering naast elkaar.

De grootte van de variantie van de geclusterde constante termen (voor de bovenstaande modellen respectievelijk \( \sigma^{2}_{S} \), \( \sigma^{2}_{R} \) en \( \sigma^{2}_{1S} \) en \( \sigma^{2}_{2R} \)) geeft aan in hoeverre clustering op school- of regionaal niveau voorkomt in de data. Anders dan bij een lineair regressiemodel is het bij een logistisch regressiemodel lastig om de grootte van deze variantie direct te interpreteren. Om te evalueren in hoeverre clustering voorkomt in de data – en daarmee in hoeverre een multilevel-model hier toegevoegde waarde heeft boven een gewoon logistisch regressiemodel – kijken we in dit onderzoek daarom naar een afgeleide maat, het mediane effect van de clustering op de kansverhoudingen (median odds ratio; MOR). De interpretatie van de MOR is vergelijkbaar met die van de eerder genoemde odds ratio’s \( \exp (\beta_k) \); zie de volgende paragraaf voor meer details.

B4.2.2 Median Odds Ratio (MOR)

Conceptueel is de MOR als volgt gedefinieerd: stel, we doen een gedachtenexperiment waarbij twee willekeurige clusters (d.w.z. scholen of regio’s) worden gekozen. Bij de ene cluster hoort een lagere constante term dan bij de andere. Stel nu dat we een jongere uit de cluster met de lagere constante term verplaatsen naar de cluster met de hogere constante term. Hierdoor neemt de kansverhouding op vsv van deze jongere, \( p_i / (1 - p_i) \), toe met een bepaalde factor. De MOR is nu gelijk aan de mediaan van deze factor wanneer we dit gedachtenexperiment zouden herhalen voor alle mogelijke paren van clusters. De MOR is per definitie groter dan of gelijk aan 1. Een hogere MOR wijst op een grotere rol van clustering bij vsv.

In de praktijk kan de MOR worden berekend met de volgende formule (Merlo et al., 2006):
\[ \mathrm{MOR} = \exp \left( q_{0,75} \sqrt{2 \sigma^2} \right). \]
Hierbij is \( q_{0,75} \approx 0,6745 \) het 75%-kwantiel van de verdelingsfunctie van de standaardnormale verdeling. Voor \( \sigma^2 \) wordt de variantie van een geclusterde constante term ingevuld (dat wil zeggen: een van de varianties \( \sigma^{2}_{S} \), \( \sigma^{2}_{R} \), \( \sigma^{2}_{1S} \) en \( \sigma^{2}_{2R} \)).

Een 95%-betrouwbaarheidsinterval rond geschatte waarden van \( \sigma^2 \) en/of MOR kan in de praktijk worden bepaald met de zogenaamde profile likelihood-methode; zie bijvoorbeeld Agresti (2013, pp. 79-80).