Consistente schattingen voor categoriale gegevens op basis van een mix van administratieve gegevensbronnen en enquêtes

Omslag, Consistent estimates for categorical data based on a mix of administrative data sources and surveys, Laura Boeschoten
© CBS
Proefschrift over multiple imputatie van latente klassen voor het simultaan schatten en corrigeren voor misclassificatie en ontbrekende data in gecombineerde datasets.
Nationale statistiekbureaus zoals het CBS gebruiken vaak grote datasets om populatieschattingen te maken over veel verschillende aspecten van de samenleving. Een manier om deze rijke datasets zo efficiënt en kosteneffectief mogelijk te maken is door gebruik te maken van reeds beschikbare bevolkingsregisters met administratieve gegevens. Als er meer informatie nodig is dan er al beschikbaar is, kunnen bevolkingsregisters worden aangevuld met enquêtegegevens. Een groot probleem is echter dat de scores van variabelen in zowel enquêtes als administratieve gegevens om verschillende redenen inconsistent en onnauwkeurig kunnen zijn, d.w.z. dat ze misclassificatie bevatten.

Om het probleem van misclassificatie in beide soorten bronnen op te lossen, wordt in dit proefschrift een methode ontwikkeld die meervoudige imputatie (MI) en latente klasse (LC) analyse combineert (aangeduid als MILC). Deze methode schat de hoeveelheid misclassificatie en schrijft tegelijkertijd een nieuwe variabele toe die voor die misclassificatie is gecorrigeerd. Bovendien wordt onzekerheid als gevolg van misclassificatie opgenomen door meerdere imputaties te gebruiken. Bewerkingsregels kunnen worden opgenomen in de MILC methode, wat voorkomt dat onmogelijke combinaties van scores voorkomen in de meervoudig geïmputeerde dataset.

Dit proefschrift heeft aangetoond dat meervoudige imputatie van latente klassen een flexibele oplossing is om tegelijkertijd misclassificatie en ontbrekende gegevens in gecombineerde datasets in te schatten en te corrigeren.

Boeschoten, L. (2019). Consistent estimates for categorical data based on a mix of administrative data sources and surveys. Dissertation, Tilburg University.