Correctie van selectiebias in niet-kanssteekproeven door pseudo-gewichten

Statistieken worden vaak gebaseerd op een steekproef in plaats van de gehele populatie. Als de insluitkansen van de steekproef onbekend zijn bij de onderzoeker, kan het naïef behandelen van de steekproef als een enkelvoudig aselecte steekproef leiden tot vertekening (selectiebias). De aandacht voor het corrigeren van selectiebias neemt toe vanwege de beschikbaarheid van nieuwe gegevensbronnen. Deze gegevens zijn vaak eenvoudig te verzamelen en kunnen zogenaamde "Big Data" worden genoemd vanwege de grote inclusiefractie van de populatie. Dit proefschrift stelt een nieuw raamwerk voor om selectiebias in niet-kanssteekproeven te corrigeren. Het algemene idee is om een set gewichten voor eenheden van de niet-kanssteekproef te construeren door informatie van een referentiekanssteekproef te lenen. Als een juiste set gewichten wordt geconstrueerd, kunnen op deze gewichten gebaseerde schatters worden gebruikt voor het schatten van populatieparameters. Om de onzekerheid van de geschatte populatieparameter te evalueren, wordt een pseudo-populatiebootstrap voorgesteld, gegeven verschillende relaties tussen de niet-kanssteekproef en de kanssteekproef.
Drie praktische uitdagingen voor pseudo-weging worden ook besproken. Het voorgestelde raamwerk is flexibel en er kunnen veel soorten schattingsmodellen worden gebruikt. De vraag hoe een geschikt model te selecteren gegeven de populatieparameter waarin we geïnteresseerd zijn, werd gesteld. Een reeks prestatiematen wordt getest en dit laat zien dat het modelleren van de doelvariabele bij het evalueren van de prestatie van gewichten nuttig kan zijn. De tweede uitdaging komt door de grote omvang van de niet-kanssteekproef. Omdat we vaak een grote niet-kanssteekproef hebben met een kleine kanssteekproef, eindigen we met een onevenwichtige gecombineerde steekproef en dit kan leiden tot schattingsproblemen. Verschillende oplossingen voor onevenwichtige steekproeven worden besproken en het voorgestelde raamwerk wordt ook dienovereenkomstig aangepast. De resultaten laten zien dat SMOTE veelbelovend is voor het omgaan met onevenwichtige steekproeven. Tot slot kijken we naar het scenario waarin niet alleen de schattingen op populatieniveau van belang zijn, maar ook schattingen van subpopulaties. Verschillende manieren om pseudo-gewichten te combineren met schattingen van kleine domeinen worden besproken. Van alle manieren vonden we dat het combineren van een hiërarchisch Bayesiaans model met gewichten een relatief stabiele schattingsmethode is. Als zowel schattingen op populatieniveau als op domeinniveau van belang zijn, kan het benchmarken van de gewogen schattingen op de geschatte marginale totalen een betere optie zijn.
Liu, A.-C. (2025). Correcting selection bias in nonprobability samples by pseudo-weighting. Dissertation, Tilburg University.
Downloads
- PDF - Dissertatie Liu 2025