Corrigeren voor koppelfouten in kruistabellen

Omslag Correcting for linkage errors in contingency tables – a cautionary tale
Er bestaan verschillende methoden om een kruistabel van twee categoriale variabelen te corrigeren voor koppelfouten, wanneer de tabel geschat wordt uit twee gekoppelde bestanden. Dit rapport behandelt de fundamentele vraag: onder welke condities leiden deze correctiemethoden tot een beter resultaat dan een naïeve aanpak waarbij de koppelfouten worden genegeerd? Het blijkt dat de keuze van de beste correctiemethode afhangt van bepaalde eigenschappen van de doeltabel.

Koppelmethoden worden gebruikt om records bij elkaar te brengen die horen bij dezelfde eenheid (bijvoorbeeld een persoon of een bedrijf) in twee of meer bestanden. Hierbij kunnen miskoppelingen ontstaan, waarbij twee records ten onrechte aan elkaar gekoppeld worden, bijvoorbeeld door ontbrekende informatie of veranderingen in de achtergrondvariabelen waarop gekoppeld wordt. Het is bekend dat het negeren van deze miskoppelingen leidt tot vertekening in analyses op de gekoppelde bestanden.

In dit rapport behandelen we twee methoden om te corrigeren voor het effect van miskoppelingen op een geschatte kruistabel van twee categoriale variabelen, waarbij de ene variabele uit het ene bestand komt en de andere variabele uit het andere bestand. De eerste aanpak leidt tot zuivere schattingen en we laten zien dat dit in de praktijk neerkomt op de aanpak van Chipperfield en Chambers (2015) onder een veelgebruikt model voor koppelfouten (exchangeable linkage errors). De andere aanpak is een onzuivere methode die echter regelmatig leidt tot nauwkeurigere uitkomsten dan de zuivere methode.

Onder het exchangeable linkage errors-model behandelen we de volgende fundamentele vragen: kunnen deze correctiemethoden voor koppelfouten leiden tot een beter resultaat dan de naïeve aanpak waarbij koppelfouten worden genegeerd, en zo ja, onder welke voorwaarden? Om deze vragen te beantwoorden vergelijken we de drie aanpakken, zowel analytisch als door middel van simulaties. In het bijzonder kijken we naar schattingsfouten, vertekening, variantie en de gemiddelde kwadratische fout van geschatte tabellen. We laten zien dat de beste aanpak voor een gegeven situatie afhangt van eigenschappen van de doeltabel. Specifiek is van belang of in een tabelcel sprake is van een positieve, negatieve of geen associatie tussen de doelvariabelen.