Vergelijking internationale tijdreeksen Monitor Brede Welvaart

4. Correcties voor breuken en uitbijters in de data

4.1 Inleiding

In de dataset van Eurostat wordt systematisch aangegeven of er sprake is van een methodebreuk in de data. In dat geval zijn onderlinge datapunten niet goed met elkaar vergelijkbaar. Een gevolg is dat er geen trend kan worden bepaald. In dit hoofdstuk wordt uitgewerkt hoe daar mee om te gaan. Bij het CBS is veel ervaring opgedaan in het repareren van methodebreuken  (Van den Brakel, Kraan, Roels, 2010, Methodenreeks; Thema: methode breuken en Lodder, 2007, Het repareren van trendbreuken). In dit hoofdstuk wordt de methodiek toegelicht en toegepast op een aantal reeksen in dit onderzoek. 

Allereerst wordt gekeken naar de hoeveelheid breuken in de reeksen die in dit onderzoek centraal staan. In Bijlage 1 wordt weergegeven hoeveel landen er zijn met breuken per statistiek, of er in de tijdreeks van Nederland breuken zijn, en hoeveel reeksen van landen er zijn met meer dan vijf breuken. Opvallend is dat er een paar statistieken zijn met heel veel breuken. Dat zijn:

  • Relatieve armoede , nr. 1
  • Gezonde levensverwachting, nr. 7

Het is mogelijk om een redelijke schatting van het methode-effect te maken per tijdreeks met breuken van elk land voor elke statistiek. Niet in elke reeks zit een breuk en bovendien zitten de breuken niet altijd in hetzelfde jaar. Dat biedt mogelijkheden om de breuken te repareren. 
 
In grote lijnen komt het repareren van een specifieke reeks van een land (doelreeks) op het  volgende neer: 

  • Er wordt geconstateerd dat er methodebreuken zijn in de doelreeks, aan de hand van de informatie van Eurostat. Er wordt bekeken in welk jaren er breuken zijn.
    Vervolgens wordt bekeken welke reeksen van andere landen sterk correleren met de doelreeks, die geen methodebreuken bevatten in dezelfde jaren waarin de doelreeks die heeft. Het selecteren van deze reeksen wordt gedaan met stapsgewijze regressie. Die reeksen worden als regressoren gebruikt in een regressiemodel.
  • Door aan het regressiemodel een dummy-variabele toe te voegen, kan het methode-effect worden geschat. Een dummy-variabele heeft de waarde 1 voorafgaand aan de breuk, en 0 in de periode daarna. De geschatte parameter van de dummy-variabele is het methode-effect. 
  • Als het methode-effect is geschat, kan een gecorrigeerde reeks worden berekend door van de oorspronkelijke reeks het methode-effect op te tellen of af te trekken (afhankelijk van de richting van het methode-effect). 

Aan de hand van voorbeelden kan dit geïllustreerd worden. We beginnen met een analyse van uitbijters en breuken in de reeksen van relatieve armoede en gezonde levensverwachting. 

Uitbijters:

In de statistiek voor relatieve armoede en gezonde levensverwachting zijn voor 28 landen reeksen te vinden in de database van Eurostat. Voor het vinden van uitbijters is een functie tsclean in het softwarepakket R beschikbaar. Naast het vinden van uitbijters geeft deze functie meteen een alternatieve schatting van het datapunt met de uitbijter. Er zijn in de voorbeeldreeksen voor een aantal landen uitbijters gevonden (tabel 4.1.1).   

4.1.1 Uitbijters in de statistiek voor relatieve armoede en gezonde levensverwachting
Nr.ReeksLanden met minimaal 1 uitbijter
1Relatieve armoedeBelgië (2006), Hongarije (2006), Duitsland (2006),
Zweden(2007)
7Gezonde levensverwachtingBelgië (2020), Bulgarije (2016, 2022), Kroatië (2013),
Denemarken (2012, 2019), Hongarije (2023)

Breuken:

De breuken voor de twee voorbeeldreeksen worden nu meer diepgaand geanalyseerd. Breuken helemaal aan het begin van de reeks zijn niet relevant omdat ze geen invloed op de trend hebben die op basis van de gerepareerde reeksen gemaakt zal worden. Voor de reeksen van relatieve armoede is een overzicht te vinden van het aantal breuken per jaar en land in tabel 4.1.2.

4.1.2 Breuken in de reeksen per land voor de statistiek relatieve armoede
LandenBreuken bij reeksen Relatieve armoede (Nr. 1)
Nederland, Bulgarije2016
België ,Ierland, Hongarije2019
Denemarken, Duitsland, Frankrijk2020
Luxemburg, KroatiëRespectievelijk 3 en 2 breuken in 2020-2024
Bulgarije, Roemenië, ZwedenNiet relevante breuken in 2006 , 2007, 2008
De overige 14 landenGeen breuken
Verenigd KoninkrijkGeen recente cijfers

Voor de reeksen van gezonde levensverwachting is een overzicht gegeven in tabel 4.1.3. 

4.1.3 Breuken in de reeksen per land voor de statistiek gezonde levensverwachting
LandenBreuken bij reeksen Gezonde levensverwachting (Nr. 7)
Roemenië, Slovenië,, Zweden2010
Zweden2014
Kroatië2012
Letland2013
Italië2017
Nederland, Italië, Bulgarije2016
Denemarken2020
Hongarije, Bulgarije, Polen2022
België 2019 (uitbijter)
Frankrijk, Duitsland2015, 2020, 2022, 2023
De overige 10 landenGeen breuken
Verenigd KoninkrijkGeen recente cijfers
Luxemburg3 breuken in 2020-2023 en veel fluctuatie
PortugalAlleen uitbijters in 2012 en 2013

Voor het repareren geldt het algemene principe dat reeksen van landen die in hetzelfde jaar een breuk hebben als het land waarvan de reeks gerepareerd dient te worden, niet als regresoren kunnen worden gebruikt. Dus Bulgarije kan bij relatieve armoede niet als regressor worden gebruikt voor de reparatie van de reeks van Nederland, omdat het eveneens in 2016 een breuk heeft. Hetzelfde geldt voor de reeksen van gezonde levensverwachting. Daarbij kan ook de reeks van Italië niet gebruikt worden voor breukreparatie van de Nederlandse reeks. 

Alle reeksen van landen waarbij geen breuken optreden, kunnen bij uitstek wel gebruikt worden als regressor. Reeksen waarbij de breuk in een ander jaar plaatsvindt, kunnen opgenomen worden als regressor, mits er voor die breuk een extra dummy wordt meegenomen in de schatting. Die dummy wordt niet gebruikt in de reparatieslag, zoals eerder beschreven, maar wordt alleen als regressor gebruikt om de breuk van de regressor “op te vangen”. 

4.2 Voorbeelden van breuken en uitbijters

De reeks voor de relatieve armoede in Nederland wordt weergegeven in grafiek  4.2.1. Eurostat geeft door middel van “flags” aan dat er sprake is van een breuk. Een groot aantal reeksen voor andere landen bevatten echter geen breuk voor 2016.  Veel reeksen bevatten voor geen enkel jaar een breuk. Uit een stapsgewijze regressie, waarbij alleen de sterkst gecorreleerde reeksen overblijven, blijkt dat met name de reeks voor Spanje en Polen sterk gecorreleerd zijn met de reeks van Nederland. Deze reeksen worden ook weergegeven in grafiek 4.2.1. 

Met de stapsgewijze regressie kan ook het effect worden bepaald voor de breuk in 2016. Deze wordt vastgesteld op -1,21. Dat betekent dat door de breuk de data van de jaren voorafgaand  aan 2016 systematisch een waarde van -1,21 te laag zijn ten opzichte van de data van 2016 en later. We nemen aan dat we de meest recente data als correct beschouwen, en verhogen daarom alle waarden voor de reeks voorafgaand aan het jaar 2016 met het getal 1,21. Dit resulteert in de gecorrigeerde reeks ‘Nederland gecorrigeerd’. Deze reeks wordt weergegeven in grafiek 4.2.1. 

4.2.1 Relatieve armoede met correctie voor een breuk
JaarNederland (% van de bevolking beneden nationale armoedegrens)Nederland gecorrigeerd (% van de bevolking beneden nationale armoedegrens)Spanje (% van de bevolking beneden nationale armoedegrens)Polen (% van de bevolking beneden nationale armoedegrens)
20069,710,920,319,1
200710,211,419,717,3
200810,511,719,816,9
200911,112,320,417,1
201010,311,520,717,6
20111112,220,617,7
201210,111,320,817,1
201310,411,620,417,3
201411,612,822,217
201511,612,822,117,6
201612,712,722,317,3
201713,213,221,615
201813,313,321,514,8
201913,213,220,715,4
202013,413,42114,8
202114,414,421,714,8
202214,514,520,413,7
2023131320,214
202412,112,119,713,8

Opgemerkt moet worden dat de samenhang met de andere reeksen, alleen in relatieve zin wordt meegenomen. Het is dus niet relevant dat de reeksen van Spanje en Polen veel hoger liggen. Het draait allemaal om de ontwikkeling in de tijd, de groeicijfers, niet om de absolute waarde. 

In sommige gevallen zijn er geen methodebreuken maar wel uitbijters. Dat zijn extreme waarden die om verschillende redenen kunnen optreden. Het is gebruikelijk om voorafgaand aan de trendbepaling deze uitbijters te vervangen door een schatting. Een voorbeeld is hieronder weergegeven voor de reeks van Gezonde Levensverwachting (GLV) in Denemarken. Deze reeks bevat volgens onze analyse twee uitbuiters: in 2012 en 2019. Deze waarden worden vervangen door een schatting. In de praktijk komt dit neer op een interpolatie.  Dit resulteert in de gecorrigeerde reeks ’Denemarken gecorrigeerd’ 

4.2.2 Gezonde levensverwachting met correctie voor uitbijters
JaarDenemarken (jaren (bij geboorte))Denemarken gecorrigeerd (jaren (bij geboorte))
200962,462,4
201061,861,8
201162,362,3
201263,761,75
201361,261,2
201460,760,7
201560,360,3
201660,460,4
201760,360,3
201859,859,8
201962,559,4
20205959
202158,158,1
202258,258,2
202357,157,1
20245757

4.3 Technische toelichting 

In deze toelichting wordt een methodologische verantwoording gegeven van de gevolgde werkwijze die is toegepast bij het corrigeren van breuken. Allereerst wordt de methode geschetst, en vervolgens wordt deze gebruikt voor een concreet voorbeeld. 

4.3.1 Methode

Alvorens de breuken te repareren, worden eventuele uitbijters in de reeks geïdentificeerd en vervangen door een schatting. Nadat de uitbijters zijn verwijderd, worden de breuken aangepakt door modelmatig dummy-variabelen toe te voegen aan een model dat een schatting levert van de reeks.  Als we normaliter een reeks kunnen weergeven met het model: 

\(Y\:=\:X\:\times\:\beta\:+\:\epsilon\)

Dan kunnen we door het toevoegen van een dummy-variabele (D) de breuk weergeven: 

\(Y\:=\:X\:\times\:\beta\:+\:D\:\times\:\delta\:+\:\epsilon\)

We kunnen dit model schatten en dat levert geschatte waarden op, zeg b en d, voor de parameters van het model (β en δ). 

Het effect van de breuk wordt vaak weergegeven door de variabele D (dummy) met de parameter δ. Voorafgaand aan het jaar van de breuk krijgt de variabele D de waarde 1, en vanaf het breukjaar de waarde 0. De reden hiervoor is dat het uitgangspunt is dat de meest recente cijfers als het beste worden gezien, en de oudere cijfers dus gecorrigeerd moeten worden. 

Vervolgens wordt de breuk in de reeks gerepareerd door de gecorrigeerde waarde voor Y (Yc) te berekenen:

\(Yc\:=\:Y\:-\:D\:\times\:d\)

(d is de geschatte waarde van δ)

Opgemerkt moet worden dat in reeksen soms met name aan het begin veel ontbrekende waarden en breuken zijn. Het heeft weinig zin om die te repareren. Enerzijds is dat technisch lastig, omdat er dan te weinig datapunten van zowel voor als na de breuk zijn. Anderzijds is het ook niet zinvol omdat de reeksen worden gebruikt om een trend te bepalen over de laatste 8 jaar, 2017-2024. In de praktijk betekent dit dat we voor de reeks van relatieve armoede vanaf 2006 gaan werken met de data, en voor gezonde levensverwachting vanaf 2009. Bij de laatste reeks zijn er bij veel reeksen breuken in 2008, die doorgaans niet goed geschat kunnen worden.

4.3.2 Uitwerking van de methode voor relatieve armoede in Hongarije

Bij wijze van voorbeeld van de methode om voor breuken te corrigeren, wordt hier het resultaat voor relatieve armoede in Hongarije weergegeven. Allereerst is er een behoorlijke uitbijter aan het begin van de reeks. Deze is vervangen door een schatting. 

Vervolgens is geconstateerd dat er volgens Eurostat een breuk is in 2019. Hoewel Eurostat geen duidelijke definitie geeft van wat de breuk betekent, is in de data duidelijk waarneembaar dat 2018 een stuk lager ligt dan 2019. Vervolgens wordt op basis van correlaties en stapsgewijze regressie bepaald welke reeksen voldoende samenhangen met die van Hongarije, opdat een adequate schatting van de breuk kan plaatsvinden. Van alle geteste variabelen blijken de reeksen van relatieve armoede in Polen en Slovenië de beste schatting op te leveren. Hieronder zijn de schattingsresultaten weergegeven. De t-waarde geeft aan of een parameter significant van de waarde 0 verschilt en is daarmee een maat voor de sterkte van de correlatie. Dat is bij alle regressoren het geval, zelfs zeer sterk bij Slovenië (t-waarde is 10,1). De mate van significantie wordt met sterretjes aangegeven (*). De VIF-score geeft aan of er sprake is van multicollineariteit. Multicollineariteit betekent dat regressoren onderling teveel correleren, waardoor de parameters van het model niet meer goed geschat kunnen worden. De gevonden VIF-scores liggen onder 5 en er kan dus geconcludeerd worden dat er geen sprake is van multicollineariteit. De Adjusted R2 geeft aan in welke mate het model de data door het model correct geschat wordt. Een waarde van 0,85 betekent dat 85% van de variantie door het model wordt verklaard. Dat is bijzonder hoog en goed. 

4.3.2.1 Schattingsresultaten voor het model van relatieve armoede in Hongarije
RegressorParametert-waardeSignificantieVIF
Intercept-1,3-0,68--
Polen0,232,46*2,85
Slovenië0,95610,1***1,2
D_2019-1,6-4,83***3,2
Adjusted R2 = 0,85

De geschatte coëfficiënt  D_2019 is negatief, voor een dummy die 1 is voor jaren 2005 t/m2018 en 0 voor de jaren er na. Gevolg is dat de gecorrigeerde reeks hoger ligt dan de originele reeks voor de periode, 2006-2018, waarin de dummy gelijk aan 1 is. Voor de periode dat de dummy 0 is, is de waarde gelijk aan de originele reeks. De gecorrigeerde reeks is in grafiek 4.3.2.2 weergegeven als ‘Hongarije gecorrigeerd’.  

4.3.2.2 Relatieve armoede, originele en gecorrigeerde data
JaarHongarije (% van de bevolking beneden nationale armoedegrens )Hongarije gecorrigeerd (% van de bevolking beneden nationale armoedegrens )
200615,913,9
200712,313,9
200812,414,0
200912,414,0
201012,313,9
201114,115,7
201214,315,9
20131516,6
20141516,6
201514,916,5
201614,516,1
201713,415,0
201812,814,4
20191414
202013,913,9
202113,213,2
202213,513,5
202313,813,8
202414,314,3

Als we naar grafiek 4.3.2.2 kijken dan zien we direct dat het verwijderen van de uitbijter een groot effect heeft en dat de grafiek vloeiender doorloopt tussen 2018 en 2019. Wat ook opvalt is de sterke stijging tussen 2010 en 2011. Het lijkt zeker mogelijk dat ook daar een methodebreuk heeft plaatsgevonden, hoewel dat niet uit de informatie van Eurostat blijkt. Als er een model geschat zou worden met een extra dummy voor dat tijdvak, zou dat zeker tot een correctie kunnen leiden. 

Als we echter de reeksen van Polen en Slovenië ook in beeld brengen, ontstaat een genuanceerder beeld. Het is duidelijk zichtbaar dat met name Slovenië en Hongarije behoorlijk gelijk oplopen in de reeks van relatieve armoede. We zien ook bij Slovenië een behoorlijke stijging in het tijdvak 2009-2011. Het suggereert dat de sterke stijging in 2010 bij Hongarije mogelijk toch een realistisch beeld geeft. Mogelijk is de sterke stijging een gevolg van de kredietcrisis in 2008.  

4.3.2.3 Relatieve armoede, originele en gecorrigeerde data
JaarHongarije (% van de bevolking beneden nationale armoedegrens)Hongarije gecorrigeerd (% van de bevolking beneden nationale armoedegrens)Polen (% van de bevolking beneden nationale armoedegrens)Slovenië (% van de bevolking beneden nationale armoedegrens)
200615,913,919,111,6
200712,313,917,311,5
200812,414,016,912,3
200912,414,017,111,3
201012,313,917,612,7
201114,115,717,713,6
201214,315,917,113,5
20131516,617,314,5
20141516,61714,5
201514,916,517,614,3
201614,516,117,313,9
201713,415,01513,3
201812,814,414,813,3
2019141415,412
202013,913,914,812,4
202113,213,214,811,7
202213,513,513,712,1
202313,813,81412,7
202414,314,313,813,2

Hiermee wordt ook inzichtelijk dat het proces geen automatisch rekenproces is, maar dat per reeks gekeken moet worden naar wat een realistisch verloop zou kunnen zijn. Een keihard bewijs dat er geen methodebreuk was in 2010 in Hongarije is er niet, maar vanwege de gerede twijfel hierover wordt de informatie van Eurostat zonder wijziging overgenomen.