Publicatiedatum: 13-4-2026 06:30

Vergelijking internationale tijdreeksen Monitor Brede Welvaart

4. Correcties voor breuken en uitbijters in de data

4.1 Inleiding

In de dataset van Eurostat wordt systematisch aangegeven of er sprake is van een methodebreuk in de data. In dat geval zijn onderlinge datapunten niet goed met elkaar vergelijkbaar. Een gevolg is dat er geen trend kan worden bepaald. In dit hoofdstuk wordt uitgewerkt hoe daar mee om te gaan. Bij het CBS is veel ervaring opgedaan in het repareren van methodebreuken (Van den Brakel, Kraan, Roels, 2010, Methodenreeks; Thema: methode breuken en Lodder, 2007, Het repareren van trendbreuken). In dit hoofdstuk wordt de methodiek toegelicht en toegepast op een aantal reeksen in dit onderzoek.

Allereerst wordt gekeken naar de hoeveelheid breuken in de reeksen die in dit onderzoek centraal staan. In Bijlage 1 wordt weergegeven hoeveel landen er zijn met breuken per statistiek, of er in de tijdreeks van Nederland breuken zijn, en hoeveel reeksen van landen er zijn met meer dan vijf breuken. Opvallend is dat er een paar statistieken zijn met heel veel breuken. Dat zijn:

Relatieve armoede , nr. 1
Gezonde levensverwachting, nr. 7

Het is mogelijk om een redelijke schatting van het methode-effect te maken per tijdreeks met breuken van elk land voor elke statistiek. Niet in elke reeks zit een breuk en bovendien zitten de breuken niet altijd in hetzelfde jaar. Dat biedt mogelijkheden om de breuken te repareren.

In grote lijnen komt het repareren van een specifieke reeks van een land (doelreeks) op het volgende neer:

Er wordt geconstateerd dat er methodebreuken zijn in de doelreeks, aan de hand van de informatie van Eurostat. Er wordt bekeken in welk jaren er breuken zijn.
Vervolgens wordt bekeken welke reeksen van andere landen sterk correleren met de doelreeks, die geen methodebreuken bevatten in dezelfde jaren waarin de doelreeks die heeft. Het selecteren van deze reeksen wordt gedaan met stapsgewijze regressie. Die reeksen worden als regressoren gebruikt in een regressiemodel.
Door aan het regressiemodel een dummy-variabele toe te voegen, kan het methode-effect worden geschat. Een dummy-variabele heeft de waarde 1 voorafgaand aan de breuk, en 0 in de periode daarna. De geschatte parameter van de dummy-variabele is het methode-effect.
Als het methode-effect is geschat, kan een gecorrigeerde reeks worden berekend door van de oorspronkelijke reeks het methode-effect op te tellen of af te trekken (afhankelijk van de richting van het methode-effect).

Aan de hand van voorbeelden kan dit geïllustreerd worden. We beginnen met een analyse van uitbijters en breuken in de reeksen van relatieve armoede en gezonde levensverwachting.

Uitbijters:

In de statistiek voor relatieve armoede en gezonde levensverwachting zijn voor 28 landen reeksen te vinden in de database van Eurostat. Voor het vinden van uitbijters is een functie tsclean in het softwarepakket R beschikbaar. Naast het vinden van uitbijters geeft deze functie meteen een alternatieve schatting van het datapunt met de uitbijter. Er zijn in de voorbeeldreeksen voor een aantal landen uitbijters gevonden (tabel 4.1.1).

4.1.1 Uitbijters in de statistiek voor relatieve armoede en gezonde levensverwachting
Nr.	Reeks	Landen met minimaal 1 uitbijter
1	Relatieve armoede	België (2006), Hongarije (2006), Duitsland (2006), Zweden(2007)
7	Gezonde levensverwachting	België (2020), Bulgarije (2016, 2022), Kroatië (2013), Denemarken (2012, 2019), Hongarije (2023)

Breuken:

De breuken voor de twee voorbeeldreeksen worden nu meer diepgaand geanalyseerd. Breuken helemaal aan het begin van de reeks zijn niet relevant omdat ze geen invloed op de trend hebben die op basis van de gerepareerde reeksen gemaakt zal worden. Voor de reeksen van relatieve armoede is een overzicht te vinden van het aantal breuken per jaar en land in tabel 4.1.2.

4.1.2 Breuken in de reeksen per land voor de statistiek relatieve armoede
Landen	Breuken bij reeksen Relatieve armoede (Nr. 1)
Nederland, Bulgarije	2016
België ,Ierland, Hongarije	2019
Denemarken, Duitsland, Frankrijk	2020
Luxemburg, Kroatië	Respectievelijk 3 en 2 breuken in 2020-2024
Bulgarije, Roemenië, Zweden	Niet relevante breuken in 2006 , 2007, 2008
De overige 14 landen	Geen breuken
Verenigd Koninkrijk	Geen recente cijfers

Voor de reeksen van gezonde levensverwachting is een overzicht gegeven in tabel 4.1.3.

4.1.3 Breuken in de reeksen per land voor de statistiek gezonde levensverwachting
Landen	Breuken bij reeksen Gezonde levensverwachting (Nr. 7)
Roemenië, Slovenië,, Zweden	2010
Zweden	2014
Kroatië	2012
Letland	2013
Italië	2017
Nederland, Italië, Bulgarije	2016
Denemarken	2020
Hongarije, Bulgarije, Polen	2022
België	2019 (uitbijter)
Frankrijk, Duitsland	2015, 2020, 2022, 2023
De overige 10 landen	Geen breuken
Verenigd Koninkrijk	Geen recente cijfers
Luxemburg	3 breuken in 2020-2023 en veel fluctuatie
Portugal	Alleen uitbijters in 2012 en 2013

Voor het repareren geldt het algemene principe dat reeksen van landen die in hetzelfde jaar een breuk hebben als het land waarvan de reeks gerepareerd dient te worden, niet als regresoren kunnen worden gebruikt. Dus Bulgarije kan bij relatieve armoede niet als regressor worden gebruikt voor de reparatie van de reeks van Nederland, omdat het eveneens in 2016 een breuk heeft. Hetzelfde geldt voor de reeksen van gezonde levensverwachting. Daarbij kan ook de reeks van Italië niet gebruikt worden voor breukreparatie van de Nederlandse reeks.

Alle reeksen van landen waarbij geen breuken optreden, kunnen bij uitstek wel gebruikt worden als regressor. Reeksen waarbij de breuk in een ander jaar plaatsvindt, kunnen opgenomen worden als regressor, mits er voor die breuk een extra dummy wordt meegenomen in de schatting. Die dummy wordt niet gebruikt in de reparatieslag, zoals eerder beschreven, maar wordt alleen als regressor gebruikt om de breuk van de regressor “op te vangen”.

4.2 Voorbeelden van breuken en uitbijters

De reeks voor de relatieve armoede in Nederland wordt weergegeven in grafiek 4.2.1. Eurostat geeft door middel van “flags” aan dat er sprake is van een breuk. Een groot aantal reeksen voor andere landen bevatten echter geen breuk voor 2016. Veel reeksen bevatten voor geen enkel jaar een breuk. Uit een stapsgewijze regressie, waarbij alleen de sterkst gecorreleerde reeksen overblijven, blijkt dat met name de reeks voor Spanje en Polen sterk gecorreleerd zijn met de reeks van Nederland. Deze reeksen worden ook weergegeven in grafiek 4.2.1.

Met de stapsgewijze regressie kan ook het effect worden bepaald voor de breuk in 2016. Deze wordt vastgesteld op -1,21. Dat betekent dat door de breuk de data van de jaren voorafgaand aan 2016 systematisch een waarde van -1,21 te laag zijn ten opzichte van de data van 2016 en later. We nemen aan dat we de meest recente data als correct beschouwen, en verhogen daarom alle waarden voor de reeks voorafgaand aan het jaar 2016 met het getal 1,21. Dit resulteert in de gecorrigeerde reeks ‘Nederland gecorrigeerd’. Deze reeks wordt weergegeven in grafiek 4.2.1.

4.2.1 Relatieve armoede met correctie voor een breuk
Jaar	Nederland (% van de bevolking beneden nationale armoedegrens)	Nederland gecorrigeerd (% van de bevolking beneden nationale armoedegrens)	Spanje (% van de bevolking beneden nationale armoedegrens)	Polen (% van de bevolking beneden nationale armoedegrens)
2006	9,7	10,9	20,3	19,1
2007	10,2	11,4	19,7	17,3
2008	10,5	11,7	19,8	16,9
2009	11,1	12,3	20,4	17,1
2010	10,3	11,5	20,7	17,6
2011	11	12,2	20,6	17,7
2012	10,1	11,3	20,8	17,1
2013	10,4	11,6	20,4	17,3
2014	11,6	12,8	22,2	17
2015	11,6	12,8	22,1	17,6
2016	12,7	12,7	22,3	17,3
2017	13,2	13,2	21,6	15
2018	13,3	13,3	21,5	14,8
2019	13,2	13,2	20,7	15,4
2020	13,4	13,4	21	14,8
2021	14,4	14,4	21,7	14,8
2022	14,5	14,5	20,4	13,7
2023	13	13	20,2	14
2024	12,1	12,1	19,7	13,8

4.2.1 Relatieve armoede met correctie voor een breuk
Jaar	Nederland (% van de bevolking beneden nationale armoedegrens)	Nederland gecorrigeerd (% van de bevolking beneden nationale armoedegrens)	Spanje (% van de bevolking beneden nationale armoedegrens)	Polen (% van de bevolking beneden nationale armoedegrens)
2006	9,7	10,9	20,3	19,1
2007	10,2	11,4	19,7	17,3
2008	10,5	11,7	19,8	16,9
2009	11,1	12,3	20,4	17,1
2010	10,3	11,5	20,7	17,6
2011	11	12,2	20,6	17,7
2012	10,1	11,3	20,8	17,1
2013	10,4	11,6	20,4	17,3
2014	11,6	12,8	22,2	17
2015	11,6	12,8	22,1	17,6
2016	12,7	12,7	22,3	17,3
2017	13,2	13,2	21,6	15
2018	13,3	13,3	21,5	14,8
2019	13,2	13,2	20,7	15,4
2020	13,4	13,4	21	14,8
2021	14,4	14,4	21,7	14,8
2022	14,5	14,5	20,4	13,7
2023	13	13	20,2	14
2024	12,1	12,1	19,7	13,8

Opgemerkt moet worden dat de samenhang met de andere reeksen, alleen in relatieve zin wordt meegenomen. Het is dus niet relevant dat de reeksen van Spanje en Polen veel hoger liggen. Het draait allemaal om de ontwikkeling in de tijd, de groeicijfers, niet om de absolute waarde.

In sommige gevallen zijn er geen methodebreuken maar wel uitbijters. Dat zijn extreme waarden die om verschillende redenen kunnen optreden. Het is gebruikelijk om voorafgaand aan de trendbepaling deze uitbijters te vervangen door een schatting. Een voorbeeld is hieronder weergegeven voor de reeks van Gezonde Levensverwachting (GLV) in Denemarken. Deze reeks bevat volgens onze analyse twee uitbuiters: in 2012 en 2019. Deze waarden worden vervangen door een schatting. In de praktijk komt dit neer op een interpolatie. Dit resulteert in de gecorrigeerde reeks ’Denemarken gecorrigeerd’

4.2.2 Gezonde levensverwachting met correctie voor uitbijters
Jaar	Denemarken (jaren (bij geboorte))	Denemarken gecorrigeerd (jaren (bij geboorte))
2009	62,4	62,4
2010	61,8	61,8
2011	62,3	62,3
2012	63,7	61,75
2013	61,2	61,2
2014	60,7	60,7
2015	60,3	60,3
2016	60,4	60,4
2017	60,3	60,3
2018	59,8	59,8
2019	62,5	59,4
2020	59	59
2021	58,1	58,1
2022	58,2	58,2
2023	57,1	57,1
2024	57	57

4.2.2 Gezonde levensverwachting met correctie voor uitbijters
Jaar	Denemarken (jaren (bij geboorte))	Denemarken gecorrigeerd (jaren (bij geboorte))
2009	62,4	62,4
2010	61,8	61,8
2011	62,3	62,3
2012	63,7	61,75
2013	61,2	61,2
2014	60,7	60,7
2015	60,3	60,3
2016	60,4	60,4
2017	60,3	60,3
2018	59,8	59,8
2019	62,5	59,4
2020	59	59
2021	58,1	58,1
2022	58,2	58,2
2023	57,1	57,1
2024	57	57

4.3 Technische toelichting

In deze toelichting wordt een methodologische verantwoording gegeven van de gevolgde werkwijze die is toegepast bij het corrigeren van breuken. Allereerst wordt de methode geschetst, en vervolgens wordt deze gebruikt voor een concreet voorbeeld.

4.3.1 Methode

Alvorens de breuken te repareren, worden eventuele uitbijters in de reeks geïdentificeerd en vervangen door een schatting. Nadat de uitbijters zijn verwijderd, worden de breuken aangepakt door modelmatig dummy-variabelen toe te voegen aan een model dat een schatting levert van de reeks. Als we normaliter een reeks kunnen weergeven met het model:

\(Y\:=\:X\:\times\:\beta\:+\:\epsilon\)

Dan kunnen we door het toevoegen van een dummy-variabele (D) de breuk weergeven:

\(Y\:=\:X\:\times\:\beta\:+\:D\:\times\:\delta\:+\:\epsilon\)

We kunnen dit model schatten en dat levert geschatte waarden op, zeg b en d, voor de parameters van het model (β en δ).

Het effect van de breuk wordt vaak weergegeven door de variabele D (dummy) met de parameter δ. Voorafgaand aan het jaar van de breuk krijgt de variabele D de waarde 1, en vanaf het breukjaar de waarde 0. De reden hiervoor is dat het uitgangspunt is dat de meest recente cijfers als het beste worden gezien, en de oudere cijfers dus gecorrigeerd moeten worden.

Vervolgens wordt de breuk in de reeks gerepareerd door de gecorrigeerde waarde voor Y (Yc) te berekenen:

\(Yc\:=\:Y\:-\:D\:\times\:d\)

(d is de geschatte waarde van δ)

Opgemerkt moet worden dat in reeksen soms met name aan het begin veel ontbrekende waarden en breuken zijn. Het heeft weinig zin om die te repareren. Enerzijds is dat technisch lastig, omdat er dan te weinig datapunten van zowel voor als na de breuk zijn. Anderzijds is het ook niet zinvol omdat de reeksen worden gebruikt om een trend te bepalen over de laatste 8 jaar, 2017-2024. In de praktijk betekent dit dat we voor de reeks van relatieve armoede vanaf 2006 gaan werken met de data, en voor gezonde levensverwachting vanaf 2009. Bij de laatste reeks zijn er bij veel reeksen breuken in 2008, die doorgaans niet goed geschat kunnen worden.

4.3.2 Uitwerking van de methode voor relatieve armoede in Hongarije

Bij wijze van voorbeeld van de methode om voor breuken te corrigeren, wordt hier het resultaat voor relatieve armoede in Hongarije weergegeven. Allereerst is er een behoorlijke uitbijter aan het begin van de reeks. Deze is vervangen door een schatting.

Vervolgens is geconstateerd dat er volgens Eurostat een breuk is in 2019. Hoewel Eurostat geen duidelijke definitie geeft van wat de breuk betekent, is in de data duidelijk waarneembaar dat 2018 een stuk lager ligt dan 2019. Vervolgens wordt op basis van correlaties en stapsgewijze regressie bepaald welke reeksen voldoende samenhangen met die van Hongarije, opdat een adequate schatting van de breuk kan plaatsvinden. Van alle geteste variabelen blijken de reeksen van relatieve armoede in Polen en Slovenië de beste schatting op te leveren. Hieronder zijn de schattingsresultaten weergegeven. De t-waarde geeft aan of een parameter significant van de waarde 0 verschilt en is daarmee een maat voor de sterkte van de correlatie. Dat is bij alle regressoren het geval, zelfs zeer sterk bij Slovenië (t-waarde is 10,1). De mate van significantie wordt met sterretjes aangegeven (*). De VIF-score geeft aan of er sprake is van multicollineariteit. Multicollineariteit betekent dat regressoren onderling teveel correleren, waardoor de parameters van het model niet meer goed geschat kunnen worden. De gevonden VIF-scores liggen onder 5 en er kan dus geconcludeerd worden dat er geen sprake is van multicollineariteit. De Adjusted R2 geeft aan in welke mate het model de data door het model correct geschat wordt. Een waarde van 0,85 betekent dat 85% van de variantie door het model wordt verklaard. Dat is bijzonder hoog en goed.

4.3.2.1 Schattingsresultaten voor het model van relatieve armoede in Hongarije
Regressor	Parameter	t-waarde	Significantie	VIF
Intercept	-1,3	-0,68	-	-
Polen	0,23	2,46	*	2,85
Slovenië	0,956	10,1	***	1,2
D_2019	-1,6	-4,83	***	3,2
Adjusted R² = 0,85

De geschatte coëfficiënt D_2019 is negatief, voor een dummy die 1 is voor jaren 2005 t/m2018 en 0 voor de jaren er na. Gevolg is dat de gecorrigeerde reeks hoger ligt dan de originele reeks voor de periode, 2006-2018, waarin de dummy gelijk aan 1 is. Voor de periode dat de dummy 0 is, is de waarde gelijk aan de originele reeks. De gecorrigeerde reeks is in grafiek 4.3.2.2 weergegeven als ‘Hongarije gecorrigeerd’.

4.3.2.2 Relatieve armoede, originele en gecorrigeerde data
Jaar	Hongarije (% van de bevolking beneden nationale armoedegrens )	Hongarije gecorrigeerd (% van de bevolking beneden nationale armoedegrens )
2006	15,9	13,9
2007	12,3	13,9
2008	12,4	14,0
2009	12,4	14,0
2010	12,3	13,9
2011	14,1	15,7
2012	14,3	15,9
2013	15	16,6
2014	15	16,6
2015	14,9	16,5
2016	14,5	16,1
2017	13,4	15,0
2018	12,8	14,4
2019	14	14
2020	13,9	13,9
2021	13,2	13,2
2022	13,5	13,5
2023	13,8	13,8
2024	14,3	14,3

4.3.2.2 Relatieve armoede, originele en gecorrigeerde data
Jaar	Hongarije (% van de bevolking beneden nationale armoedegrens )	Hongarije gecorrigeerd (% van de bevolking beneden nationale armoedegrens )
2006	15,9	13,9
2007	12,3	13,9
2008	12,4	14,0
2009	12,4	14,0
2010	12,3	13,9
2011	14,1	15,7
2012	14,3	15,9
2013	15	16,6
2014	15	16,6
2015	14,9	16,5
2016	14,5	16,1
2017	13,4	15,0
2018	12,8	14,4
2019	14	14
2020	13,9	13,9
2021	13,2	13,2
2022	13,5	13,5
2023	13,8	13,8
2024	14,3	14,3

Als we naar grafiek 4.3.2.2 kijken dan zien we direct dat het verwijderen van de uitbijter een groot effect heeft en dat de grafiek vloeiender doorloopt tussen 2018 en 2019. Wat ook opvalt is de sterke stijging tussen 2010 en 2011. Het lijkt zeker mogelijk dat ook daar een methodebreuk heeft plaatsgevonden, hoewel dat niet uit de informatie van Eurostat blijkt. Als er een model geschat zou worden met een extra dummy voor dat tijdvak, zou dat zeker tot een correctie kunnen leiden.

Als we echter de reeksen van Polen en Slovenië ook in beeld brengen, ontstaat een genuanceerder beeld. Het is duidelijk zichtbaar dat met name Slovenië en Hongarije behoorlijk gelijk oplopen in de reeks van relatieve armoede. We zien ook bij Slovenië een behoorlijke stijging in het tijdvak 2009-2011. Het suggereert dat de sterke stijging in 2010 bij Hongarije mogelijk toch een realistisch beeld geeft. Mogelijk is de sterke stijging een gevolg van de kredietcrisis in 2008.

4.3.2.3 Relatieve armoede, originele en gecorrigeerde data
Jaar	Hongarije (% van de bevolking beneden nationale armoedegrens)	Hongarije gecorrigeerd (% van de bevolking beneden nationale armoedegrens)	Polen (% van de bevolking beneden nationale armoedegrens)	Slovenië (% van de bevolking beneden nationale armoedegrens)
2006	15,9	13,9	19,1	11,6
2007	12,3	13,9	17,3	11,5
2008	12,4	14,0	16,9	12,3
2009	12,4	14,0	17,1	11,3
2010	12,3	13,9	17,6	12,7
2011	14,1	15,7	17,7	13,6
2012	14,3	15,9	17,1	13,5
2013	15	16,6	17,3	14,5
2014	15	16,6	17	14,5
2015	14,9	16,5	17,6	14,3
2016	14,5	16,1	17,3	13,9
2017	13,4	15,0	15	13,3
2018	12,8	14,4	14,8	13,3
2019	14	14	15,4	12
2020	13,9	13,9	14,8	12,4
2021	13,2	13,2	14,8	11,7
2022	13,5	13,5	13,7	12,1
2023	13,8	13,8	14	12,7
2024	14,3	14,3	13,8	13,2

4.3.2.3 Relatieve armoede, originele en gecorrigeerde data
Jaar	Hongarije (% van de bevolking beneden nationale armoedegrens)	Hongarije gecorrigeerd (% van de bevolking beneden nationale armoedegrens)	Polen (% van de bevolking beneden nationale armoedegrens)	Slovenië (% van de bevolking beneden nationale armoedegrens)
2006	15,9	13,9	19,1	11,6
2007	12,3	13,9	17,3	11,5
2008	12,4	14,0	16,9	12,3
2009	12,4	14,0	17,1	11,3
2010	12,3	13,9	17,6	12,7
2011	14,1	15,7	17,7	13,6
2012	14,3	15,9	17,1	13,5
2013	15	16,6	17,3	14,5
2014	15	16,6	17	14,5
2015	14,9	16,5	17,6	14,3
2016	14,5	16,1	17,3	13,9
2017	13,4	15,0	15	13,3
2018	12,8	14,4	14,8	13,3
2019	14	14	15,4	12
2020	13,9	13,9	14,8	12,4
2021	13,2	13,2	14,8	11,7
2022	13,5	13,5	13,7	12,1
2023	13,8	13,8	14	12,7
2024	14,3	14,3	13,8	13,2

Hiermee wordt ook inzichtelijk dat het proces geen automatisch rekenproces is, maar dat per reeks gekeken moet worden naar wat een realistisch verloop zou kunnen zijn. Een keihard bewijs dat er geen methodebreuk was in 2010 in Hongarije is er niet, maar vanwege de gerede twijfel hierover wordt de informatie van Eurostat zonder wijziging overgenomen.