Verhuiskans schatten met machine learning

Hoeveel mensen verhuizen binnen nu en twee jaar? Dit is een cruciale vraag voor beleidsmakers, die willen bepalen hoeveel woningen er gebouwd moeten worden. Om dit in te kunnen schatten, vraagt het CBS in het WoON-onderzoek aan mensen of zij van plan zijn om binnen twee jaar te verhuizen. Bij dit onderzoek wordt door middel van een vragenlijst informatie verzameld over de huidige woning en de tevredenheid met de woning én de woonomgeving. Daarnaast wordt gevraagd naar de verhuiswens en woonwensen. Het WoON-onderzoek wordt eens in de drie jaar uitgevoerd.

Het ministerie van Binnenlandse Zaken en Koninkrijksrelaties, de opdrachtgever van het WoON-onderzoek, heeft het CBS gevraagd om onderzoek te doen naar alternatieve manieren om deze gegevens te verzamelen. Het CBS heeft daarom onderzoek gedaan naar de mogelijkheden om de verhuiskans op basis van registerinformatie met machine learning technieken te schatten. Deze experimentele pilot wijst uit dat het mogelijk is om de vraag naar de verhuiswens uit de enquête van het WoON-onderzoek te vervangen door de geschatte verhuiskans uit de registers.

Werkwijze

De kans dat iemand binnen twee jaar verhuist, is voor iedere persoon in de Basisregistratie Personen (BRP) geschat. Dit is gebeurd op basis van registerinformatie van het CBS over de periode 1995 tot en met 2016. Hierbij is zowel gekeken naar persoonskenmerken (bijvoorbeeld leeftijd, geslacht en burgerlijke staat) als naar huishoudenskenmerken (bijvoorbeeld type huishouden en huishoudensinkomen). Daarnaast zijn verhuizingen uit het verleden en regiokenmerken meegenomen in de modellen, alsmede de vraag of men in een huur- of koopwoning woont en of het inkomen is veranderd. Tevens zijn levensloopgebeurtenissen uit de periode 1995 tot en met 2016 toegevoegd, zoals het krijgen van kinderen, trouwen, samenwonen of scheiden.

Niet alleen de verandering zelf is meegenomen in de modellen, maar ook de vraag hoe lang geleden deze verandering heeft plaatsgevonden. Tot slot is gekeken hoeveel van dergelijke veranderingen hebben plaatsgevonden. Iemand kan bijvoorbeeld gescheiden en daarna hertrouwd zijn. Additionele kenmerken die verhuismotieven van werkenden kunnen beïnvloeden, namelijk reisafstanden en -tijden naar het werk, alsmede het type arbeidscontract, zijn niet meegenomen. Hetzelfde geldt voor woningkenmerken.

Modelontwikkeling

De modellen zijn geoptimaliseerd en getraind om de relatie tussen al deze kenmerken en het (bekende) daadwerkelijke verhuisgedrag in 2013 en 2014 zo goed mogelijk in kaart te brengen. Vervolgens zijn de modellen toegepast op de Nederlandse bevolking, zoals die geregistreerd was op 1 januari 2015. Aan de hand van iemands registerinformatie schatten de modellen de kans dat deze persoon binnen twee jaar verhuist. Omdat we weten wie in 2015 en 2016 daadwerkelijk verhuisd zijn, kunnen we meten hoe goed de modelschattingen de werkelijkheid benaderen.

Er zijn een aantal schattingsmethoden getest om te bepalen wat de beste methode is om verhuiskansen te schatten. Bij deze test is onder meer gekeken naar de bruikbaarheid van logistische regressie, lasso regressie, ridge regressie, alsmede van random forest- en survival modellen. Deze methoden hebben als voordeel dat zij veel kenmerken tegelijkertijd kunnen meenemen en er niet vooraf een beperkt aantal kenmerken geselecteerd hoeft te worden. Hierbij kwam de ridge regressie met interactie-effecten als beste model uit de bus. Dit model schat de kans op verhuizing even goed in als de verhuiskans op basis van de vraag naar de verhuiswens in het WoON-onderzoek. Van de groep mensen die volgens het gekozen model zou gaan verhuizen, is 39 procent ook daadwerkelijk verhuisd. Als de groep mensen die daadwerkelijk is verhuisd als vertrekpunt wordt genomen, blijkt dat 60 procent met behulp van het model correct is geclassificeerd als verhuizer. Van de groep mensen die niet is verhuisd, classificeert het model 81 procent correct als blijver.

In totaal zijn 32 kenmerken en interacties tussen deze kenmerken opgenomen in het model. De belangrijkste kenmerken om de verhuiskans te schatten, zijn: 1) iemands leeftijd, 2) of iemand eigenaar of huurder is, ook in combinatie met iemands positie in het huishouden (bijvoorbeeld alleenstaande of lid van paar of thuiswonend kind), 3) de tijd die is verstreken sinds de laatste verandering in het huishouden (bijvoorbeeld het krijgen van kinderen, samenwonen of scheiden) en 4) het aantal verhuizingen in het verleden.

Resultaten

De met behulp van het model berekende gemiddelde verhuiskans per persoon in 2015 en 2016 is 0,31 met een standaarddeviatie van 0,17. Deze kans kan tussen de 0 en 1 liggen en kan worden omgezet naar een percentage tussen de 0 en 100 procent. De gemiddelde kans kan worden opgevat als een kans van 31 procent per persoon om te verhuizen binnen twee jaar. De meeste personen hebben volgens het model een verhuiskans tussen de 20 en 50 procent en een deel hiervan zal waarschijnlijk verhuizen. Het onderzoek leverde een groep op van ruim 373 duizend personen met een kans van meer dan 90 procent. Van deze groep hebben iets meer dan 30 duizend mensen een kans van 100 procent toegekend gekregen. Volgens het onderzoek is het zeer waarschijnlijk dat deze groep mensen binnen afzienbare tijd zal verhuizen. Daarentegen hebben bijna 2,4 miljoen personen volgens het model een kans van 0 en is de kans zeer klein dat zij zouden verhuizen. In werkelijkheid verhuisden in deze periode in totaal bijna 3,5 miljoen mensen.

Een uitsplitsing van de verhuiskansen naar bevolkingsgroepen levert interessante inzichten op. Zo heeft een eenpersoonshuishouden een gemiddelde kans van 26 procent (relatief laagste kans per type huishouden) en een niet-gehuwd paar met kinderen een kans van 35 procent (relatief hoogste kans). Daarnaast hebben thuiswonende kinderen met een gemiddelde kans van 39 procent een relatief hoge verhuiskans ten opzichte van andere personen in het huishouden. Hieronder vallen zowel jonge, al dan niet schoolgaande, kinderen, als thuiswonende studenten en werkende starters. Een ouder in een eenouderhuishouden heeft met 25 procent de laagste verhuiskans.

Starters op de woningmarkt hebben gemiddeld een kans van 35 procent om binnen twee jaar te verhuizen, terwijl doorstromers in een huur- of koopwoning een verhuiskans van 28 procent hebben. In het interactieve dashboard kunt u zelf de verdeling van verhuiskansen voor verschillende bevolkingsgroepen bekijken.

Privacy

Voor deze analyses zijn alleen geanonimiseerde gegevens gebruikt. Het is niet mogelijk om hieruit te herleiden om welke persoon het gaat. Het CBS publiceert geen verhuiskansen van individuen, maar maakt alleen gemiddelde kansen per bevolkingsgroep bekend.

Toepassingen

Het doel van dit innovatieve product is om historische patronen zichtbaar te maken. Bijvoorbeeld beleidsmakers kunnen deze patronen dan eventueel gebruiken bij hun planning en beleidsvoornemens. Op basis van deze patroonherkenning is het mogelijk om te bekijken welke bevolkingsgroepen een relatief hoge verhuiskans hebben en of dit over de jaren verandert. Dankzij dit inzicht kan nieuwbouw beter op de behoeften van die groepen worden aangepast. Een belangrijke vraag voor mogelijk vervolgonderzoek is: “Waar willen mensen naartoe verhuizen?”.

Feedback

Het CBS wil graag uw mening horen over dit onderzoek. Zijn deze schattingen bruikbaar voor beleidsmakers? En welke toepassingen zijn nog meer denkbaar op basis van deze aanpak?
Je browser wordt niet ondersteund. Upgrade je browser. Je hebt een inconsistente user-agent geleverd bij het oplossen van de uitdaging. Mogelijk heb je browserextensies of -instellingen ingeschakeld om de user-agent te vervalsen en moet je deze uitschakelen om door te gaan. Een deel van Turnstile is per ongeluk in de cache opgeslagen. Wis gelieve je cache. De tijd op de klok klopt niet. Zet je klok op de juiste tijd. Een ongespecificeerde fout heeft zich voorgedaan.