Mensen laden verhuiswagen vol

Door schatting actueler beeld verhuizingen mogelijk

Cijfers over de woningmarkt staan op dit moment sterk in de belangstelling vanwege het tekort aan woningen in bepaalde regio’s. Het CBS registreert het aantal verhuizingen per maand, dit brengt de doorstroming op de woningmarkt in kaart, de vorming van nieuwe huishoudens en regionale bevolkingsgroei of -krimp. Het totaal aantal verhuisde personen in Nederland loopt in de registratie een maand achter op de actualiteit.

Het Center for Big Data Statistics (CBDS) van het CBS heeft met behulp van tijdreeksanalyses onderzocht of het mogelijk is, om op basis van register- en big data bronnen, een actuelere indicator voor verhuizingen te ontwikkelen. Eerder onderzoek heeft aangetoond dat gegevens van zoekgedrag op Google mogelijk gebruikt kunnen worden als snelle indicatoren om trends te monitoren. Hetzelfde onderzoek heeft ook aangetoond dat deze zoekgegevens specifiek voor de woningmarkt interessant kunnen zijn (Choi en Varian, 2012; Jun, Yoo en Choi, 2018; Stephens-Davidowitz en Varian, 2015). Uit de resultaten van het CBS-onderzoek blijkt dat zoektermen in Google, in dit geval met name de zoekterm ‘verhuizen’, wel hetzelfde patroon over tijd laten zien als de verhuizingen, maar niet de kwaliteit van het real-time cijfer verbeteren (‘nowcasten’). Informatie over het aantal verhuisde personen in het verleden biedt wel voldoende aanknopingspunten om dit aantal een maand vooruit te schatten. Op deze wijze kan alsnog een actueel cijfer verkregen worden. Het CBS heeft dit nog niet eerder gedaan.

Werkwijze

Dit onderzoek is in drie stappen uitgevoerd: 1) exploratie van de data in Google Correlate, 2) het downloaden van tijdreeksen van zoektermen met Google Trends en 3) vervolgens is met structurele tijdreeksanalyse onderzocht of deze indicatoren iets toevoegen aan de huidige informatie over verhuisde personen in het register.

  • 1) In de eerste stap is de tijdreeks met de maandelijkse verhuizingen uit het register ingelezen in Google Correlate. Daarna zijn alle zoektermen, die in Nederland werden gebruikt in dezelfde tijdsperiode, vergeleken met deze tijdreeks. Google heeft geen informatie over de aard van de cijfers en ‘weet’ dus niet dat de reeks het aantal verhuisde personen in Nederland betreft. Er is bekeken of er vergelijkbare patronen over de tijd waarneembaar zijn in zoektermen. Ook is bekeken of deze termen gerelateerd zijn aan verhuizingen. De zoektermen liepen hierbij tot maximaal een jaar voor op de registerinformatie. Zoals te verwachten valt, bleek hierbij vooral de zoekterm ‘verhuizen’ een vergelijkbare trend te laten zien. Een andere zoekterm die in enige mate vergelijkbaar was over tijd, is de zoekterm ‘verhuisdozen’.
  • 2) In stap twee is met Google Trends een aantal tijdreeksen met zoektermen gedownload en opgeslagen, zoals ‘verhuizen’ en ‘verhuisdozen’. Het gaat hierbij om het relatieve gebruik van een specifieke zoekterm ten opzichte van het totale aantal zoekopdrachten in Nederland. Hiervoor wordt door Google een steekproef van alle zoekopdrachten gebruikt. Om de robuustheid van de resultaten, op basis van deze steekproeven, in te kunnen schatten, heeft het CBS een aantal keer opnieuw reeksen met dezelfde zoektermen gedownload in dezelfde periode. Deze reeksen weken niet sterk van elkaar af, de gemiddelde reeks is vervolgens gebruikt als inputdata voor de tijdreeksanalyses.
  • 3) Tenslotte zijn de Google Trends tijdreeksen van verschillende zoektermen gebruikt als inputdata in structurele tijdreeksmodellen. Vervolgens is onderzocht of de zoektermen dezelfde trends over tijd laten zien als het daadwerkelijke aantal verhuizingen uit het register (zogenaamde ‘coïntegratie’). Hierbij is gecorrigeerd voor seizoenseffecten. Ook is onderzocht of deze trends voorlopen op de verhuizingen. Met de beschikbare registerinformatie over de verhuisde personen van een aantal maanden daarvoor, is het tijdreeksmodel in staat om een periode vooruit te schatten, in dit geval een maand. Door de Google Trends tijdreeks mee te nemen in het model, kan onderzocht worden of deze tijdreeks de schatting op basis van het aantal verhuisde personen in het verleden verbetert. 

Resultaten

Uit de eerste analyse met Google Correlate blijkt dat vooral de zoekterm ‘verhuizen’ over tijd correleert met de tijdreeks van verhuizingen in het register. Deze term lijkt logischerwijs ook het meest van toepassing. Het patroon in het gebruik van de zoekterm ‘verhuizen’ laat dus dezelfde trend zien als het aantal verhuisde personen. De verklaring hiervoor is dat mensen, voordat zij gaan verhuizen, eerst via Google informatie over verhuizen opzoeken op Internet, zoals ‘tips over verhuizen’. Google zou daarom kunnen dienen als een ‘early warning system’ om veranderingen in verhuisgedrag vroegtijdig op te pikken. In dit geval is het zeer waarschijnlijk dat degenen die de zoekterm ‘verhuizen’ intypen in Google, geïnteresseerd zijn in verhuizen en mogelijk in de toekomst gaan verhuizen.

Aantal verhuizingen en zoekterm 'verhuizen' (x 1 000, procent)
JaarOpbrengst milieubelastingen en -heffingenVerhuisde personenGebruik zoekterm 'verhuizen'
2004januari131,22679
februari120,87660
maart136,27357
april123,80764
mei115,67754
juni134,37072
juli145,15598
augustus140,09448
september139,93771
oktober130,60575
november132,53358
december137,69451
2005januari131,74269
februari123,00655
maart133,65464
april131,05357
mei119,99571
juni134,04472
juli144,63361
augustus154,76970
september154,07464
oktober143,81960
november137,60767
december143,17970
2006januari145,73062
februari131,85158
maart148,04461
april121,78865
mei132,29058
juni136,82368
juli144,08577
augustus155,35670
september145,04859
oktober141,47057
november142,44162
december133,19350
2007januari145,65462
februari128,21962
maart140,17757
april118,50553
mei131,88273
juni134,75975
juli149,21467
augustus152,66565
september134,10261
oktober142,65656
november137,39061
december123,95747
2008januari150,83554
februari130,93158
maart128,08455
april132,79355
mei120,61365
juni129,63066
juli151,00165
augustus143,26057
september145,10757
oktober142,42647
november123,49743
december134,21444
2009januari132,77340
februari119,50447
maart128,47548
april114,12545
mei110,36444
juni119,48548
juli139,31648
augustus129,89050
september134,35443
oktober125,77741
november118,66751
december125,09043
2010januari124,57846
februari118,64052
maart129,47955
april111,59252
mei107,71345
juni118,77951
juli129,43553
augustus134,01653
september130,22547
oktober117,78349
november118,35047
december121,64442
2011januari124,76144
februari117,61847
maart125,42955
april109,55952
mei113,73253
juni110,95951
juli127,26960
augustus138,85153
september130,23356
oktober117,71050
november119,76452
december123,14249
2012januari132,64253
februari118,91052
maart123,61653
april107,55046
mei114,38749
juni128,21049
juli131,80653
augustus137,95753
september122,48451
oktober123,64352
november118,88548
december118,77148
2013januari132,07355
februari117,98649
maart120,14150
april107,94047
mei111,40346
juni106,40155
juli132,65160
augustus137,85859
september132,67058
oktober128,72759
november121,05849
december124,26055
2014januari137,53357
februari124,72160
maart123,09457
april119,53953
mei114,95059
juni116,78360
juli139,68657
augustus143,28958
september143,35965
oktober134,83156
november120,60952
december144,94457
2015januari139,59459
februari131,15061
maart137,59558
april124,00057
mei119,95058
juni132,86674
juli159,13673
augustus156,01774
september153,67867
oktober145,10262
november132,51963
december148,02559
2016januari137,90959
februari141,90271
maart142,91158
april137,13360
mei133,03060
juni141,46066
juli160,88770
augustus171,43269
september162,60970
oktober149,74966
november149,56665
december162,86268
2017januari159,611100
februari151,16790
maart164,68473
april138,47571
mei151,30666
juni151,15766
juli168,98574
augustus173,49670
september165,27765
oktober157,29866
november150,31181
december153,64680
januari153,32276


Als de verhuizingen in het verleden uit het register worden meegenomen in het model, blijkt uit de structurele tijdreeksanalyses, dat de tijdreeks, op basis van het relatieve gebruik van de zoekterm ‘verhuizen’ van Google Trends, geen informatie toevoegt aan het actualiseren van de verhuizingen. De tijdreeks heeft als hulpinformatie dus geen toegevoegde waarde. Daarnaast kan de tijdreeks van Google Trends niet gebruikt worden als real-time proxy voor het monitoren van stijgingen dan wel dalingen in het aantal verhuizingen binnen Nederland. Dit ligt vooral aan de onverklaarbare piek in zoekopdrachten in januari 2017, terwijl er in deze maand geen sterke stijging in de verhuizingen is geweest. Ook de updates van de Google zoekalgoritmen bieden geen logische verklaring voor deze piek. De Google Trends reeks loopt daarnaast soms voor en soms achter op de register reeks van verhuisde personen, er is geen bewijs dat de Google reeks mogelijk voorloopt op de registraties en een zogenaamde ‘time-lag’ in het model moet worden opgenomen om hier rekening mee te houden.

Voor deze analyses heeft het CBS geëxperimenteerd met verschillende andere zoektermen, gerelateerd aan verhuizingen. Deze alternatieve zoektermen, zoals ‘verhuizing’, ‘verhuizingen’, ‘verhuis’, ‘verhuisdoos’ en ‘makelaar’, voegen ook geen informatie toe. Voor andere fenomenen met bijbehorende zoektermen kan deze werkwijze mogelijk wel relevante additionele informatie opleveren. Hierbij kan bijvoorbeeld gedacht worden aan het doen van grote uitgaven zoals het kopen van een auto of het zoeken naar een andere baan.

Hierbij moet de kanttekening worden gemaakt dat Google sinds 2004 vaak zoekalgoritmen heeft aangepast. Hierbij is niet altijd duidelijk op welke manier deze precies zijn aangepast. Het is daarom onduidelijk of deze cijfers over tijd vergelijkbaar zijn. Eerder onderzoek waarschuwt voor het risico dat algoritmen worden aangepast op een manier, die een waargenomen trend in zoekgedrag verandert (Lazer et al., 2014). Zo kan uit de resultaten worden afgeleid dat de Google Trends reeks in de laatste jaren beter overeen komt met de register reeks dan in de beginjaren. In augustus 2008 is bijvoorbeeld de functionaliteit ‘Google Suggest’ toegevoegd aan de zoekmachine. Deze functionaliteit geeft suggesties voor zoekopdrachten door woorden af te maken. Dit zou impact kunnen hebben op het gebruik van zoektermen, maar het is onduidelijk of dat hier het geval is en hoe groot deze invloed is. Google geeft daarnaast geen informatie over het totale aantal zoekopdrachten en het minimum aantal zoekopdrachten (dit is gevoelige bedrijfsinformatie). Het CBS kan op dit moment dus geen goede indicatie geven van de betrouwbaarheid van de tijdreeksen van de zoektermen.

Vanwege de genoemde redenen acht het CBS de registerinformatie voldoende voor het actualiseren van de cijfers over het aantal verhuisde personen. Daarnaast acht het CBS Google Trends informatie over het gebruik van zoektermen in Nederland op dit moment niet bruikbaar voor dit doel.

Privacy

Voor deze analyses zijn open data gecombineerd met registerdata. Er is alleen gebruik gemaakt van geaggregeerde gegevens, waarbij individuele personen niet herleid kunnen worden.

Toepassingen

Het structurele tijdreeksmodel kan gebruikt worden voor het nowcasten van het aantal verhuisde personen. Hiermee kan een actueel voorlopig cijfer naar buiten worden gebracht. In de toekomst kan onderzocht worden of tijdreeksanalyse, met informatie over het gebruik van zoektermen, nuttig is voor bijvoorbeeld het doen van bevolkingsprognoses om zo vroegtijdig veranderingen in trends te signaleren of prognoses te verbeteren.

Referenties

Choi, H. en H. Varian, 2012, Predicting the Present with Google Trends. Economic Record, 88 (s1), blz. 2-9.
Jun, Yoo en Choi, 2018, Ten years of research change using Google Trends: From the perspective of big data utilizations and applications. Technological Forecasting & Social Change, 130, blz. 69-87.
Lazer, D., R. Kennedy, G. King, en A. Vespignani, 2014, The Parable of Google Flu: Traps in Big Data Analysis, Science, 343 (6176), blz. 1203-1205. 
Stephens-Davidowitz, S. en H. Varian, 2015, A Hand-on Guide to Google Data. Google, technical report.  

Feedback

Het CBS wil graag feedback op dit project. Hoe kan beter inzicht worden verkregen in de Google algoritmen? Hoe kan de betrouwbaarheid van deze cijfers worden vastgesteld? Op welke manier kan rekening worden gehouden met veranderend gebruik van zoektermen? En kan Google Trends data wel gebruikt worden voor andere toepassingen?