Mensen laden verhuiswagen vol

Door schatting actueler beeld verhuizingen mogelijk

Cijfers over de woningmarkt staan op dit moment sterk in de belangstelling vanwege het tekort aan woningen in bepaalde regio’s. Het CBS registreert het aantal verhuizingen per maand, dit brengt de doorstroming op de woningmarkt in kaart, de vorming van nieuwe huishoudens en regionale bevolkingsgroei of -krimp. Het totaal aantal verhuisde personen in Nederland loopt in de registratie een maand achter op de actualiteit.

Het Center for Big Data Statistics (CBDS) van het CBS heeft met behulp van tijdreeksanalyses onderzocht of het mogelijk is, om op basis van register- en big data bronnen, een actuelere indicator voor verhuizingen te ontwikkelen. Eerder onderzoek heeft aangetoond dat gegevens van zoekgedrag op Google mogelijk gebruikt kunnen worden als snelle indicatoren om trends te monitoren. Hetzelfde onderzoek heeft ook aangetoond dat deze zoekgegevens specifiek voor de woningmarkt interessant kunnen zijn (Choi en Varian, 2012; Jun, Yoo en Choi, 2018; Stephens-Davidowitz en Varian, 2015). Uit de resultaten van het CBS-onderzoek blijkt dat zoektermen in Google, in dit geval met name de zoekterm ‘verhuizen’, wel hetzelfde patroon over tijd laten zien als de verhuizingen, maar niet de kwaliteit van het real-time cijfer verbeteren (‘nowcasten’). Informatie over het aantal verhuisde personen in het verleden biedt wel voldoende aanknopingspunten om dit aantal een maand vooruit te schatten. Op deze wijze kan alsnog een actueel cijfer verkregen worden. Het CBS heeft dit nog niet eerder gedaan.

Werkwijze

Dit onderzoek is in drie stappen uitgevoerd: 1) exploratie van de data in Google Correlate, 2) het downloaden van tijdreeksen van zoektermen met Google Trends en 3) vervolgens is met structurele tijdreeksanalyse onderzocht of deze indicatoren iets toevoegen aan de huidige informatie over verhuisde personen in het register.

  • 1) In de eerste stap is de tijdreeks met de maandelijkse verhuizingen uit het register ingelezen in Google Correlate. Daarna zijn alle zoektermen, die in Nederland werden gebruikt in dezelfde tijdsperiode, vergeleken met deze tijdreeks. Google heeft geen informatie over de aard van de cijfers en ‘weet’ dus niet dat de reeks het aantal verhuisde personen in Nederland betreft. Er is bekeken of er vergelijkbare patronen over de tijd waarneembaar zijn in zoektermen. Ook is bekeken of deze termen gerelateerd zijn aan verhuizingen. De zoektermen liepen hierbij tot maximaal een jaar voor op de registerinformatie. Zoals te verwachten valt, bleek hierbij vooral de zoekterm ‘verhuizen’ een vergelijkbare trend te laten zien. Een andere zoekterm die in enige mate vergelijkbaar was over tijd, is de zoekterm ‘verhuisdozen’.
  • 2) In stap twee is met Google Trends een aantal tijdreeksen met zoektermen gedownload en opgeslagen, zoals ‘verhuizen’ en ‘verhuisdozen’. Het gaat hierbij om het relatieve gebruik van een specifieke zoekterm ten opzichte van het totale aantal zoekopdrachten in Nederland. Hiervoor wordt door Google een steekproef van alle zoekopdrachten gebruikt. Om de robuustheid van de resultaten, op basis van deze steekproeven, in te kunnen schatten, heeft het CBS een aantal keer opnieuw reeksen met dezelfde zoektermen gedownload in dezelfde periode. Deze reeksen weken niet sterk van elkaar af, de gemiddelde reeks is vervolgens gebruikt als inputdata voor de tijdreeksanalyses.
  • 3) Tenslotte zijn de Google Trends tijdreeksen van verschillende zoektermen gebruikt als inputdata in structurele tijdreeksmodellen. Vervolgens is onderzocht of de zoektermen dezelfde trends over tijd laten zien als het daadwerkelijke aantal verhuizingen uit het register (zogenaamde ‘coïntegratie’). Hierbij is gecorrigeerd voor seizoenseffecten. Ook is onderzocht of deze trends voorlopen op de verhuizingen. Met de beschikbare registerinformatie over de verhuisde personen van een aantal maanden daarvoor, is het tijdreeksmodel in staat om een periode vooruit te schatten, in dit geval een maand. Door de Google Trends tijdreeks mee te nemen in het model, kan onderzocht worden of deze tijdreeks de schatting op basis van het aantal verhuisde personen in het verleden verbetert. 

Resultaten

Uit de eerste analyse met Google Correlate blijkt dat vooral de zoekterm ‘verhuizen’ over tijd correleert met de tijdreeks van verhuizingen in het register. Deze term lijkt logischerwijs ook het meest van toepassing. Het patroon in het gebruik van de zoekterm ‘verhuizen’ laat dus dezelfde trend zien als het aantal verhuisde personen. De verklaring hiervoor is dat mensen, voordat zij gaan verhuizen, eerst via Google informatie over verhuizen opzoeken op Internet, zoals ‘tips over verhuizen’. Google zou daarom kunnen dienen als een ‘early warning system’ om veranderingen in verhuisgedrag vroegtijdig op te pikken. In dit geval is het zeer waarschijnlijk dat degenen die de zoekterm ‘verhuizen’ intypen in Google, geïnteresseerd zijn in verhuizen en mogelijk in de toekomst gaan verhuizen.

Aantal verhuizingen en zoekterm 'verhuizen' (x 1 000, procent)
 Verhuisde personenGebruik zoekterm 'verhuizen'
2004 januari131,22679
2004 februari120,87660
2004 maart136,27357
2004 april123,80764
2004 mei115,67754
2004 juni134,37072
2004 juli145,15598
2004 augustus140,09448
2004 september139,93771
2004 oktober130,60575
2004 november132,53358
2004 december137,69451
2005 januari131,74269
2005 februari123,00655
2005 maart133,65464
2005 april131,05357
2005 mei119,99571
2005 juni134,04472
2005 juli144,63361
2005 augustus154,76970
2005 september154,07464
2005 oktober143,81960
2005 november137,60767
2005 december143,17970
2006 januari145,73062
2006 februari131,85158
2006 maart148,04461
2006 april121,78865
2006 mei132,29058
2006 juni136,82368
2006 juli144,08577
2006 augustus155,35670
2006 september145,04859
2006 oktober141,47057
2006 november142,44162
2006 december133,19350
2007 januari145,65462
2007 februari128,21962
2007 maart140,17757
2007 april118,50553
2007 mei131,88273
2007 juni134,75975
2007 juli149,21467
2007 augustus152,66565
2007 september134,10261
2007 oktober142,65656
2007 november137,39061
2007 december123,95747
2008 januari150,83554
2008 februari130,93158
2008 maart128,08455
2008 april132,79355
2008 mei120,61365
2008 juni129,63066
2008 juli151,00165
2008 augustus143,26057
2008 september145,10757
2008 oktober142,42647
2008 november123,49743
2008 december134,21444
2009 januari132,77340
2009 februari119,50447
2009 maart128,47548
2009 april114,12545
2009 mei110,36444
2009 juni119,48548
2009 juli139,31648
2009 augustus129,89050
2009 september134,35443
2009 oktober125,77741
2009 november118,66751
2009 december125,09043
2010 januari124,57846
2010 februari118,64052
2010 maart129,47955
2010 april111,59252
2010 mei107,71345
2010 juni118,77951
2010 juli129,43553
2010 augustus134,01653
2010 september130,22547
2010 oktober117,78349
2010 november118,35047
2010 december121,64442
2011 januari124,76144
2011 februari117,61847
2011 maart125,42955
2011 april109,55952
2011 mei113,73253
2011 juni110,95951
2011 juli127,26960
2011 augustus138,85153
2011 september130,23356
2011 oktober117,71050
2011 november119,76452
2011 december123,14249
2012 januari132,64253
2012 februari118,91052
2012 maart123,61653
2012 april107,55046
2012 mei114,38749
2012 juni128,21049
2012 juli131,80653
2012 augustus137,95753
2012 september122,48451
2012 oktober123,64352
2012 november118,88548
2012 december118,77148
2013 januari132,07355
2013 februari117,98649
2013 maart120,14150
2013 april107,94047
2013 mei111,40346
2013 juni106,40155
2013 juli132,65160
2013 augustus137,85859
2013 september132,67058
2013 oktober128,72759
2013 november121,05849
2013 december124,26055
2014 januari137,53357
2014 februari124,72160
2014 maart123,09457
2014 april119,53953
2014 mei114,95059
2014 juni116,78360
2014 juli139,68657
2014 augustus143,28958
2014 september143,35965
2014 oktober134,83156
2014 november120,60952
2014 december144,94457
2015 januari139,59459
2015 februari131,15061
2015 maart137,59558
2015 april124,00057
2015 mei119,95058
2015 juni132,86674
2015 juli159,13673
2015 augustus156,01774
2015 september153,67867
2015 oktober145,10262
2015 november132,51963
2015 december148,02559
2016 januari137,90959
2016 februari141,90271
2016 maart142,91158
2016 april137,13360
2016 mei133,03060
2016 juni141,46066
2016 juli160,88770
2016 augustus171,43269
2016 september162,60970
2016 oktober149,74966
2016 november149,56665
2016 december162,86268
2017 januari159,611100
2017 februari151,16790
2017 maart164,68473
2017 april138,47571
2017 mei151,30666
2017 juni151,15766
2017 juli168,98574
2017 augustus173,49670
2017 september165,27765
2017 oktober157,29866
2017 november150,31181
2017 december153,64680
2018 januari153,32276


Als de verhuizingen in het verleden uit het register worden meegenomen in het model, blijkt uit de structurele tijdreeksanalyses, dat de tijdreeks, op basis van het relatieve gebruik van de zoekterm ‘verhuizen’ van Google Trends, geen informatie toevoegt aan het actualiseren van de verhuizingen. De tijdreeks heeft als hulpinformatie dus geen toegevoegde waarde. Daarnaast kan de tijdreeks van Google Trends niet gebruikt worden als real-time proxy voor het monitoren van stijgingen dan wel dalingen in het aantal verhuizingen binnen Nederland. Dit ligt vooral aan de onverklaarbare piek in zoekopdrachten in januari 2017, terwijl er in deze maand geen sterke stijging in de verhuizingen is geweest. Ook de updates van de Google zoekalgoritmen bieden geen logische verklaring voor deze piek. De Google Trends reeks loopt daarnaast soms voor en soms achter op de register reeks van verhuisde personen, er is geen bewijs dat de Google reeks mogelijk voorloopt op de registraties en een zogenaamde ‘time-lag’ in het model moet worden opgenomen om hier rekening mee te houden.

Voor deze analyses heeft het CBS geëxperimenteerd met verschillende andere zoektermen, gerelateerd aan verhuizingen. Deze alternatieve zoektermen, zoals ‘verhuizing’, ‘verhuizingen’, ‘verhuis’, ‘verhuisdoos’ en ‘makelaar’, voegen ook geen informatie toe. Voor andere fenomenen met bijbehorende zoektermen kan deze werkwijze mogelijk wel relevante additionele informatie opleveren. Hierbij kan bijvoorbeeld gedacht worden aan het doen van grote uitgaven zoals het kopen van een auto of het zoeken naar een andere baan.

Hierbij moet de kanttekening worden gemaakt dat Google sinds 2004 vaak zoekalgoritmen heeft aangepast. Hierbij is niet altijd duidelijk op welke manier deze precies zijn aangepast. Het is daarom onduidelijk of deze cijfers over tijd vergelijkbaar zijn. Eerder onderzoek waarschuwt voor het risico dat algoritmen worden aangepast op een manier, die een waargenomen trend in zoekgedrag verandert (Lazer et al., 2014). Zo kan uit de resultaten worden afgeleid dat de Google Trends reeks in de laatste jaren beter overeen komt met de register reeks dan in de beginjaren. In augustus 2008 is bijvoorbeeld de functionaliteit ‘Google Suggest’ toegevoegd aan de zoekmachine. Deze functionaliteit geeft suggesties voor zoekopdrachten door woorden af te maken. Dit zou impact kunnen hebben op het gebruik van zoektermen, maar het is onduidelijk of dat hier het geval is en hoe groot deze invloed is. Google geeft daarnaast geen informatie over het totale aantal zoekopdrachten en het minimum aantal zoekopdrachten (dit is gevoelige bedrijfsinformatie). Het CBS kan op dit moment dus geen goede indicatie geven van de betrouwbaarheid van de tijdreeksen van de zoektermen.

Vanwege de genoemde redenen acht het CBS de registerinformatie voldoende voor het actualiseren van de cijfers over het aantal verhuisde personen. Daarnaast acht het CBS Google Trends informatie over het gebruik van zoektermen in Nederland op dit moment niet bruikbaar voor dit doel.

Privacy

Voor deze analyses zijn open data gecombineerd met registerdata. Er is alleen gebruik gemaakt van geaggregeerde gegevens, waarbij individuele personen niet herleid kunnen worden.

Toepassingen

Het structurele tijdreeksmodel kan gebruikt worden voor het nowcasten van het aantal verhuisde personen. Hiermee kan een actueel voorlopig cijfer naar buiten worden gebracht. In de toekomst kan onderzocht worden of tijdreeksanalyse, met informatie over het gebruik van zoektermen, nuttig is voor bijvoorbeeld het doen van bevolkingsprognoses om zo vroegtijdig veranderingen in trends te signaleren of prognoses te verbeteren.

Referenties

Choi, H. en H. Varian, 2012, Predicting the Present with Google Trends. Economic Record, 88 (s1), blz. 2-9.
Jun, Yoo en Choi, 2018, Ten years of research change using Google Trends: From the perspective of big data utilizations and applications. Technological Forecasting & Social Change, 130, blz. 69-87.
Lazer, D., R. Kennedy, G. King, en A. Vespignani, 2014, The Parable of Google Flu: Traps in Big Data Analysis, Science, 343 (6176), blz. 1203-1205. 
Stephens-Davidowitz, S. en H. Varian, 2015, A Hand-on Guide to Google Data. Google, technical report.  

Feedback

Het CBS wil graag feedback op dit project. Hoe kan beter inzicht worden verkregen in de Google algoritmen? Hoe kan de betrouwbaarheid van deze cijfers worden vastgesteld? Op welke manier kan rekening worden gehouden met veranderend gebruik van zoektermen? En kan Google Trends data wel gebruikt worden voor andere toepassingen?