Big data in de officiële statistiek

Omslag, Big data in official statistics
Voor het gebruik van big data in de officiële statistiek zijn methodologische vernieuwingen noodzakelijk.

Big data worden gekenmerkt door een zeer groot volume, een hoge frequentie en een grote variatie. Dit grote volume kan leiden tot een grotere nauwkeurigheid en een groter detail, de hoge frequentie tot snellere statistieken en de grote variatie tot statistieken over nieuwe maatschappelijk relevante onderwerpen. Maar er zijn ook uitdagingen: zo kunnen bronnen plotseling en onaangekondigd veranderen en kunnen big data maar heel indirect betrekking hebben op statistisch interessante verschijnselen. Ook kunnen big data heel volatiel en selectief zijn: de populatie waarop ze betrekking hebben kan van dag tot dag wijzigen, wat kan leiden tot onverwachte breuken in tijdreeksen. En heel vaak kunnen big-data bronnen niet of moeilijk gekoppeld worden aan andere dataverzamelingen, waardoor correcties voor selectiviteit en volatiliteit bemoeilijkt worden.

Big data kunnen dus beschouwd worden als zogeheten niet-kans-steekproeven, waarvoor andere en nieuwe methoden nodig zijn dan voor traditionele bronnen zoals enquêtes en tellingen.
Een eerste benadering is om big data te beschouwen als een imperfecte maar snelle indicator van maatschappelijke verschijnselen. Dit is wat statistische bureaus maar ook nieuwsorganisaties vaak doen: men verzamelt data, b.v. van sociale media, en de reden waarom ze interessant zijn is simpelweg dat ze een rol spelen in het nieuws en de maatschappelijke discussie; kortweg: deze data bestaan en daarom zijn ze interessant.

Een tweede benadering is om modellen te gebruiken en daarmee informatie te onttrekken aan deze big data. Statistische bureaus zijn altijd terughoudend geweest in het gebruik van modellen. Toch worden ze impliciet veel gebruikt, bijvoorbeeld bij seizoencorrectie, non-respons-correcties en snelle ramingen. We beargumenteren daarom dat statistische bureaus open moeten staan voor het gebruik van modellen bij het maken van statistieken uit big data, mits dit goed gedocumenteerd is en men transparant is.