Europese landen samen aan de slag met big data
Uitwisselen van ideeën
Galya Stateva is werkzaam als expert op het gebied van big data voor het Bulgaarse statistiekbureau en toont zich enthousiast over de resultaten van de workshop. ‘Doel van de workshop was het uitwisselen van ideeën en het presenteren van de resultaten van het eerste ‘Specific grant agreement’. Het was ook een mooie gelegenheid ervaringen met elkaar te delen op methodologisch en technisch gebied.’ De aanwezigheid van de directeur-generaal van het Bulgaarse statistiekbureau Sergey Tsvetarsky, waarnemend directeur-generaal van Eurostat Mariana Kotzeva en de directeur-generaal van het CBS Tjark Tjin-A-Tsoi ervoer Stateva als zeer waardevol. ‘Een duidelijk signaal dat het werk van het ESSnet big data tot op hoog niveau wordt ondersteund.’
Speerpunt
Hoe ver is het Bulgaarse statistiekbureau met het gebruik van big data voor de statistiek? ‘Wij zijn een actieve partner in het internationale ESSnet big data en leverden een bijdrage aan de onderwerpen ‘Webscraping enterprise characteristics’ en ‘Dissemination’. Bij het eerstgenoemde project hebben we de mogelijkheden onderzocht van webscraping, text mining en inferentietechnieken om algemene gegevens over bedrijven te verzamelen. Een speerpunt voor de komende jaren is het gebruik van big data om uitgaven van huishoudens te onderzoeken. We hebben contact met de belangrijkste detailhandelketens in Bulgarije om gegevens over prijzen en verkochte producten te krijgen. Dit zal een waardevolle toevoeging zijn aan de informatie over uitgaven van huishoudens die we nu via onze officiële enquête krijgen. Het zal mogelijk de huidige resultaten verbeteren.’ Het Bulgaarse statistiekbureau staat volgens Stateva nog aan het begin van het gebruik van big data voor de statistiek. ‘Momenteel leren we vooral van de ervaringen van andere statistische bureaus. Onze experts zijn inmiddels gestart met deelname aan internationale trainingen.’
‘Een groot probleem is en blijft de toegang tot de data’
Scheepvaartdata
Naast de directeur-generaal van het CBS waren ook een aantal methodologen en onderzoekers van het Nederlandse statistiekbureau tijdens de workshop in Sofia aanwezig. Het maken van nieuwe statistieken aan de hand van big data is namelijk één van de speerpunten van het CBS. Peter Struijs, algemeen coördinator van het ESSnet namens het CBS, is vanaf het begin nauw betrokken. ‘Het ESSnet is een samenwerking van 22 partners uit 20 Europese landen. We werken via grants en tijdens deze workshop hebben we de resultaten van de eerste grant besproken. Een belangrijke conclusie was dat we in Europees verband snel het gebruik van AIS-data voor de reguliere statistiek mogelijk willen maken. Dat zijn data van de scheepvaart, die voor alle landen in gestandaardiseerde vorm beschikbaar zijn en dus internationaal goed vergelijkbaar.’
Samenwerking
Struijs onderstreept het belang van het ESSnet. ‘Verschillende landen doen al het een en ander op het gebied van big data, maar op Europees niveau stond big data nog aan het begin. Door het ESSnet trekken de landen nu samen op en dat werkt heel efficiënt. Er zijn verschillende pilots. In elke pilot zijn zo’n 5 landen vertegenwoordigd. Zij buigen zich over big data thema’s zoals webscraping. Zonder gezamenlijk onderzoek van Denemarken, Griekenland, Nederland en Noorwegen binnen het ESSnet hadden we bijvoorbeeld nooit zo snel vooruitgang geboekt met AIS-data. Een ander goed voorbeeld van samenwerking is het Center for Big Data Statistics (CBDS) dat het CBS in september 2016 heeft opgericht. Daar zijn meer dan 40 nationale en internationale partners bij aangesloten, want samen kom je verder.’
Toegang tot big data
Marc Debusschere is coördinator big data bij het Belgische statistiekbureau en leverde als voorzitter van de workshop een waardevolle bijdrage. ’De belangrijkste doelstelling van de workshop in Sofia - het presenteren van de resultaten uit de eerste fase van het ESSnet aan alle deelnemers - hebben we ruimschoots gehaald. Onderwerpen die aan de orde kwamen waren: webscraping van vacatures, webscraping van bedrijfskarakteristieken, slimme energiemeters, AIS-data, mobiele telefoondata, snelle ramingen en het combineren van diverse bronnen.’ Na deze eerste fase lijken de technische, methodologische en IT-problemen volgens Debusschere niet onoverkomelijk, alhoewel er nog veel werk aan de winkel is. ‘Een groot probleem is en blijft de toegang tot de data. Big data bevinden zich doorgaans bij ondernemingen, waarvan het eerste doel winst maken is. Medewerking verlenen bij het opstellen van officiële statistieken staat niet hoog op hun prioriteitenlijstje, zelfs als dat weinig kost. Het wordt nu dan ook duidelijk dat vrijwillige samenwerkingsverbanden in veel gevallen niet zullen volstaan voor een duurzame statistiekproductie. Dat betekent dat wetgevende initiatieven nodig zijn en daar moeten we snel mee aan de slag.’
Bruikbaarheid mobiele telefoniedata
Hoe ver is het Belgische statistiekbureau op het gebied van big data? ‘We gebruiken al big datasets die afkomstig zijn van ondernemingen of internet. Voor de consumentenprijsindex worden scannerdata van diverse winkelketens verwerkt. Die dekken op dit moment 70 procent van de totale markt, maar dat aandeel wordt binnenkort verhoogd naar 90 procent. Dat komt omdat we nu ook de gegevens van ketens van duurzame consumptiegoederen zoals elektronica binnenhalen. Verder worden – eveneens voor de consumentenprijsindex – prijzen van bijvoorbeeld vliegtickets via webscraping verzameld.’ Debusschere is er trots op dat het Belgische statistiekbureau als één van de eerste statistiekbureaus van Europa toegang heeft tot recente en uitgebreide mobiele telefoondatasets. ‘Dit is gerealiseerd dankzij een project dat we eind 2015 zijn gestart met Proximus – de belangrijkste netwerkoperator in België – en Eurostat en het Joint Research Centre van de Europese Commissie. In het afgelopen jaar hebben we een aantal pilotstudies uitgevoerd om de bruikbaarheid van mobiele telefoniedata te onderzoeken voor domeinen zoals bevolking, migratie, mobiliteit, transport en toerisme. De resultaten zijn veelbelovend, ondanks veel nieuwe methodologische uitdagingen. De kans is reëel dat we al in de loop van 2017 de eerste reguliere statistiekproductie op basis van mobiele telefonie realiseren.’