Nieuwe methoden en bronnen voor big data onderzoek

/ Auteur: Miriam van der Sangen
Brightlands Smart Services Campus in Heerlen
© Marcel van Hoorn
In oktober 2018 vond op de Brightlands Smart Services Campus in Heerlen het seminar ‘Methods for Big Data in Official Statistics’ plaats. Doel van het seminar was het samenbrengen van onderzoekers van statistiekbureaus en wetenschappers uit de academische wereld om de nieuwste methoden en technieken voor big data onderzoek te presenteren en kennis hierover uit te wisselen. Ook konden ervaringen met het gebruik van nieuwe databronnen en de daarbij behorende uitdagingen op methodologisch gebied worden gedeeld. Organisator van het seminar was het CBS.

Kansen en uitdagingen

In september 2017 organiseerde het CBS naar aanleiding van het 1-jarig bestaan van het Center for Big Data Statistics (CBDS) het seminar ‘Big Data Matters’. Daar werd gesproken over de kansen, uitdagingen en vraagstukken die het werken met big data met zich meebrengt. ‘Het seminar van dit jaar had een andere insteek en ging met name over nieuwe technieken en methoden voor big data onderzoek’, aldus Sofie De Broe. Zij is hoofd van de Heerlense methodologie afdeling bij het CBS. Daarnaast is zij wetenschappelijk directeur van het CBDS. De Broe was één van de organisatoren van het seminar en fungeerde eveneens als dagvoorzitter. Volgens De Broe is er veel mogelijk met big data, maar tegelijk zijn er ook nog grote uitdagingen. ‘We hebben grote plannen, bijvoorbeeld op het gebied van het koppelen en delen van data. We hebben de wettelijke mogelijkheden onderzoek te doen op persoonsgegevens voor wetenschappelijk of statistisch onderzoek. Echter, persoonsdata delen is hierbij nog steeds een uitdaging. Momenteel onderzoeken we hoe we veilig data kunnen delen, onder meer via ‘privacy preserving data sharing’-technieken en blockchain.’

Sofie de Broe

Onderzoek naar gezondheid

Tijdens het seminar waren er sprekers uit Duitsland (Gordon Pipa, Professor aan de universiteit van Osnabrück) en het Verenigd Koninkrijk (Sofia Olhede, Professor aan University College London). Ook Michel Dumontier, hoogleraar Data Science aan de Universiteit van Maastricht (UM), verzorgde een lezing. Hij is afkomstig van Stanford University en beschikt over veel onderzoeksexpertise op het gebied van data science. Samen met een aantal externe partijen - waaronder het CBS - probeert hij privacygevoelige medische data, die nu nog opgeslagen zijn bij verschillende organisaties zoals ziekenhuizen en verzekeraars, op een verantwoorde manier bij elkaar te brengen. Hij leidt het onderzoek, levert de expertise in machine learning en beheert de data met als doel de gescheiden datasets toegankelijk te maken volgens een aantal principes. Het CBS levert de socio-economische data in dit door de Nationale Wetenschapsagenda gesubsidieerde project en draagt bij aan de ontwikkeling van de benodigde infrastructuur. Deze data worden gebruikt om te achterhalen welke factoren van invloed zijn op de gezondheid ‘We hopen zo het verband te kunnen begrijpen tussen diabetes, leefstijl, socio-economische factoren en gebruik van gezondheidszorg’, aldus Dumontier.

Visualisaties voor analysedoeleinden

Een deel van het seminar werd gewijd aan visualisaties. Daar kwam niet alleen de expert van het CBS, Martijn Tennekes, aan het woord maar ook sprekers als Jack van Wijk van de Technische Universiteit Eindhoven en hoogleraar Jan Aerts, bio-informatica-onderzoeker bij de KU Leuven in België. Veel problemen in dit vakgebied en ook in algemeen big data onderzoek zijn ingewikkeld. In tegenstelling tot de klassieke statistiek, is de dataverzameling vaak onbekend en complex en ligt de oplossingsrichting niet vast. Om deze problemen aan te pakken speelt datavisualisatie een essentiële rol. Voor complexe databestanden is het vaak nodig complexere visualisatiemethoden te gebruiken, waarbij enerzijds expertise in datavisualisatie nodig is en anderzijds domeinkennis. Jack van Wijk sprak over visual analytics, een vakgebied binnen de datavisualisatie waarin het gaat om geautomatiseerde analysemethoden (uit de traditionele statistiek of machine learning) te ondersteunen met interactieve visualisatie. Deze combinatie van computer en mens is erg krachtig, maar brengt ook de nodige uitdagingen met zich mee.
Het volgende CBDS-seminar is op donderdag 14 maart 2019. Thema van dit seminar is datagedreven besturen.

Wat is het Center for Big Data Statistics?
De hoeveelheden data die automatisch verzameld worden, nemen exponentieel toe. Met het Center for Big Data Statistics (CBDS) onderzoekt het CBS in een unieke innovatieve omgeving de mogelijkheden van deze nieuwe data voor de statistiek en het ontwikkelt de daarvoor benodigde methoden. Het CBDS doet dit samen met nationale en internationale partijen uit de overheid, het bedrijfsleven, de wetenschap en het onderwijs.