CBS investeert in Spark voor verwerking van big data

/ Auteur: Masja de Ree/Miriam van der Sangen
CBS investeert de komende maanden in een nieuw computersysteem: Spark. Met Spark kunnen onderzoekers en statistiekmakers grote hoeveelheden data en big data sneller verwerken. Dit is belangrijk nu CBS te maken krijgt met steeds grotere databestanden. 

Rekencapaciteit

CBS werkt met steeds grotere databestanden, zegt projectleider Adrie Ykema. ‘Onze onderzoekers lopen daarmee tegen de grenzen van onze infrastructuur aan. De berekeningen die met de enorme hoeveelheden data gemaakt worden, vragen om meer rekencapaciteit en slimme verwerking waarmee de bewerkingstijd verkort kan worden.’ Spark biedt daarvoor een oplossing: een software-laag die ervoor zorgt dat meerdere computers tegelijkertijd aan een opdracht kunnen rekenen. Dat maakt snelle en nauwkeurige berekeningen met grote hoeveelheden data mogelijk.

Geslaagde proef

In de afgelopen maanden is Spark uitgetest bij CBS. Ykema: ‘We hebben drie Proof of Concepts uitgevoerd op een ‘kleine’ Spark-installatie, met verkeerslusdata, met data van het Centrum voor Beleidsstatistiek en met data van de libellenstatistiek voor de afdeling Natuur. Deze laatste test als voorbeeld van een relatief kleine dataset maar met een zeer rekenintensieve methode. Daarmee is onderzocht wat er precies mogelijk is met Spark én wat dat kost, in geld en inspanning. Onze conclusie is dat Spark veel voordelen biedt bij berekeningen met zeer grote datasets, zoals die van de verkeerslussen van Rijkswaterstaat.’

‘Spark vereist een andere denk- en werkwijze  en een andere inrichting van het statistiekproces’

Enthousiast

Marco Puts is big data onderzoeker bij CBS en heeft naast de pilot veel ervaring opgedaan met Spark. Hij is erg enthousiast. ‘Binnen een Europees project hebben we AIS-data ingekocht. AIS staat voor Automatic Identification System. Het is een systeem  waarmee de veiligheid van de scheepvaart op zeeën en het binnenwater verhoogd wordt. Het is bedoeld om overzicht en informatie te bieden via interactie tussen schepen onderling en met instanties aan de wal. Die informatie heeft CBS gekocht met twee doelen. Allereerst om te experimenteren met Spark en ten tweede om te kijken of we met deze grote hoeveelheden gegevens een statistiek kunnen maken.’ De mogelijkheden van Spark zijn volgens Puts enorm. ‘Met Spark kunnen we bijvoorbeeld data van een heel kwartaal in 15 minuten verwerken, terwijl we op een normale computer één dag aan data in anderhalve dag verwerken. Zonder Spark zouden we de verwerking dus niet kunnen bijhouden. Een groot voordeel  is ook dat als de verwerking van de data te langzaam gaat vanwege de grote hoeveelheden wij er makkelijk service bij kunnen kopen.’

Investeren in snelheid

CBS investeert nu in een grotere Spark-installatie, die eind van dit jaar moet draaien. Ykema: ‘Deze investering kan leiden tot een snellere productie van de statistieken. In de komende maanden wordt de ingebruikname van Spark verder voorbereid. We gaan onderzoeken hoe en waar we de grote databestanden het beste kunnen opslaan, hoe we moeten omgaan met de beveiliging van de gegevens en hoe het technisch en functioneel beheer het beste kan worden ingericht.’ Volgens Ykema is het mooi om te zien hoe onderzoekers, IT-medewerkers en mensen van de statistiekproductie samenwerken in het kader van het Spark-project. ‘Spark vereist een andere denk- en werkwijze en een andere inrichting van het statistiekproces. Voor onze medewerkers is een online cursus beschikbaar. Maar in de praktijk blijkt pas echt wat Spark ons oplevert’.

Olievlek

Puts bevestigt dat een aantal CBS’ers reeds de EDX-cursussenreeks ‘Data Science and engineering with Spark’ volgt. ‘Het is een reeks van cursussen en het duurt een half jaar. Stap voor stap wordt uitgelegd hoe je met Spark werkt. Ik heb gemerkt dat mijn collega’s het snel oppakken. Ik hoop dat het als een olievlek gaat werken en er na een tijdje steeds meer mensen bij CBS weten hoe ze big data moeten verwerken.’