Uitdagend en actueel onderwijs met big data

© Hollandse Hoogte

Het analyseren van big data wordt steeds belangrijker voor overheden om effectieve en duurzame keuzes te kunnen maken op allerlei gebied. CBS richtte daarom in september 2016 het Center for Big data Statistics (CBDS) op. Met nationale en internationale partners uit overheid, bedrijfsleven, wetenschap en onderwijs werkt CBDS samen op het gebied van big data-technologie en big data-methoden voor de productie van statistieken. Eén van die partners is Fontys Hogeschool ICT in Eindhoven. Twee groepen studenten data science van die hogeschool voerden onlangs opdrachten voor CBDS uit.

Data Science

Gerard Schouten is sinds januari 2016 lector aan de Fontys Hogeschool ICT. Na een studie natuurkunde aan de TU Eindhoven promoveerde hij op onderzoek naar visuele waarneming. Daarna bekleedde hij verschillende functies bij Philips, onder andere als senior scientist. Bij de Fontys Hogeschool werkt hij sinds 2013. Op 1 december vorig jaar werd hij er geïnstalleerd als lector Big Data. ‘Met de in 2015 gestarte nieuwe minor Applied Data Science hopen we studenten te interesseren voor big data en bij te dragen aan uitdagend en actueel onderwijs. We zijn gestart met 40 studenten in Eindhoven en vorig jaar hadden we 60 studenten in Eindhoven en Tilburg. Vanaf september van dit jaar gaan we deze minor uitbouwen naar een compleet nieuwe afstudeerrichting Applied Data Science binnen Fontys Hogeschool ICT.’

Machine learning

De huidige Applied Data Science minor bij Fontys Hogeschool ICT bestaat uit het leren verzamelen, opslaan en opschonen van data. Dat kunnen open data zijn, maar ook data van het CBS. Andere belangrijke onderdelen van de opleiding zijn machine learning en datavisualisatie. ‘Het is spannend om te ervaren dat data veel meer waardevolle informatie kunnen bevatten dan we in eerste instantie denken. Met enig rekenwerk kunnen er interessante patronen naar voren komen.’ Ook besteedt de opleiding aandacht aan data ethiek en nemen de studenten deel aan workshops over social physics om het gedrag van grote groepen mensen te bestuderen. ‘Over deze onderwerpen volgen de studenten gedurende een half jaar cursussen. Daarnaast passen ze het geleerde direct toe in praktische cases, waarbij ze opdrachten uitvoeren voor bedrijven.’

Techniek en communicatie

Over welke eigenschappen moeten de studenten data science beschikken? ‘Ze moeten met één been in de techniek staan, maar ook communicatief sterk zijn. Het begin van een big data project vraagt namelijk om het helder krijgen van de onderzoeksvraag. Aan het eind moeten ze de conclusies goed voor het voetlicht kunnen brengen’, aldus Schouten. Het binnenhalen van opdrachten voor de studenten bij bedrijven kost volgens hem relatief weinig moeite. ‘De meeste bedrijven - van ASML tot Philips - zijn erg enthousiast en ze bieden leuke casussen. De intensieve samenwerking is voor beide partijen erg interessant. Door de studenten maken bedrijven kennis met nieuwe technologieën, gedurende hun bedrijfsstage leren de studenten de praktijk kennen.’ Over de opdrachten die de studenten uitvoerden voor CBDS is Schouten zeer te spreken. ‘Het is van beide kanten goed bevallen. Volgend jaar doen we weer mee.’

Webshops

Sam Jansen is student aan de Fontys Hogeschool. Hij volgt er de opleiding software-engineering en zit in zijn vierde jaar. Binnenkort studeert hij af. Vanwege zijn interesse in big data koos hij voor de minor Applied Data Science. ‘Big data was voor mij een nogal vaag begrip en ik wilde er meer van weten.’ Het CBDS had voor zijn groep een interessante opdracht. ‘Aan de hand van een archief van zo’n 60 miljoen websites moesten we de Nederlandse websites vinden en daaruit de bedrijven met een webshop zonder fysieke winkel selecteren. Eerst hebben we de opdracht op kleine schaal uitgevoerd met machine learning algoritmen. Dat kostte even tijd, maar daarna ging het steeds beter.’ Jansen maakte bij zijn opdracht gebruik van de data van Common Crawl, een non-profit organisatie die het web afstruint en gratis archieven van miljoenen websites en datasets ter beschikking stelt.

Googlemaps

De studenten kwamen na onderzoek tot de conclusie dat van de 200.000 geselecteerde Nederlandse websites er 50.000 een webshop betreffen. Hiervan waren een kleine 13.000 afkomstig van webshops zonder fysieke winkel. ‘We wilden niet alleen met de kennis die we al hadden onze opdracht uitvoeren, maar ook nieuwe manieren vinden voor het oplossen van de opdracht. Daarom hebben we ook Googlemaps gebruikt.’ Over de begeleiding door big data scientist Piet Daas van het CBS, tevens werkzaam bij het CBDS, is Jansen erg tevreden. ‘We konden altijd vragen aan hem stellen en we hebben een big data college gehad van het CBS, waar we veel goede tips kregen.’ Ook Daas is heel tevreden over de samenwerking met Fontys Hogeschool ICT. ‘Het was heel leuk om de groepen studenten te begeleiden. De resultaten van beide opdrachten bieden veel mogelijkheden voor de toekomst. Zowel de resultaten van het webshop-onderzoek als die van het onderzoek naar websites van innovatieve bedrijven vormen een goed uitgangspunt voor nieuwe op big data gebaseerde statistieken.’