Auteur(s): Hugo de Bondt, Andries Kuipers, Nino Mushkudiani, Cyrille Pluijmen Publicatiedatum: 12-1-2021 00:00

De waarde van data 2001-2017

4. Kwantitatieve studie naar de waarde van data

4.1 Methode waarde

De methode die wordt gebruikt is erop gericht de kosten te schatten die nodig is om een data als investeringsgoed in eigen beheer te ontwikkelen. Binnen de nationale rekeningen is dit niet ongebruikelijk, voor R&D en software in eigen beheer wordt ook een inschatting in termen van kosten gemaakt. Deze methode wordt in het algemeen in het SNA 2008 voorgeschreven indien er geen waarneming is van markttransacties, dan is dit een geaccepteerde benadering.

Deze kosten vallen uiteen in drie stukken: arbeidskosten, overige kosten en een opslag voor kapitaal. De aanpak die in deze paper wordt toegepast is gelijk aan die van het Canadese statistische bureau. Dit betekent dat data wordt uitgesplitst in drie stukken: data, databases en datascience. Voor elk van deze drie stukken moeten de kosten worden berekend.

Voor de arbeidskosten zijn specifieke beroepen geselecteerd, waarvan hun inzet gezien kan worden als een bijdrage aan de ontwikkeling van het activum. De tabel in de bijlage vermeldt de beroepen, met daarbij de procentuele bijdrage waarvan aangenomen wordt dat dit zij voor genoemd percentage bijdragen. Hier zit een bandbreedte in, met een hoog percentage en een laag percentage. Dit is gedaan om aan te geven dat de percentages berusten op aannames, en er dus daarbij verschillende scenario’s uitgerekend kunnen worden. Voor dit paper wordt alleen het hoge en het lage scenario uitgerekend, en geen combinaties of gemiddeldes. De scenario’s geven aan wat als ondergrens en bovengrens beschouwd kan worden, er is namelijk geen tot weinig empirisch materiaal over de tijdsbesteding van werknemers voor deze specifieke activiteit. Door een bandbreedte op te nemen wordt onderstreept dat de berekening afhankelijk is van keuzes in het model zelf.

De overige kosten worden geschat op 60 procent. Dit percentage is afkomstig uit de R&D-enquête, waar ook gevraagd wordt naar arbeidskosten en overige kosten. Dit wijkt af van het percentage in de Canadese studie (50 procent), maar dat verschil is beperkt en kan toegeschreven worden aan andere economische omstandigheden in beide economieën.

Tot slot wordt er gerekend met een opslag voor kapitaal (winsten) van 3 procent. Deze winsten zijn gebruikelijk om toe te rekenen voor marktpartijen, omdat zij een meeropbrengst verwachten op hun investering. Dit hoeft in de praktijk niet in alle gevallen voor te komen, maar aangenomen wordt dat de gemiddelde investering rendeert.

4.2 Methode volumeverandering

Niet alleen de jaarlijkse waarde, maar ook de volumeveranderingen willen we schatten. Dat wil zeggen groei geschoond van prijseffecten. Hiervoor is de jaarlijkse prijsindex nodig. Deze index wordt bepaald aan de hand van de prijsveranderingen van de verschillende onderdelen (lonen, overige kosten en kapitaal). Daarbovenop is de aanname dat bij de productie van data jaarlijks 1 procent productiviteitsgroei geboekt wordt, die hier vervolgens is verwerkt in de prijsindex. Doordat er sprake is van een input-prijsindex, is correctie voor productiviteitswinsten te verdedigen. Vervolgens is het volume te bepalen door de waarde-index te delen door de prijsindex.

4.3 Bronnen

De data die gebruikt wordt voor de arbeidskosten zijn de enquête beroepsbevolking (EBB) en de gegevens uit de polisadministratie (Polis). De variabelen die we nodig hebben zijn: het beroep, het werknemersloon en de bedrijfstak voor de beroepsbevolking van Nederland. EBB is een door het CBS uitgevoerd roterend panelonderzoek bestaande uit vijf golven, waarbij informatie wordt verzameld over arbeid van huishoudens en individuen. Voor ons onderzoek kijken we alleen naar individuen en niet naar huishoudens. In deze enquête vullen respondenten onder meer hun beroep in. In Polis zijn de andere variabelen opgenomen waarin we geïnteresseerd zijn: werknemersloon en de SBI. Polis is de administratieve dataset van de overheid waarin informatie uit verschillende administratieve bronnen wordt gecombineerd, voornamelijk van de Belastingdienst, maar ook van het Centrum voor Werk en Inkomen (CWI) en het Uitkeringsinstituut Werknemers Verzekeringen (UWV). Polis bevat administratieve informatie over personen, huishoudens, banen, uitkeringen en pensioenen. Het geeft inkomensinformatie over de gehele Nederlandse bevolking, inclusief personen die in het buitenland wonen maar in Nederland werken of een uitkering of pensioen ontvangen van een Nederlandse instelling.
Deze bestanden zijn met elkaar gecombineerd, zodat per beroep berekend kan worden wat de lonen zijn die hierbij horen.

Doordat de EBB een steekproef gebaseerde statistiek is, moeten de persoonsgegevens opgehoogd worden om de totale kosten per beroep te kunnen berekenen. De gewichten die gebruikt worden om de gegevens op te hogen zijn herberekend. Deze stap was nodig omdat voor een voldoende aantal waarnemingen op het niveau van beroepen, er opeenvolgende jaren gepoold zijn. In de praktijk betekent dit dat drie opeenvolgende EBB’s zijn gekoppeld aan 1 polisjaar. Zo zijn bijvoorbeeld de polisgegevens van 2017 gekoppeld aan de EBB van 2016, 2017 en 2018. Deze methode leidt er daardoor toe dat voor deze studie de nieuwste jaren met enige vertraging berekend kunnen worden, daarom is 2017 het meest recente jaar.

Door de steekproefgewichten te herberekenen wordt voorkomen dat de totale ophoging te hoog uitkomt. De totale ophoging varieert van 226 duizend personen tot aan 320 duizend personen. In de bijlagen staan een beschrijving van de methode en een tabel met per jaar de onopgehoogde (aantal observaties per jaar) en opgehoogde aantallen die gebruikt zijn in dit onderzoek.

Voor elk verslagjaar vanaf 2006 kan met behulp van de polisadministratie de lonen berekend worden. Voor de eerdere jaren zijn de kwantitatieve jaargegevens van de banen van werknemers gebruikt. Deze bron wijkt af van de eerder gebruikte bron. Hierdoor is een trendbreuk ontstaan in 2006, hoewel op het eerste gezicht de resultaten vergelijkbaar lijken. Er is voor dit onderzoek geen poging gedaan om de tijdreeks volledig vergelijkbaar te maken. Daardoor moeten de resultaten vóór 2006 met enige voorzichtigheid behandeld worden.

Alle prijsinformatie is afgeleid uit de aanbod- en gebruiktabellen. Hierin kunnen per onderdeel prijzen worden afgeleid. Dat is als volgt gedaan: voor data en databases zijn dit de prijsontwikkelingen van de beloning in de bedrijfstakken IT-dienstverlening en dienstverlening op het gebied van informatie (SBI-codes 62 en 63); voor datascience de prijsontwikkeling van de beloning in de research (SBI-code 72). De overige kosten krijgen de prijs van het totale verbruik aan goederen en diensten mee, de kapitaalkosten krijgen de prijsontwikkeling van de totale investeringen mee. In de bijlage is een tabel opgenomen met de prijsontwikkelingen per verslagjaar.

4.4 Resultaten

Doordat in de periode 2001-2005 gebruik is gemaakt van een andere bron dan in 2006-2017 zijn de perioden niet volledig vergelijkbaar. Wel is duidelijk dat de gevonden resultaten op het hier getoonde totaalniveau op het oog geen breuk laten zien. Er is een vrij constante stijging. In de overzichten hieronder wordt er wel rekening mee gehouden door de volumes per periode apart weer te geven.

In miljoenen euro’s gemeten stijgen in het lage scenario de jaarlijkse uitgaven van alle drie de activa samen tussen 2001 en 2005 van 8,4 naar 10 miljard euro. In de periode erna, van 2006 -2017 stijgt de jaarlijkse waarde van 10,3 naar 15,6 miljard euro. Voor het hoge scenario stegen de jaarlijkse uitgaven van 10,5 miljard euro naar 12,3 miljard euro in de periode 2001-2005. Voor de periode 2006-2017 nemen de uitgaven toe van 13 naar 20 miljard euro.

4.4.1 Waarde van data totaal, lopende prijzen
Jaar	Totaal data laag scenario (mln euro)	Totaal data hoog scenario (mln euro)
2001	8 417	10 522
2002	8 552	10 704
2003	8 696	10 792
2004	9 692	12 009
2005	9 951	12 305
2006	10 325	12 970
2007	11 592	14 675
2008	11 864	15 362
2009	11 785	15 279
2010	12 194	15 762
2011	12 385	15 958
2012	13 359	17 098
2013	13 727	17 570
2014	14 350	18 374
2015	14 680	18 856
2016	15 026	19 285
2017	15 599	20 026

Onderliggend, verdeeld naar de verschillende activumsoorten, zijn er verschillen. Data groeide sterk, in het hoge scenario tussen 2006 en 2017 van ruim 7 miljard naar 10,4 miljard. Aan databases werd er juist minder gespendeerd, dit ging van bijna 4,9 miljard naar 4,4 miljard euro. Voor datascience was de stijging zeer sterk, van minder dan 1 miljard naar 5,2 miljard euro per jaar. In het lage scenario is er sprake van een iets kleinere groei. Data stijgt dan van 5,1 miljard naar 7,3 miljard. Bij databases is de daling van 4,4 naar 3,9 miljard euro. Datascience neemt toe van ruim 800 miljoen in 2006 naar 4,4 miljard in 2017.

4.4.2 Uitgaven aan data, databases en datascience
jaar	Data hoog scenario (miljoen euro)	Databases hoog scenario (miljoen euro)	Datascience hoog scenario (miljoen euro)
2006	7128	4862	980
2007	8635	4809	1231
2008	8853	5030	1480
2009	8623	5306	1351
2010	8852	5560	1351
2011	8773	5704	1481
2012	9296	5471	2331
2013	9569	4724	3276
2014	9869	4300	4205
2015	9958	4328	4570
2016	10091	4291	4903
2017	10438	4404	5184

4.4.2 Uitgaven aan data, databases en datascience
jaar	Data hoog scenario (miljoen euro)	Databases hoog scenario (miljoen euro)	Datascience hoog scenario (miljoen euro)
2006	7128	4862	980
2007	8635	4809	1231
2008	8853	5030	1480
2009	8623	5306	1351
2010	8852	5560	1351
2011	8773	5704	1481
2012	9296	5471	2331
2013	9569	4724	3276
2014	9869	4300	4205
2015	9958	4328	4570
2016	10091	4291	4903
2017	10438	4404	5184

Tabel 4.4.3 geeft een overzicht van de volumegroei van de data-activa voor zowel het hoge als lage scenario. De groei van data (2001-2005) kwam in de eerste periode vooral van databases en data. In de periode erna was er een groei van alle drie de soorten data-activa. De laatste periode (2011-2017) wordt gekenmerkt door afnames in databases, met een zeer sterke groei van datascience. Gemeten in volumegroei zijn de verschillen tussen het lage en hoge scenario beperkt. Op totaalniveau was het verschil in de periode 2006-2011 het grootst, namelijk 0,5 procentpunt (2,8 -/- 2,3).

4.4.3 Jaarlijkse volumegroei data, databases, datascience en het totaal van data-activa
Periode	Data laag scenario (%)	Data hoog scenario (%)	Databases laag scenario (%)	Databases hoog scenario (%)	Datascience laag scenario (%)	Datascience hoog scenario (%)	Totaal data laag scenario (%)	Totaal data hoog scenario (%)
2001/2005	1	0,9	6,1	6,1	-4,2	-4,2	2,8	2,5
2006/2011	1,9	2,8	1,8	1,9	7,1	7,1	2,3	2,8
2011/2017	3,6	3,2	-4,1	-3,9	23,2	23	4,1	4,1
2006/2017	2,8	3,1	-1,4	-1,3	15,6	15,5	3,3	3,5

4.5 Bespreking van resultaten

Om de resultaten van de waarde van data te kunnen beoordelen kunnen naar een paar aspecten gekeken worden. Ten eerste kan er gekeken worden naar het algemene economische beeld, en ten tweede kunnen de gevonden resultaten vergeleken worden met andere landen en andere cijfers binnen de nationale rekeningen.

Ten eerste, de sterke groei van datascience is niet verwonderlijk. Hoewel als begrip niet zeer recent is het gebruik van datascience in recentere jaren sterk toegenomen. Opmerkelijker is de afname van databases in recente jaren. Een voorname oorzaak lijkt de uitbesteding van ICT gerelateerde diensten aan het buitenland, waaronder dus ook werkzaamheden aan databases vallen. Er werd zowel uitbesteed naar Europa als erbuiten, met India als belangrijke bestemming voor de uitbesteding van ondersteunende diensten (CBS 2018). In Nederland steeg het percentage bedrijven met offshoring dat ondersteunende activiteiten uitbesteedde van 67 procent in 2001-2006 naar 70 procent in 2009-2011. Dit ging voornamelijk om ICT en administratie. In de periode 2014-2016 ging het om soortgelijke percentages als in 2009-2011. De groei van datascience spoort met de in de literatuur gevonden verwachting dat deze activiteit het meeste zal opleveren. Ook uit de interviews en kwalitatieve onderzoek valt af te leiden dat data-analyse hier een groei doormaakt, hoewel de vertaling naar de kwantitatieve gegevens hiermee moeilijk te maken is.

Ten tweede kan er gekeken worden naar resultaten in andere landen. Doordat de aanpak van dit onderzoek geënt is op het onderzoek in Canada, zijn deze resultaten het gemakkelijkst met elkaar te vergelijken. Hieruit blijkt dat de resultaten, gemeten in jaarlijkse gemiddelde waardegroei voor 3 perioden, redelijk vergelijkbaar zijn op totaalniveau. Daarbij moet wel rekening gehouden worden met het feit dat in Canada de overheid wel in de cijfers is opgenomen. In de eerste periode (2005/6 tot en met 2010) was de jaarlijkse groei in Nederland hoger voor het totaal, voor de periode erna (2010 tot en met 2015) in Canada. In de meeste recente jaren lag de groei dicht bij elkaar in beide landen. Sterke verschillen zitten in databases, die in Canada over de gehele periode vanaf 2005 een groei doormaken, terwijl dat in Nederland niet het geval is. Blijkbaar heeft offshoring en outsourcing een kleiner effect op Canada gehad dan op Nederland. Datascience daarentegen groeit in Nederland veel sterker dan in Canada. Wel is in beide landen een afvlakking van de groei in de laatste paar jaren van beide studies duidelijk.

In de studie van BEA is de groei van data-gerelateerde uitgaven voor marktgerichte bedrijfstakken zonder de bedrijfstak dataverwerking en opslag tussen 2012 en 2017 jaarlijks ruim 7 procent. Deze groeipercentages zijn in waardes en niet volumes. Dat is een stuk hoger dan de groei in Nederland, en ligt dichter op de groei in Canada. Het verschil met de Nederlandse resultaten is niet gemakkelijk te plaatsen, doordat de selectie van beroepen verschilt, en er een andere manier van bepalen van overige kosten is toegepast (Rassier et al 2019).

In zowel Canada en de studie van BEA wordt er voorzichtig omgegaan met het vergelijken en relateren van de gevonden resultaten aan de nationale rekeningen. Een oorzaak hiervan ligt in de keuze welke beroepen bijdragen aan data-activa, en welk gedeelte van hun tijd daaraan moet worden toegeschreven.
Ook is de precieze overlap tussen R&D en datascience moeilijk in te schatten. In de visie van Canada valt datascience volledig onder R&D. Dit wordt ook bevestigd in de toelichting in de R&D-enquête. Als uitleg onder het kopje “toegepast onderzoek” staat hier: “Oorspronkelijk onderzoek met als doel het verwerven van nieuwe kennis, primair gericht op praktische toepassingen.” En onder “experimentele ontwikkeling” staat: “Systematisch werk, gebaseerd op kennis die verkregen is uit onderzoek en praktijkervaring, gericht op: - het produceren van nieuwe materialen, producten en apparaten; - het in gebruik nemen van nieuwe processen, systemen en diensten of - het sterk verbeteren van producten en processen die al in gebruik zijn.” (R&D-enquête 2018).
Daarmee kan datascience als een R&D-activiteit beschouwd worden. Uit de interviews die gehouden zijn werd dit gedeeltelijk bevestigd, maar niet alle geïnterviewden herkenden zich in deze typering van de werkzaamheden in hun bedrijfsonderdeel. Daardoor is de overlap niet gemakkelijk vast te stellen.

Naast datascience is er een overlap tussen de huidige statistieken voor databases en de hier gepresenteerde resultaten. Op het eerste gezicht lijkt deze overlap volledig, maar uit onderzoek van het statistiekbureau van Canada bleek dat hun nieuwe resultaten hoger uitkwamen dan degene die nu in hun nationale rekeningen worden gebruikt.

Op het moment dat er nieuwe activa-classificaties aan de investeringen worden toegevoegd, moeten er enkele wijzigingen worden gedaan aan de nationale rekeningen. Eén daarvan betreft de productie en toegevoegde waarde van de overheid. Deze worden berekend aan de hand van de kosten, en worden dus (mede) bepaald door de afschrijvingen. Het berekenen van afschrijvingen op data betekent echter dat er informatie over prijzen van data en afschrijvingspercentages bekend moet zijn. Deze zijn op dit moment nog niet goed vast te stellen.

Om hierboven genoemde redenen is het aandeel van data (data, databases en datascience) in het bruto binnenlands product (BBP) en investeringen niet eenduidig vast te stellen. Wel kunnen we een paar aannames doen om toch tot een inschatting te komen. 1.) We nemen de mogelijke investeringen van de overheid niet mee en zetten deze op 0; 2.) de overlap tussen de huidige raming van databases en de nieuwe is volledig (100%); 3.) de overlap tussen de huidige raming van R&D en databases is nihil en tot slot 4.) er is geen internationale handel in data-activa.

Op basis van deze aannames kan vastgesteld worden dat het aandeel van data in de investeringen varieert. Hierbij worden data, databases en software bij elkaar opgeteld. In 2006 is het aandeel in de investeringen, in niveaus gemeten, 8 procent voor het lage scenario en bijna 10 procent in het hoge scenario. Dat is in 2017 opgelopen tot 9,7 en ruim 12 procent voor het lage en hoge scenario respectievelijk. Daarbij moet aangetekend worden dat het hoogste aandeel bereikt wordt in 2014. Toen waren de aandelen 11,2 en bijna 14 procent. Gemeten als percentage van het BBP neemt deze toe van 1,7 in 2006 naar 2,1 in 2017 voor het lage scenario. In het hoge scenario verschuift het aandeel van 2,2 procent naar 2,7 procent voor dezelfde tijdsperiode.