Auteur: Dr. B. Klijs
Monitor online platformen 2020

9. Methodologie

9.1 Evaluatie van de gebruikte methoden

In hoofdstuk 2 is beschreven hoe de onderzoekspopulatie tot stand kwam, en hoe online platformen zijn uitgevraagd. In dit hoofdstuk worden enkele aspecten van de gebruikte methoden geëvalueerd, en wordt ingegaan op enkele factoren die van invloed kunnen zijn op de gepresenteerde uitkomsten.

Evaluatie categorisering als online platform door respondent

Op basis van de antwoorden op de vragen op de enquête kan worden gesteld of een respondent een online platform is of niet. Om de kwaliteit van deze antwoorden te verifiëren, is door een onderzoeker van het CBS een (klein) aantal potentiële platforms bekeken. Op basis van wat er zichtbaar was op de website, beoordeelde de onderzoeker of het een platform betrof of niet.

Er zijn 58 websites op deze wijze bekeken. Bij 48 hiervan (83 procent) was de beoordeling op basis van de antwoorden van de respondent gelijk aan die van de onderzoeker. Bij 27 websites ging het in beide gevallen om een platform, en bij 21 websites ging het in beide gevallen juist niet om een platform, zie tabel 9.1.1.

Bij 3 websites bleek uit de controle door de onderzoeker dat het geen online platform betrof, terwijl op basis van de antwoorden van de respondent wel was geconcludeerd dat het een platform was. Deze websites zijn dus ten onrechte als online platform bestempeld (‘false positive’). Dit betreft zo’n 10 procent van de 30 websites die op basis van de antwoorden van de respondent als platform waren gecategoriseerd.

Bij 7 websites concludeerde de onderzoeker dat het wel om een online platform ging, terwijl de antwoorden van de respondent er op duidden dat het geen platform betrof (‘false negative’). Dit betreft 25 procent van de 28 websites die op basis van de antwoorden van de respondent als ‘geen platform’ waren ingedeeld.

Hoewel de classificatie dus in de meeste gevallen goed verloopt, wordt soms een website ten onrechte als platform beschouwd. Omgekeerd wordt soms een website ten onrechte niet als platform beschouwd, en buiten de in dit rapport gepresenteerde resultaten gelaten.

9.1.1 Evaluatie van categorisering als online platform door respondent
Wel platform volgens onderzoekerGeen platform volgens onderzoekerTotaal
Wel platform volgens respondent27330
Geen platform volgens respondent72128

Representativiteit van de respons

De enquête is uitgezonden naar alle bedrijven waarvan werd vermoed dat ze tot de populatie zouden kunnen behoren (zie hoofdstuk 2). Bij het bepalen van de uitkomsten van de enquête kon geen gebruik worden gemaakt van ophoging; de totale populatie is immers niet bekend. Wel is er gekeken of er mogelijk selectiviteit in de respons zat, doordat bedrijven in bepaalde bedrijfstakken of van verschillende groottes vaker of minder vaak respondeerden.

Er waren geen grote verschillen in de respons op de enquête naar SBI-groep of grootteklasse (van het bedrijf waar het platform bij hoort). Dit betekent dat het niet erg waarschijnlijk is dat de resultaten sterk zijn vertekend door selectieve respons.

Bedrijven met meerdere online platformen

Bedrijven die meerdere (potentiële) platformen hadden, hebben slechts voor één van hun platformen een enquête ontvangen. Op deze manier heeft het CBS geprobeerd de administratieve lastendruk voor bedrijven laag te houden.

Dit heeft een effect op de uitkomsten. Platformen die eigendom zijn van een bedrijf dat meerdere platformen bezit, zijn ondervertegenwoordigd in de resultaten. Dit speelt vooral in de SBI J (Informatie en communicatie). Hierin zit een aantal bedrijven met heel veel websites, soms meer dan 100. Deze websites zijn vaak vergelijkbaar in opzet, of draaien op eenzelfde achterliggend systeem. Je kunt je hierbij afvragen of de platformen echt anders zijn, of dat het vooral gaat om een andere ingang of typering van hetzelfde platform. Wanneer bedrijven voor ieder platform dat ze hebben een afzonderlijke enquête zouden krijgen zouden de bedrijven met meerdere (vaak vergelijkbare) platformen een sterk stempel drukken op de uitkomsten. Mede vanwege deze reden leidt de opgelegde beperking van een maximum van één enquête per bedrijf niet noodzakelijkerwijs tot minder betrouwbare resultaten.

Evaluatie van machine learning-model 

Het machine learning-model dat is gebruikt om de onderzoekspopulatie samen te stellen (zie hoofdstuk 2.1) geeft een kans tussen 0 en 1 dat een bepaalde website een online platform is. Websites met een kans groter dan 0,8 zijn uitgevraagd via de enquête. Met de uitkomsten van de enquête kon de voorspellende waarde van het model getoetst worden aan de praktijk.

In figuur 9.1.2 is op de ene as de kans weergegeven die door het model van te voren was bepaald, en op de andere as het deel van de respondenten op de enquête dat aangaf daadwerkelijk een online platform te zijn.

Websites die van te voren een hoge kans (tussen 0,975 en 1) kregen van het model blijken bijna drie keer zo vaak een online platform te zijn dan websites met een lagere kans (tussen 0,8 en 0,825). Deze resultaten geven een empirische onderbouwing van de voorspellende waarde van het model.

Zelfs wanneer het model aangeeft dat de kans bijna 1 is dat een website een online platform is, geeft op de enquête slechts 40 procent van de respondenten aan daadwerkelijk een platform te zijn. De door het model geschatte kansen zijn dus niet op te vatten als ‘absolute waarden’. Het is overigens wel mogelijk om de kansen voor deze vertekening te corrigeren. Dit zal mee worden genomen in het vervolgonderzoek.

In de ‘laagste’ uitgevraagde groep (0,8 tot 0,825) blijkt nog 15 procent een online platform te zijn. Het is daarmee waarschijnlijk dat ook onder websites met een modelkans kleiner dan 0,8 nog online platformen te vinden zijn.

Deze bevindingen kunnen gebruikt worden om het model verder te verbeteren, en om eventueel de grens van een kans van 0,8 voor uitvraag via een enquête te verruimen.

9.1.2 Modelkans en resultaat enquête
id_colsperc_vermoeden_juist (% van respondenten dat op enquête aangeeft platform te zijn)
0.8,0.82515,1
0.825,0.8516,5
0.85,0.87522,3
0.875,0.925,8
0.9,0.92525,8
0.925,0.9528,4
0.95,0.97532,8
0.975,139,5
 

9.2 Aanbevelingen

Hieronder volgen enkele aanbevelingen om de gebruikte onderzoeksmethodiek verder te verbeteren. Deze aanbevelingen kunnen worden gebruikt voor toekomstige onderzoeken naar online platformen.

Onderzoekspopulatie

De onderzoekspopulatie is voornamelijk geïdentificeerd op basis van webscraping en modellering. Het is gebleken dat met deze methode enkele grote platformen niet werden geïdentificeerd en daarom geen onderdeel van de populatie waren. In het vervolg zou gekozen kunnen worden voor een hybride aanpak, waarbij de platformen die worden geïdentificeerd middels webscraping en modellering handmatig worden aangevuld met de belangrijkste platformen die bekend zijn bij experts.

Een relatief groot deel van de benaderde populatie gaf aan geen online platform te zijn. De in deze enquête verzamelde gegevens kunnen worden gebruikt om het model verder te verfijnen, zodat online platformen nog beter van te voren kunnen worden geïdentificeerd. Dit zal leiden tot een lagere lastendruk voor bedrijven, doordat minder bedrijven die geen platform zijn een enquête zullen krijgen.

Het kan zinvol zijn een register van online platformen op te bouwen, waarin de jaarlijks verzamelde informatie ieder jaar wordt toegevoegd. In dit register zouden zaken kunnen worden opgenomen als de URL, bron van identificatie (model, handmatig etc.), beid (identificatie in het bedrijvenregister), startdatum, einddatum, jaren waarin het platform is aangeschreven met een enquête, wel of niet gerespondeerd, aanschrijfadres bevestigd, bevestigd als platform, etc.

Koppeling met bedrijvenregister

De meerwaarde van een datakoppeling tussen websites en het Algemeen Bedrijven Register (ABR) van het CBS is gebleken. Hierdoor kon gebruikgemaakt worden van informatie die elders binnen het CBS beschikbaar was, zoals gegevens uit de productiestatistieken en btw-aangiften (omzet). 

De koppeling met het ABR is een waarschijnlijkheidskoppeling op basis van informatie op de website en gegevens in het ABR. Een deel van de koppelingen was (zoals verwacht) niet correct. Er was nog geen uitgewerkte methode om deze ‘verkeerde adresseringen’ af te vangen. Het is aan te bevelen een vraag op de enquête op te nemen over het al dan niet juist zijn van de adressering (“is uw bedrijf de eigenaar van website X ?”).

De koppeling tussen de websites en het ABR kan verder verbeterd worden met feedback uit de enquête.

Representativiteit

Een van de uitdagingen in het onderzoek is de representativiteit van de cijfers. Omdat er geen duidelijk ophoogkader op populatieniveau is, zijn in deze monitor vooral verdelingen gepresenteerd, en in mindere mate cijfers die betrekking hebben op totaalniveaus. Het is aan te raden uit te zoeken of het mogelijk is om toch te komen tot cijfers op populatieniveau. Een aanknopingspunt hiervoor is bijvoorbeeld het verder vervolledigen van het bestand met URL’s die gebruikt worden bij het scrapen. Het voor deze monitor gebruikte bestand van Dataprovider kan bijvoorbeeld aangevuld worden met URL’s uit het domeinnamenregister, waar het CBS aan werkt.

Alternatieve databronnen

Methoden om data te verzamelen, die aanvullend zijn op enquête die wordt uitgezonden naar platformen, zouden kunnen worden verkend en ontwikkeld. Omdat online platformen per definitie een online dienst zijn, lijkt webscraping een aangewezen methode. Dit is geen ‘laaghangend fruit’, maar kan op termijn veel opleveren. De daarbij opgedane kennis kan ook ingezet worden in andere domeinen.