Bijlage B – Technische analyse koppelniveau kansgewichten

Naast de in hoofdstuk 3.2 besproken visuele inspectie van tekstuele verschillen tussen de verschillende koppelniveaus, is er ook gekeken naar de verdeling van de gevonden kansgewichten om te bepalen wat het meest geschikte koppelniveau is. Uit de tekstuele analyse bleek dat koppeling op 3-digit niveau te algemeen is en dat koppeling op 5-digit niveau te specifiek is. Met andere woorden, de door Goldschlag et al. (2019) voorgestelde koppeling op het niveau van de vierde digit bleek op basis van de tekstuele analyse inderdaad optimaal. In deze bijlage evalueren we de kwaliteit van deze koppeling op een meer technische wijze.

Figuur B.2 toont twee panelen met elk 4 boxplots: Het linker paneel laat de koppeling zien van 4-digit SITC-productgroepen naar CPC-technologiegebieden op 1, 2, 3 en 4-digits; het rechter paneel laat de koppeling zien van het 4-digit CPC-technologiegebieden naar SITC-productgroepen op 1, 2, 3, en 4-digits. De boxplots laten de spreiding van de kansgewichten zien voor de verschillende koppelniveaus. Het eerste kwartiel, de mediaan en het derde kwartiel vormen samen de box, waarbij de grootte van de box iets zegt over de spreiding van de middelste 50 procent van de data. Hoe groter (hoger) de box des te groter de spreiding (de interkwartielrange). De mediaan geeft de middelste waarde van de dataset als de datapunten zijn gerangschikt van klein naar groot.

Als we bovenstaande informatie gebruiken om de boxplots in Figuur B.2 te analyseren dan zien we dat de mediaan bij zowel het linker als het rechter paneel grofweg gelijk blijkt op ieder koppelniveau behalve bij koppeling op de eerste digit. Kijken we naar de hoogte van de boxen dan zien we meer verschillen tussen de verschillende koppelniveaus. In beide panelen zien we dat de hoogte van de box afneemt wanneer het koppelniveau specifieker wordt doordat de spreiding in het derde kwartiel afneemt. Dit betekent dat bij koppeling op hogere aggregatieniveaus meer waardes zitten met een relatief hoog kansgewicht. Dat suggereert dat er vals-positieve koppelingen worden gelegd: een onterechte koppeling tussen technologiegebied en exportproduct, omdat het koppelniveau te algemeen is. Dat is precies wat zichtbaar was in Tabel 3.2. Naarmate het koppelniveau specifieker wordt zien we de spreiding afnemen, de box wordt minder hoog, en de getoonde outliers illustreren dat hoge kansgewichten maar sporadisch voorkomen. Met andere woorden, op 4-digit niveau wordt SITC-exportproducten in toenemende mate aan meerdere CPC-technologiegebieden gelinkt, of vice versa, met een lager kansgewicht. Op basis van een tekstuele analyse van de SITC- en CPC-classificaties op gedetailleerdere niveaus weten we dat deze te specifiek zijn na de vierde digit in die zin dat er dan veel vals-negatieve koppelingen ontstaan. Met andere woorden, er worden technologiegebieden en exportproducten niet aan elkaar gekoppeld waar dit wel het geval had moeten zijn.

Het beeld dat spreekt uit de boxplots in Figuur B.2 in combinatie met de tekstuele analyse in paragraaf 3.2, maakt dat de slotsom is dat koppeling op 4-digit niveau, in lijn met Goldschlag et al. (2019), het optimale koppelniveau is.