Bijlage A – Koppeling patentaanvragers ABR
In deze bijlage wordt in verder detail beschreven hoe het koppeltraject van patentaanvragers met ondernemingengroepen in het Algemeen Bedrijvenregister (ABR) verloopt.
Een individuele patentaanvrager wordt in de opgehaalde data gekenmerkt door een ‘PATSTAT psn id’, die rechtstreeks te koppelen is aan de bijbehorende adresgegevens binnen PATSTAT online. Deze gegevens, aangevuld met de adresgegevens geleverd door RVO, worden door het CBS gebruikt om de patentaanvragers te koppelen aan het ABR. De naam en postcodes van ondernemingen worden via een algoritme vergeleken met de naam en postcodes van de aanvrager in PATSTAT. Het algoritme geeft een score van 0 tot 1 voor zowel de overeenkomst in naam als in postcode, wat resulteert in een score van 0 tot 2. Figuur B.1 laat zien hoe de automatische koppeling uiteindelijk tot stand komt. Het deel dat na het doorlopen van deze procedure niet gekoppeld is, wordt handmatig geëvalueerd.
Zoals in figuur B.1 te zien is geeft het algoritme met behulp van een score weer hoe “goed” de koppeling tussen een patentaanvrager en een OG is. Deze score is in twee delen opgesplitst. Allereerst bepaalt het algoritme een score op basis van de adresgegevens. De koppeling krijgt een score met een waarde van 1 wanneer er een match is tussen de postcode van de patentaanvrager en één van de postcodes van de OG. Wanneer er geen match is, krijgt de koppeling een score van 0 op basis van de adresgegevens. Ten tweede wordt een score gemaakt op basis van de naam van een patentaanvrager. Hier kijkt het algoritme hoe goed een naam overeen komt met één of meerdere namen van de ondernemingen die onder een OG vallen. Omdat een koppeling maken op naam minder zwart-wit is dan een koppeling maken op postcode, krijgt de koppeling op naam een score die groter dan of gelijk is aan 0 en kleiner dan of gelijk is aan 1 (0 ≤ score ≤ 1). De twee scores samen hebben dan ook een waarde die groter dan of gelijk is aan 0 en kleiner dan of gelijk is aan 2 (0 ≤ score ≤ 2).
Voor de meeste patentaanvragers geldt dat de koppeling met de hoogste score kan worden gekozen om te bepalen of de bijbehorende OG een juiste match is. In deze gevallen moet de logica worden gevolgd die aan de linkerkant van de beslissingsboom is te zien. Door de structuur van het scoresysteem zijn er echter situaties waarbij een koppeling met een lagere score wordt verkozen boven een koppeling met een hogere score. Er zijn namelijk gevallen waarbij er een match wordt gemaakt op basis van de postcode van een patentaanvrager en een OG, maar waarbij er geen match is op naam. Dit kan bijvoorbeeld gebeuren wanneer meerdere bedrijven op hetzelfde bedrijventerrein liggen. In deze gevallen zal de koppeling een score van 1 hebben, maar kunnen we met zekerheid zeggen dat de koppeling fout is. Als de patentaanvrager ook met de correcte OG op adres wordt gekoppeld, is het natuurlijk geen probleem dat de foute koppelingen een score van 1 krijgen. Er zal dan een score hoger dan 1 bij de correcte OG worden geplaatst, waardoor deze koppeling wordt verkozen boven de andere koppelingen. Helaas ontstaan er wel problemen wanneer de correcte OG niet op adres kan worden gekoppeld, maar wel (grotendeels) op naam. Dit komt bijvoorbeeld voor wanneer de patentaanvrager een postbus heeft genoteerd bij het aanvragen van een patent, terwijl het ABR de normale postcode van de bijbehorende OG bevat. Dit resulteert in een score die lager is dan 1, terwijl deze koppeling wel beter is dan de koppelingen met een score gelijk aan 1. In deze situaties wordt de logica aan de rechterkant van de beslissingsboom gebruikt.
Uiteindelijk zal nog steeds een deel van de patentaanvragers niet gekoppeld zijn aan een OG. Deze patentaanvragers moeten handmatig worden bekeken en gekoppeld. Het uiteindelijke resultaat is een microdatabestand op OG-niveau dat alle patentaanvragen van Nederlandse aanvragers bevat die bij het EPO of bij het OCNL zijn aangevraagd. Internationale patentaanvragen (zogeheten PCT-aanvragen) zitten ook in de dataset mits deze ook in de Europese of Nederlandse aanvraagfase gezeten hebben. Dit kunnen onder andere rechtstreekse aanvragen zijn in landen buiten Europa (landen die niet zijn aangesloten bij het EPO), maar dus ook rechtstreekse aanvragen bij een ander Europees land (initieel buiten de EPO procedure om, maar later bijvoorbeeld bij OCNL of uiteindelijk toch EPO). Als de aanvraag niet in de Europese of Nederlandse fase heeft gezeten dan zit deze niet in de data (en is dus ook geen onderdeel van het gepubliceerde totaal op CBS StatLine). Dit komt doordat in dit geval de noodzakelijke adresgegevens voor de koppeling in PATSTAT online ontbreken.