Innovatievormen bepalen met behulp van tekstanalyse

Hoe kun je een goed beeld krijgen van de verschillende vormen van innovatie bij bedrijven in Nederland? Dit heeft het CBS onderzocht in het Center for Big Data Statistics. Om de verschillende vormen van innovatie te bepalen, is een data gedreven methode ontwikkeld die de woorden op de websites van innovatieve bedrijven onderling vergelijkt. Deze methode maakt het mogelijk om verschillende vormen van innovatie te bepalen zonder een vooraf vaststaande indeling te gebruiken. Ook hoeft er geen vragenlijst naar bedrijven te worden gestuurd.

Werkwijze

De tekst op de homepagina van de websites van innovatieve bedrijven wordt gebruikt om de verschillende vormen van innovatie te bepalen. Om een zo groot mogelijke diversiteit aan onderwerpen en domeinen te garanderen, is hierbij uitgegaan van bedrijven die gedurende de periode 2010 tot en met 2018 zijn opgenomen in de KvK Innovatie Top 100. De website van de Innovatie Top 100 bevat een overzicht van in totaal 900 innovatieve Nederlandse bedrijven, inclusief een verwijzing naar hun website. Wat opvalt, is dat de websites van deze bedrijven of in het Engels of in het Nederlands (vaak met een aantal Engelse woorden) zijn geschreven. Om een goede vergelijking van de teksten tussen de websites mogelijk te maken, zijn alle teksten naar het Engels omgezet. Vervolgens zijn de leestekens en veel voorkomende, algemene, woorden uit de websiteteksten verwijderd. De woorden die vervolgens overbleven, zijn voor de verschillende websites onderling vergeleken en met behulp van een aantal verschillende, zelflerende algoritmes in verschillende innovatiegroepen ingedeeld. Door dit heel vaak te herhalen en elke keer met verschillende woorden te beginnen, is bepaald welk algoritme hiervoor het meest geschikt is en welke indeling uiteindelijk de beste is.

Resultaten

Het meest geschikte blijkt een ‘latent Dirichlet allocatie’ algoritme te zijn, dat begint met een zeer losse indeling in groepen, en dat zichzelf vervolgens leert de groepen steeds duidelijker te onderscheiden. Een indeling die 10 verschillende groepen van innovatie onderscheidt, blijkt de beste te zijn. Dit is bepaald door te kijken naar de overeenkomst tussen de woorden binnen de groepen én de verschillen tussen de woorden in de groepen. Hiervoor zijn verschillende berekeningswijzen gebruikt en die resultaten zijn onderling vergeleken. Ook zijn de resultaten op verschillende onafhankelijke manieren gecontroleerd. Alle controles bevestigden het aantal van 10 verschillende vormen van innovatie.

Vervolgens zijn de meest voorkomende woorden op de websites van bedrijven vergeleken. In figuur 1 zijn deze bevindingen voor elk van de 10 innovatieve onderwerpen in een ‘Woordenwolk’ weergegeven. Hoe groter de woorden in de afbeelding, hoe vaker deze op websites voorkomen. Maar hoe geef je elk van die onderwerpen een passende naam? Volautomatisch een naam toekennen aan elk van de onderwerpen is niet iets wat het door het CBS gebruikte algoritme doet. Sterker nog, er zijn op dit moment zelfs geen algoritmen, die zonder menselijk ingrijpen, in staat zijn dit volledig automatisch te doen. Dit komt onder meer omdat het meest voorkomende woord, of een combinatie van veel voorkomende woorden, niet altijd een goede omschrijving van het onderwerp geeft; de samenhang met de andere woorden is in dit verband belangrijk. Daarom is naar een selectie van websites voor elke groep gekeken, waarna in overleg met deskundigen binnen het CBS vervolgens voor elk innovatief onderwerp een zo goed mogelijke naam is gekozen.

De namen voor elk van de 10 vormen van innovatie zijn:

  1. Duurzame energie (Sustainable energy)
  2. Voedsel & landbouw (Food & agriculture)
  3. Logistiek (Logistics)
  4. Creatieve industrie (Creative industry)
  5. Gezondheid (Health care)
  6. Duurzame bouw (Sustainable construction)
  7. ICT Software
  8. Internet of things
  9. Techniek & engineering (Technology & engineering)
  10. Bedrijfsonderhoud & service (Industrial maintenance & service)

Figuur 1. Woordenwolk met daarin de meest voorkomende woorden voor elk van de 10 verschillende vormen van innovatie

10 vormen van innovaties

Er zijn opvallend veel overeenkomsten tussen de 10 gevonden innovatieve onderwerpen en de 9 Topsectoren, die door de Nederlandse overheid worden onderscheiden. Ter informatie, de 9 Topsectoren zijn: Agri & food, Chemie, Creatieve industrie, Energie, Hightech systemen & materialen, Logistiek, Life sciences & health, Tuinbouw & uitgangsmaterialen en Water & maritiem.

Een aantal van de gevonden innovatieve onderwerpen komt goed overeen met de Topsectoren. Dit betreft Duurzame energie (= Energie), Voedsel & landbouw (= Agri & food), Logistiek, creatieve industrie en gezondheid (= Life sciences & health). Het innovatief onderwerp ICT & software kan als onderdeel van de topsector Creatieve industrie worden gezien. De topsector Hightech systemen & materialen valt voor een groot deel samen met de innovatieve onderwerpen Duurzame bouw, Internet of things, Techniek & engineering en Bedrijfsonderhoud & service. Deze overeenkomsten laten zien dat bedrijven in Nederland daadwerkelijk innovatieve stappen aan het zetten zijn binnen deze domeinen. De door het CBS ontwikkelde indeling is immers gebaseerd op de 100 meest belangrijke vormen van innovatie in de afgelopen 9 jaren.

Verder is het opvallend dat de topsectoren Chemie, water & maritiem en Tuinbouw & uitgangsmaterialen niet zijn gevonden in onze indeling. Dit kan een aantal redenen hebben. De eerste reden kan zijn dat er in die topsectoren mogelijk minder bedrijven actief zijn. Dat zou dan verklaren waarom er - in absolute aantallen gezien - minder bedrijven in deze Topsectoren innovatief zijn. Hierdoor wordt het moeilijk om deze vormen van innovatie met de door het CBS gebruikte aanpak te vinden. De tweede reden kan zijn dat bedrijven in deze sectoren zich niet of nauwelijks voor deelname aan de Innovatie Top 100 hebben aangemeld. Het is op dit moment niet duidelijk wat hier het geval is. Het is dan ook zeker goed de innovatie binnen de Topsectoren Chemie, water & maritiem en Tuinbouw & uitgangsmaterialen nader te bekijken.

Uitdagingen

Een van de belangrijkste uitdagingen is het automatisch toekennen van namen aan de verschillende vormen van innovatie. Recente ontwikkelingen binnen het terrein van kunstmatige intelligentie en de natuurlijke taalverwerking bieden hiervoor steeds meer mogelijkheden. Daarnaast is het ook belangrijk methoden te ontwikkelen om minder voorkomende vormen van innovatie goed in kaart te brengen. Zeker wanneer een beperkt aantal bedrijven actief is binnen een bepaald domein, zal dit helpen om toch een goed overzicht te krijgen van de voortgang binnen dat domein.

Privacy

Bij de ontwikkeling van deze methode zijn uitsluitend verwijzingen gebruikt naar de websites van bedrijven, die vermeld zijn in de KvK Innovatie Top 100. Daarnaast is uitsluitend gekeken naar de teksten op de homepagina van die websites. De organisatie van de KvK Innovatie Top 100 vraagt de bedrijven, die door de jury zijn geselecteerd voor een plekje in de Top 100, altijd om toestemming voor publicatie van de naam van het bedrijf, een link naar de website en een korte omschrijving van de innovatie van dat bedrijf. Het CBS schoont de teksten op de websites van deze bedrijven vervolgens op en groepeert ze. Hierdoor kunnen er geen individuele bedrijven worden afgeleid uit de afzonderlijke woorden.

Toepassingen

Uitgaande van de tekst op de websites van bedrijven, is het voor het onderscheiden van verschillende vormen van innovatie, belangrijk om inzicht te verkrijgen in de verschillende vormen van innovatie, die met dergelijke teksten zijn te detecteren. Voor technologische innovatie is een methode ontwikkeld, die eerder als beta-product is gepubliceerd. De hierboven beschreven aanpak laat zien dat het ook mogelijk is om andere vormen van innovatie te bepalen. Dit maakt het onder andere mogelijk innovatieve bedrijven te vinden, die actief zijn binnen bepaalde Topsectoren. Hiermee kan het effect van stimuleringsbeleid binnen die sectoren worden bepaald. Ook zouden hiermee gedetailleerde kaarten gemaakt kunnen worden van gebieden waar dergelijke innovatieve bedrijven gevestigd zijn. Dit is met name interessant voor gemeenten en provincies.

Feedback

Het CBS wil graag uw mening over dit onderzoek en de ontwikkelde methode weten. Heeft u bijvoorbeeld ideeën over mogelijke toepassingen of suggesties om deze methode te kunnen verfijnen? Wij nodigen u van harte uit om via onderstaand formulier uw feedback te geven.

Je browser wordt niet ondersteund. Upgrade je browser. Je hebt een inconsistente user-agent geleverd bij het oplossen van de uitdaging. Mogelijk heb je browserextensies of -instellingen ingeschakeld om de user-agent te vervalsen en moet je deze uitschakelen om door te gaan. Een deel van Turnstile is per ongeluk in de cache opgeslagen. Wis gelieve je cache. De tijd op de klok klopt niet. Zet je klok op de juiste tijd. Een ongespecificeerde fout heeft zich voorgedaan.