Cybercrime achterhalen in aangiften

Introductie

Met de digitalisering van de samenleving groeit de interesse in cybercrime.
Gezien de complexiteit en constant veranderende aard van cybercrime, is de totale omvang van cybercrime op dit moment niet bekend. Om toch enig zicht te krijgen op de omvang ervan, is het van belang om allereerst zicht te krijgen op de hoeveelheid misdrijven, waarbij ICT in de bestaande politieregistraties een rol heeft gespeeld. Dat is nog niet zo eenvoudig.
Slechts een klein deel van de relevante delicten kan namelijk uit de huidige registratiemethoden worden afgeleid. Dit betekent dat er handmatig een onderscheid moet worden gemaakt tussen digitale delicten en traditionele vormen van criminaliteit in processen-verbaal. Deze handmatige methode is echter erg tijdrovend en bovendien foutgevoelig.

Het CBS heeft daarom een geautomatiseerde methode toegepast voor het onderzoeken van processen-verbaal. Om te achterhalen bij welke geregistreerde misdrijven cybercrime een rol speelt, zijn de processen-verbaal uit 2016, in nauwe samenwerking met de politie, door middel van tekstanalyse onderzocht. Op deze manier kan de omvang van de geregistreerde cybercrime beter en aanzienlijk sneller worden ingeschat dan met de handmatige methode.

Nieuwe methode

Op dit moment kent de politieregistratie nog geen mogelijkheid om, naast het type delict, ook aan te geven of er sprake is van een cybercrime-aspect bij een proces-verbaal. Wel kan cybercrime als hoofddelict worden geregistreerd. Het wordt dan als ‘computercriminaliteit’ (voormalig computervredebreuk) gecategoriseerd. Om te achterhalen of er bij andere typen van criminaliteit sprake is van een cybercrime-aspect, moet de inhoud van de tekst zelf doorzocht worden. In dit project is onderzocht of het mogelijk is dit door middel van text mining te doen.

Om de computer te kunnen laten zoeken naar cybercrime, zijn bij dit project de volgende drie stappen gevolgd:

  1. Cybercrime definiëren

    Allereerst is cybercrime gedefinieerd. De definitie van cybercrime is kort gezegd tweeledig. Het betreft misdaden die gepleegd worden met een ICT-middel, en die gericht zijn op ICT (voorheen cybercrime in enge zin). Daarnaast gaat het om gedigitaliseerde criminaliteit, waarbij klassieke delicten via een ICT-middel gepleegd worden (Politie.nl, 23-01-2019).
    Bij cybercrime in enge zin wordt ICT dus gebruikt als middel én als doelwit. Voorbeelden hiervan zijn het verspreiden van virussen en malware, maar ook bijvoorbeeld DDoS-aanvallen.
    Iemand hoeft geen computer of internetaansluiting te hebben om slachtoffer van cybercrime te worden. Zo bevatten de meeste telefoons en bankpassen computerchips, die kunnen worden gemanipuleerd door cybercriminelen.
    Gedigitaliseerde criminaliteit betreft traditionele delicten, die een digitale component hebben gekregen. Voorbeelden van bestaande criminaliteit, die een nieuwe impuls heeft gekregen door de opkomst van computertechnologie, zijn onder andere internetoplichting, bedreiging en het witwassen van geld via digitale betaalmethoden.
    In de tekstanalyse zijn beide vormen van cybercrime gebruikt, zonder hier een onderscheid tussen te maken. Het doel van deze exercitie is te verkennen wat de mogelijkheden van deze vorm van analyse zijn met een zo breed mogelijke definitie. Om deze reden is besloten om ook delicten mee te nemen, die wel een cybercrime-aspect bevatten, maar waarbij cybercrime niet het zwaarste delict is. Een voorbeeld hiervan is online bedreiging voorafgaand aan mishandeling.
  2. Het algoritme: classificeren en trainen van het model

    Tijdens het proces zijn verschillende tekstanalysemethoden getest en is uiteindelijk besloten gebruik te maken van training van het tekstanalysemodel via handmatige classificaties van een set van individuele processen-verbaal. Volgens de afgesproken definities voor cybercrime, heeft het CBS, in samenwerking met de politie, 1431 random geselecteerde processen-verbaal geclassificeerd als meldingen, die wel of geen cybercrime bevatten. De teksten van het grootste deel van deze handmatig geclassificeerde processen-verbaal zijn gebruikt om een computermodel te trainen om de eigenschappen van cybercrime te herkennen. De rest is gebruikt als testset. Hiernaast zijn ook door de politie handmatig geclassificeerde processen-verbaal toegevoegd aan de training data, waardoor het totaal aantal geclassificeerde processen-verbaal op ongeveer 6700 komt. Op deze manier kan het tekstanalysemodel met een beperkt aantal handmatige classificaties leren, welke woorden en combinaties van woorden in een proces-verbaal geassocieerd zijn met cybercrime, en dit vervolgens geautomatiseerd toepassen op de overige data.
  3. Testen en optimaliseren van het model

    Het proces van handmatig classificeren, trainen en testen is meerdere keren herhaald. Daarnaast is er een bewerking gedaan, waarbij woorden die niet relevant zijn om te gebruiken in de classificatie, uit het tekstanalysemodel gehaald zijn. Het gaat hierbij bijvoorbeeld om namen, plaatsen, lidwoorden en datums. In de laatste test is het model getest op een handmatig geclassificeerde set van ongeveer 300 zaken. De resultaten hiervan waren dat uiteindelijk 96 procent van de cybercrime gevallen, die door het model gevonden werden, inderdaad cybercrime bevatten (precision) en dat 85 procent van de cybercrime gevallen daadwerkelijk door het tekstanalysemodel gevonden werden (recall). 

Het uiteindelijke model is daarna gebruikt om voor alle 820 duizend onderzochte processen-verbaal te bepalen of er sprake is van cybercrime.

Resultaten

In 2016 bleek in ruim 72 duizend processen-verbaal sprake van cybercrime. Dat komt bij ongeveer 820 duizend onderzochte processen-verbaal neer op bijna 9 procent. Het aandeel cybercrime verschilt sterk per type delict. Zo kunnen in de categorie bedrog - waaronder oplichting valt - bijna alle geanalyseerde processen-verbaal als cybercrime geclassificeerd worden. Bij verkeersmisdrijven is het percentage cybercrime vrijwel nihil. Bij de classificatie is gebruikt gemaakt van de Standaard Classificatie Misdrijven (SCM) indeling die het CBS hanteert. [link: https://www.cbs.nl/nl-nl/onze-diensten/methoden/classificaties/misdrijven/toelichting-op-standaardclassificatie-misdrijven-2010].

In figuur 1 is in percentages uitgedrukt hoeveel processen-verbaal op basis van de uitkomsten van de tekstanalyse worden geclassificeerd als cybercrime. De resultaten zijn uitgesplitst naar de subcategorieën van de SCM en laten zien welke subcategorieën de hoogste percentages cybercrime bevatten.

Figuur 1. Aandeel cybercrime binnen type delicten (%)
 Percentage cyber binnen SCM subcategorie
Bedrog96
Valsheidsmisdrijven65
Afpersing en afdreiging46
Openbare orde misdrijf22
Geweldsmisdrijf (overig)13
Misdrijven WvSr (overig)27
Misdrijven (overig)19

Ook is te zien dat er voornamelijk in de categorieën bedrog, valsheidsmisdrijven, alsmede afpersing en afdreiging, sprake is van een hoog percentage cybercrime. Openbare orde misdrijven betreffen onder andere computervredebreuk en discriminatie. Onder overige geweldsmisdrijven vallen voornamelijk zedendelicten. Bij overige misdrijven Wetboek van Strafrecht gaat het voornamelijk om belediging. Als naar de onderliggende categorieën wordt gekeken, vallen de delicttypen computercriminaliteit en pornografie op. Binnen computercriminaliteit vindt het model 98 procent cybercrime, een te verwachten hoog percentage. Bij pornografie blijkt er in 58 procent van de zaken sprake van een cyberaspect te zijn.

Figuur 2 geeft de verdeling weer van het totaal aantal processen-verbaal waarin sprake is van cybercrime, uitgesplitst naar de verschillende subcategorieën. Meer dan de helft van de processen-verbaal waarin cybercrime voorkomt, wordt geregistreerd in de subcategorie bedrog. Computercriminaliteit (dat valt binnen openbare orde misdrijven) bevat volgens de tekstanalyse 2,5 procent van alle gevonden delicten met een cyberaspect in 2016.

Figuur 2. Cybercrime naar type delict
 Percentage van totaal cyberdelicten in deze SCM subcategorie
Bedrog61
Valsheidsmisdrijven20
Diefstal/verduistering en inbraak 7
Openbare orde misdrijf 3
Bedreiging en stalking 3
Misdrijven WvSr (overig)3
Afpersing en afdreiging 1
Overige categorieën2

Conclusie en toepassingen

Met de ontwikkelde tekstanalysemethode kunnen de processen-verbaal van de politie relatief eenvoudig worden onderzocht. Hierdoor is het mogelijk zicht te krijgen op de omvang en het aandeel van cybercrime. Daarbij is de kanttekening van mogelijke onderschatting (en overschatting) op zijn plaats; de methode zal daarom nog verder verbeterd worden. Duidelijk is ook dat deze methode een belangrijke eerste stap is om het huidige handmatige proces, waarmee cybercrime in processen-verbaal gedetecteerd wordt, drastisch te versnellen. Daarbij leidt deze methode tot een vergroting van de kennis over de staat van geregistreerde cybercrime in Nederland en vergroot het de mogelijkheden om geregistreerde cybercrime internationaal te kunnen vergelijken. Door cybercrime in politieregistraties inzichtelijker te maken, licht dit onderzoek een tipje van de sluier op van het dark number van cybercrime in Nederland.

Dit tekstanalysemodel, dat gebruik maakt van machine learning, kan niet alleen worden toegepast op processen-verbaal van de toekomst, maar ook op die van het verleden. Door dezelfde classificatiemethode toe te passen, is het mogelijk de uitkomsten van dit onderzoek in de tijd te vergelijken. Op deze manier wordt het mogelijk een trend af te lezen.
Daarnaast zou de bestaande statistiek van de geregistreerde misdrijven met behulp van deze methode op termijn kunnen worden verrijkt met een kenmerk of deze misdrijven wel of geen cyberaspect betreffen. Vervolgens kunnen hier ook kenmerken van slachtoffers en verdachten aan gekoppeld worden, en kan ook naar het vervolgingsproces van incidenten worden gekeken: wordt iemand veroordeeld en welke straf wordt opgelegd?

Naast het domein cybercrime, kan dit model ook worden toegepast op andere thema’s, die nu lastig uit de standaardclassificaties van misdrijven op te maken zijn, zoals terrorisme en drugsgerelateerde delicten. Ook andere vormen van tekst-gebaseerde (big) databronnen kunnen op een vergelijkbare manier onderzocht worden.

In de komende maanden zal nog gewerkt worden aan het verbeteren van dit model en de validatie ervan. Daarna zal een update op dit artikel gepubliceerd worden, waarin informatie wordt gegeven over onder andere de variantie en de vertekening van het model. Ook zal er gestreefd worden naar een verbetering van de schatting van de omvang van cybercrime in processen-verbaal.    

Feedback gevraagd

Het CBS ontvangt graag feedback op dit onderzoek. Uw mening over de beschreven tekstanalyse naar cybercrime stellen we zeer op prijs. Dat kan een algemene indruk zijn, maar ook meer specifieke punten die u goed of niet goed vindt. Zijn er dingen die verbeterd kunnen worden? Zijn we iets vergeten? Welke andere toepassingen zouden interessant zijn voor een dergelijk tekstanalyse model of voor deze resultaten? Zijn er voorbeelden die we over het hoofd hebben gezien? We horen het graag.