Methode sociale spanningen en emoties in de samenleving

Voor het ontwikkelen van de indicatoren is gebruik gemaakt van door Nederlandse gebruikers geposte en openbaar beschikbare berichten van onder andere Twitter, Facebook en Instagram. Daarnaast zijn ook andere bronnen gebruikt, zoals openbare Nederlandse nieuwswebsites, forums en blogs. De teksten uit deze databronnen zijn gebruikt, plaatjes en emoticons daarentegen niet. Reacties op berichten zijn niet meegenomen, doorgestuurde berichten (zoals retweets) wel. Berichten van spambots zijn zoveel mogelijk verwijderd.

De Nederlandse populatie die actief is op de onderzochte sociale media, met Twitter als voornaamste bron (ongeveer 60% van de berichten), is niet representatief voor de totale bevolking. Eerder CBS-onderzoek heeft echter aangetoond dat sociale media bruikbaar kunnen zijn voor het meten van veranderingen in indicatoren, die op sentiment zijn gebaseerd. Daarmee vormen sociale media een goede indicatie voor veranderingen in sentimenten in de samenleving.

Sociale spanning indicatoren

Voor de selectie van berichten die betrekking hebben op gevoelens van sociale spanning en onrust, heeft het CBS een gevalideerde lijst met woorden samengesteld, die specifiek betrekking hebben op gevoelens van spanningen en onrust. Dit is gebeurd met behulp van kwalitatief onderzoek. Deze lijst is vervolgens gecombineerd met een woordenlijst die is samengesteld door het WODC. In deze lijst staan zowel woorden die gerelateerd zijn aan gevoelens van onveiligheid in de maatschappij, als woorden die een link hebben met de onderwerpen uit het werkveld van het ministerie van Justitie en Veiligheid.

Op basis van deze woordenlijsten wordt dagelijks het percentage berichten in kaart gebracht, dat over deze onderwerpen gaat. De gemiddelde waarde van 2011, het eerste jaar van de gehanteerde dataset, is gebruikt om de waardes in latere jaren te indexeren. In het dashboard is standaard de gecombineerde spanning indicator te zien, maar het is ook mogelijk om de indicatoren voor beide losse woordenlijsten, van het CBS en het WODC, apart weer te geven. De drie sociale spanningen indicatoren vertonen over het algemeen een vergelijkbaar beeld, soms zijn er als gevolg van de verschillende selectiecriteria enkele verschillen zichtbaar.

Om te bepalen wanneer er sprake is van een verhoogde sociale spanning, is gebruik gemaakt van het Prophet algoritme (Artikel Prophet). De algemene trends in de sociale spanningen indicator worden gebruikt om het betrouwbaarheidsinterval te bepalen. Rondom de indicatoren is een betrouwbaarheidsinterval van driemaal de standaarddeviatie gegenereerd. Dit interval wordt weergeven als een schaduwband rond de lijnen. Pieken die buiten het betrouwbaarheidsinterval vallen, worden als dagen van verhoogde of verlaagde sociale spanning gezien. Tot nu toe zijn alleen maar dagen met verhoogde sociale spanning waargenomen.

Sentimentfilter en -indicator

Aan de hand van de inhoud van het bericht wordt aan alle berichten een sentiment (positief, neutraal, negatief) toegekend. Als standaard optie is er voor gekozen om de sociale spanningen indicatoren te berekenen op basis van berichten, die als positief of als negatief geclassificeerd zijn én aan het woordenfilter voor sociale spanning voldoen. Deze keuze is gemaakt omdat bij gebeurtenissen, die veel sociale spanningen opleveren, de indicatoren vaak zowel in het positieve als in het negatieve sentiment toenemen. Het is ook mogelijk om in het dashboard uitsluitend de indicatoren voor negatieve berichten of juist voor alle berichten te laten zien. Positief sentiment kan niet gekozen worden omdat het relatief lage aantal positieve berichten zorgt voor een instabiele indicator.

Emotie-indicatoren

Voor het samenstellen van de emotie-indicatoren zijn losse woordenlijsten gebruikt. Dit is gebeurd voor elk van de zogenaamde basisemoties (angst, blijdschap, verdriet, walging en woede). De zesde basisemotie ‘verrassing’ is ook onderzocht, maar dit leverde geen bruikbare indicator op. Voor de emotie ‘blijheid’ zijn berichten gefilterd, die duiden op gelukwensen bij feestdagen (zoals ‘Gelukkig Nieuwjaar’). De woordenlijsten voor emoties zijn samengesteld met behulp van WordNet (zie bijlage). Deze tool geeft woorden weer die aan elkaar gerelateerd zijn. De emotie-gerelateerde woorden die hiermee gevonden werden, zijn vertaald naar het Nederlands en vervolgens gefilterd op aanwezigheid in de Nederlandstalige sociale media berichten.

Sentimentindicator

Er is ook een sentimentindicator zichtbaar in het dashboard. Deze indicator is gebaseerd op het verschil tussen het totale aantal positieve en negatieve berichten van de sociale spanningen indicator. Hierdoor ontstaat een lijn die de verhouding laat zien tussen deze berichten met deze twee soorten sentiment. De berekening van de sentimentindicator verschilt hierdoor ten opzichte van de andere indicatorlijnen, die immers gebaseerd zijn op een subset van berichten ten opzichte van het totaal aantal berichten.

Woordenwolk en rangschikking

Het is mogelijk om per dag een woordenwolk en rangschikking op te vragen. De rangschikking geeft de sociale spanning op de geselecteerde dag weer ten opzichte van eerdere dagen van verhoogde spanning. Deze berekening wordt alleen uitgevoerd voor dagen waarop een sociale spanningspiek optreedt; met andere woorden wanneer de spanningsscore boven het betrouwbaarheidsinterval uitkomt.

De woordenwolk laat de 20 meest gebruikte woorden uit de geselecteerde berichten van die dag zien, en kan voor iedere dag gemaakt worden. De woordenwolk is vooral informatief voor dagen waarin een sterke toename in sociale spanningen is te zien. Aangezien de verzamelde woorden in de woordenwolk niet dagelijks gemonitord worden, is het mogelijk dat er op een gegeven moment woorden te zien zijn, die het CBS normaal in de eigen berichtgeving niet zou gebruiken.