Transport over wegennet afleiden uit sensordata zonder steekproefontwerp

© Hollandse Hoogte / Peter Hilz

Inleiding

Big data heeft de laatste jaren steeds meer aandacht gekregen in verschillende disciplines. In de officiële statistiek heeft big data de potentie om statistieken goedkoper, sneller en gedetailleerder te genereren. In tegenstelling tot het traditionele steekproefonderzoek ontbreekt het bij big data echter meestal aan een steekproefontwerp. Het mechanisme waarmee de data gegenereerd zijn, is onbekend. Niet elk element in de populatie heeft een bekende en positieve kans om waargenomen te worden. Daardoor kan er niet voor selectiviteit gecorrigeerd worden, daar waar dat met ontwerpgebaseerde schattingsmethoden uit de steekproeftheorie wel kan. Om big data te kunnen gebruiken voor populatieschattingen in officiële statistieken, is nieuwe methodologie nodig.

In de hier onderzochte toepassing heeft het CBS getracht het transportnetwerk af te leiden van wegsensoren. Niet elk wegvak in het wegennet heeft een sensor en de wegvakken met sensor zijn niet aselect getrokken. Om het transportnetwerk te kunnen afleiden uit de wegsensordata modelleren we de kans op waarneming van een vrachtwagen als functie van de kenmerken van het wegvak. Het model wordt vervolgens gebruikt om het aantal vrachtwagens te schatten op wegvakken zonder sensoren. De gepresenteerde resultaten zijn voorlopig en een eerste illustratie van het idee.

Gegevens

De beoogde statistiek betreft het transport over het Nederlandse wegennet, op basis van sensordata zonder steekproefontwerp. Het wegennet is geconstrueerd door het webscrapen van knooppunten (de knopen in het netwerk) en hun verbindende rijkswegen (de kanten in het netwerk). www.wegenwiki.nl is hierbij als bron gebruikt. Zes knoopeigenschappen zijn berekend: verbindingsgraad (het aantal inkomende en uitgaande wegen), verbindingssterkte (het totale gewicht van de inkomende en uitgaande wegen), tussengraad (het aantal kortste paden dat passeert), nabijheid (inverse van de gemiddelde lengte van de kortste paden naar alle andere knooppunten), kwetsbaarheid (verlies van efficiëntie als het knooppunt wordt verwijderd) en clustercoëfficiënt (mate waarin aangrenzende knooppunten onderling ook verbonden zijn), waarbij de inverse grootcirkelafstand tussen de knopen als kantgewicht is gebruikt. Omdat Nederland geen eiland is maar een doorvoerland, is het wegennet voor realistischere knoopeigenschappen uitgebreid met België en de Noordwest-Duitse deelstaten Noordrijn-Westfalen, Nedersaksen en Bremen.

Installatie sensorsysteem

Om overbelaste vrachtwagens in het Nederlandse wegennet op te sporen, heeft het Ministerie van Infrastructuur in Nederland een Weigh-in-Motion sensorsysteem geïnstalleerd. Het systeem bestaat uit 18 sensoren: negen locaties met een sensor in beide richtingen. Elk van de 18 sensoren is met behulp van zijn geolocatie toegewezen aan een verbindinsgweg. Wanneer een vrachtwagen een sensor passeert, wordt deze gewogen, geclassificeerd en wordt er een foto genomen van de kentekenplaat aan de voorzijde. Met behulp van de kentekenplaat als uniek identificatiemiddel is het mogelijk om informatie over de vrachtwagen en de eigenaar uit het kentekenregister en bedrijvenregister te koppelen. Van de 36 miljoen vrachtwagens die in 2015 werden gedetecteerd, konden er 15 miljoen worden gekoppeld. Omdat een deel van de vrachtwagens meerdere keren per dag een station passeert, resteren na ontdubbeling 14 miljoen unieke vrachtwagens. In eerste instantie heeft het CBS de dataset beperkt tot één week om de tijdsafhankelijkheid voorlopig te kunnen negeren. Om de massa te vergroten en te profiteren van de temporele afhankelijkheid tussen aangrenzende dagen, zullen andere weken later worden toegevoegd.

Figuur 1 toont het netwerk van knooppunten en verbindingswegen met en zonder sensor. Het Nederlandse deel bestaat uit 108 knooppunten en 284 verbindingswegen.

Het transportnetwerk in geografische lay-out 

Figuur 1 Het transportnetwerk in geografische lay-out.

Methoden

De kans dat een vrachtwagen op een bepaalde dag op een rijksweg van het Nederlandse wegennet rijdt, wordt gemodelleerd met een logistisch regressiemodel. De kans wordt in dit eerste model geschat aan de hand van kenmerken van de herkomstknoop, bestemmingsknoop en kant. Zoals eerder gememoreerd zijn de knoopkenmerken verbindingsgraad, verbindingssterkte, tussengraad, nabijheid, kwetsbaarheid en clustercoëfficiënt. Het kantkenmerk is de inverse grootcirkelafstand (km−1). De coëfficiënten worden geschat met behulp van de sensorwaarnemingen. Het geschatte model wordt vervolgens gebruikt om de detectiekans te schatten voor alle kanten van het netwerk zonder sensoren. De geschatte kansen worden tot slot vermenigvuldigd met het aantal vrachtwagens in de populatie volgens het kentekenregister.

Voorlopige resultaten

Figuur 2 toont het geschatte aantal vrachtwagens dat op een bepaalde dag over het Nederlandse wegennet rijdt. In het netwerk van geschatte vrachtwagenintensiteit zien we een aantal routes naar buurlanden Duitsland en België, terwijl het vrachtverkeer in delen van het centrum en het noorden minder intensief lijkt te zijn. Oost-west en oost-zuid transport is te verwachten omdat de bestudeerde populatie voor een groot deel bestaat uit zware vrachtwagens, die vaak routes nemen vanuit Rotterdam naar de rest van Europa. De relatie tussen de voorspelde en werkelijke aantallen is volgens Pearson correlatiecoëfficiënt zeer sterk (r = 0,97). Kruisvalidatie toont echter aan dat het voorspelmodel weliswaar goed fit, maar dat het nog niet goed generaliseert naar wegen zonder sensor. Potentiële verbeteringen worden in de volgende paragraaf besproken.

Modelmatig geschatte vrachtwagenintensiteit op het Nederlandse wegennet 

Figuur 2 Modelmatig geschatte vrachtwagenintensiteit op het Nederlandse wegennet. De dikte van de verbindingswegen komt overeen met het geschatte aantal vrachtwagens.

Conclusies en verder onderzoek

Het CBS heeft bij dit project een methode gehanteerd waarmee het mogelijk zou zijn om big data te gebruiken in de officiële statistiek. Met behulp van deze methode zou de verkeersintensiteit in het netwerk modelmatig geschat kunnen worden op basis van sensoren zonder steekproefontwerp. Een belangrijke aanname is dat de ontbrekende data verklaard kunnen worden door netwerkeigenschappen van herkomstknoop, bestemmingsknoop en kant.

De voorgestelde methodologie kan op verschillende manieren worden uitgebreid. Ten eerste kan de set wegkenmerken worden uitgebreid met data over verkeersintensiteiten van een uitgebreider wegsensorensysteem. Dit systeem bestaat uit 24 duizend sensoren, maar zonder camera’s om vrachtwagens te identificeren. De data laten vergelijkbare tijdreeksen zien, wat de algemene verkeersintensiteit tot een interessante potentiële voorspeller maakt voor het rijgedrag van vrachtwagens. Ten tweede kunnen de modellen worden uitgebreid met registerkenmerken van vrachtwagens en eigenaren. De camera’s van het systeem maken koppeling van deze extra kenmerken mogelijk. Ten derde kan de dataset worden uitgebreid met de volledige tijdreeks. Op deze manier kunnen coëfficiënten preciezer worden geschat en kan gebruik worden gemaakt van temporele afhankelijkheid tussen dagen. Deze uitbreidingen zullen naar verwachting de generalisatiefout sterk verkleinen. Ten vierde overweegt het CBS het gebruik van een open Jackson-netwerk zodat beter rekening kan worden gehouden met de ruimtelijke afhankelijkheid tussen verbindingswegen. Tot slot zouden de kenmerken ook gebruikt kunnen worden om modellen te ontwikkelen voor getransporteerd gewicht.

Feedback

Je browser wordt niet ondersteund. Upgrade je browser. Je hebt een inconsistente user-agent geleverd bij het oplossen van de uitdaging. Mogelijk heb je browserextensies of -instellingen ingeschakeld om de user-agent te vervalsen en moet je deze uitschakelen om door te gaan. Een deel van Turnstile is per ongeluk in de cache opgeslagen. Wis gelieve je cache. De tijd op de klok klopt niet. Zet je klok op de juiste tijd. Een ongespecificeerde fout heeft zich voorgedaan.