Verbeteren unitimputatie methoden voor bedrijfsstatistieken

  • Den Haag
  • HBO / WO
  • Stage overeenkomst
  • 635
Stage met veel data die direct bijdraagt aan een procesvernieuwing.
Solliciteren

Jouw uitdaging

Een van de problemen die moeten worden opgelost bij het maken van statistieken is dat de data van sommige bedrijven voor een statistiek (geheel) ontbreekt. Het invullen van nieuwe, voorspelde waarden in plaats van deze ontbrekende waarden wordt wel imputatie genoemd. Als enkele waardes ontbreken spreken we van itemimputatie. In deze stage richten we ons op unitimputatie, gevallen waarin alle data van een bedrijf in een bepaald jaar mist.

Het bijschatten van de ontbrekende data vindt plaats in twee stappen: eerst worden de waardes van de variabelen (zoals totale omzet, inkoopkosten, personeelskosten) bijgeschat, en daarna wordt de data aangepast zodanig dat het voldoet aan een set regels. Je kunt bijvoorbeeld denken aan de optelregel “winst = omzet – kosten” waaraan voldaan moet worden of een regel die aangeeft dat een variabele geen negatieve waarde mag bevatten. 

Traditioneel zijn imputaties vaak gebaseerd op relatief eenvoudige regressiemodellen. Voor unitimputatie wordt bijvoorbeeld data uit het voorgaande jaar gebruikt als hulpinformatie. Eén van de doelen van EBN2.x is het in samenhang opschonen van verschillende data bronnen, zodat al vroeg in het proces meer consistentie tussen bronnen ontstaat. Daarom willen we in deze stage uitwerken hoe data uit andere bronnen gebruikt kan worden om consistent bij te schatten. Dat kan bijvoorbeeld door eerst een aantal variabelen over te nemen uit andere bronnen en vervolgens de overige variabelen op de huidige manier te imputeren. Een andere optie is om vast te houden aan de huidige imputatiemethoden, maar de consistentie regels uit te breiden met variabelen uit andere bronnen.

Bij het uitbreiden van de unitimputatie van de bedrijfsstatistieken doen zich een aantal complicaties voor waar rekening mee gehouden moet worden:

  • Economische variabelen, zoals omzet of werkzame personen, zijn doorgaans niet normaal verdeeld. Vooral aan de bovenkant van de verdeling komen extreme waarden voor.
  • Bij detailvragen, zoals specificatie van de omzet naar soort product, komen daarnaast onevenredig veel nullen voor.
  • Bovengenoemde optelrelaties en andere randvoorwaarden

De unit-imputaties in deze stage zijn voor financieel-economische jaarcijfers waarbij cijfers uit werkgelegenheid en lonen, korte termijn omzetstatistieken en financiën van ondernemingen als hulpinformatie beschikbaar zijn. 

Tijdens deze stage kan gebruik gemaakt worden van het R package simputation (Van der Loo, 2021), dat onder andere functies voor imputatie van een gemiddelde, ratio imputatie, imputatie met data van gelijksoortige bedrijven en imputatie middels een random forest model bevat. De uitkomsten van verschillende unitimputatie methodes kunnen vervolgens vergeleken worden. De methode van Marije Sluiskes (2021) om de kwaliteit van imputaties te vergelijken kan hierbij als startpunt genomen worden.

Literatuur

  • M. van der Loo (2021). simputation: Simple Imputation. R package version 0.2.5. https://CRAN.R-project.org/package=simputation
  • M. Sluiskes (2021), Imputation of business survey data: A systematic comparison between ratio and random forest-based imputation methods. Master thesis, Statistical Science for the Life and Behavioural Sciences, Leiden University.

Zo ziet je team eruit

Locatie

We hebben 2 locaties, Heerlen en Den Haag.

Medewerkers

Bij het CBS werken ruim 2000 mensen.

Meetings

Wegens Corona zullen de meeste meetings online gaan via Zoom.

Samenwerken

Je gaat samenwerken met je stagebegeleider en collega’s van de afdeling.

De stage vindt plaats bij het CBS in Den Haag. De stagiair(e) wordt begeleid vanuit de afdeling Bedrijfsstatistieken, met ondersteuning vanuit het vernieuwingsprogramma EBN2.x en vanuit methodologie. De lengte van de stage kan in overleg worden bepaald.

Het CBS volgt de richtlijnen van de Rijksoverheid omtrent COVID-19. Dit houdt in dat we momenteel in principe thuiswerken en alleen daar waar het niet anders kan naar het CBS gaan.

Wie jij bent

  • De stagiair(e) volgt een hbo- of wo-opleiding met een grote component wiskunde en/of statistiek / data science. Kennis van statistische modellen is een pré. 
  • De stagiair(e) heeft goede programmeervaardigheden, specifiek in R.

Wat hebben we je te bieden

Bij een stageduur van meer dan één maand heb je als stagiair recht op een stagevergoeding van €652,- bruto per maand. Deze vergoeding is gebaseerd op een 40-urige werkweek.
 

600 nieuwsberichten per jaar

Het CBS voedt de maatschappelijke discussie dagelijks met actuele cijfers

4858 datatabellen beschikbaar

Statline is de databank van het CBS en biedt een schat aan cijfers over de Nederlandse economie en samenleving.

75.000 Mediavermeldingen per jaar

Het CBS bereikt met haar cijfers steeds meer mensen via televisie, de dagbladen en online media.

6,6 miljoen gebruikers op cbs.nl

Al onze publicaties zijn 24/7 beschikbaar via onze site.

Hoe gaat het solliciteren nu in deze tijd?

Meer weten? Neem contact op met Guus van de Burgt 06-52475687 voor meer informatie.

Stel je vragen aan

Voor de recruitmentbureaus: mocht je ons willen bellen voor een mogelijke samenwerking: wij stellen de interesse op prijs, maar vullen al onze (tijdelijke) vacatures zelf in.