De casus van grote taalmodellen bij het CBS
Grote taalmodellen (LLM’s), zoals GPT-5 van OpenAI en BERT van Google, hebben het vakgebied van Natural Language Processing (NLP) ingrijpend veranderd. Deze modellen, die in staat zijn om tekst te genereren, te vertalen, samen te vatten en vragen te beantwoorden op basis van ‘prompts’, hebben grote belangstelling gewekt in uiteenlopende sectoren, waaronder overheid en bedrijfsleven. Net als veel andere organisaties heeft ook het Centraal Bureau voor de Statistiek (CBS) de mogelijkheden van LLM’s verkend. Het doel van dit rapport is te beschrijven hoe wij zijn omgegaan met innovatie en het tempo van verandering rondom LLM’s. Er is onderzoek gedaan om te beoordelen of LLM’s slechts een hype zijn of daadwerkelijk nuttig kunnen zijn voor verantwoord gebruik binnen het CBS. Dit rapport schetst de bevindingen. Het onderzoek kende vier doelstellingen. De eerste doelstelling was om de algoritmen achter LLM’s (hoogover) te begrijpen. De tweede doelstelling was het classificeren van verschillende gebruikstypen van LLM’s binnen het CBS, inclusief het identificeren van de complexiteiten en risico’s die bij elk type gebruik horen. Een gebruikstype kan worden gedefinieerd als een cluster van toepassingen met vergelijkbare eigenschappen. De op te leveren producten waren trainingsmateriaal en (generieke) richtlijnen voor verantwoord gebruik van LLM’s. Deze dienden één hoofddoel: het vergroten van de acceptatie van kunstmatige intelligentie (AI) binnen een organisatie die vertrouwd is met traditionele statistische methoden maar nieuw is op het gebied van AI/LLM’s. De derde doelstelling betrof de haalbaarheid toetsen van het implementeren van LLM’s op de interne IT-infrastructuur van het CBS. De studie richtte zich uitsluitend op open-source-LLM’s die veilig intern gebruikt kunnen worden, in lijn met overheidsaanbevelingen. Voor gebruikstypen waarvan een brede impact binnen het CBS werd verwacht, zijn pilotdemonstraties ontwikkeld. De vierde en laatste doelstelling was het in kaart brengen van bestaande LLM-projecten binnen het CBS en het voorstellen van nieuwe projecten om de operationele efficiëntie te verbeteren. De opgeleverde producten waren praktische demonstraties, gericht op het opdoen van hands-on ervaring.
Wij concluderen dat de toepassing van LLM’s potentieel heeft om de efficiëntie en effectiviteit van de statistische processen en werkzaamheden van het CBS te vergroten. Door de onderliggende technologieën te begrijpen, praktische toepassingsmogelijkheden te identificeren en te werken volgens richtlijnen voor verantwoorde AI, kan het CBS op een veilige manier experimenteren met LLM’s om zijn dienstverlening te verbeteren en tegelijk de bijbehorende risico’s te beperken.
Naar de toekomst toe is het advies vooral te investeren in kennisdeling, gerichte training (of werving) van personeel, strategische positionering van het CBS binnen het domein van generatieve AI, en bovenal het opdoen van praktische ervaring met LLM’s. Wat concrete projecten betreft, wordt geadviseerd een chat- en code-assistent uit te rollen voor alle medewerkers van het CBS, met name voor standaard bedrijfsprocessen. Daarnaast wordt aanbevolen om (verder) onderzoek te doen naar meer gespecialiseerde toepassingen van LLM’s.
Ponsen, M., M. Puts, V. Toepoel (2025). How to cope with innovation and the pace of change: The case of Large Language Models at Statistics Netherlands. Discussion paper, Statistics Netherlands, The Hague/Heerlen.