CBS stelt unieke historische collectie beschikbaar

/ Auteur: Miriam van der Sangen
Wist u dat de historische collectie van de bibliotheek van CBS uit zo’n vijf miljoen handgeschreven en gedrukte pagina’s van historische statistische documenten bestaat? Al geruime tijd is de bibliotheek bezig met het digitaal toegankelijk maken van deze unieke collectie. Via een speciale site heeft iedereen er online toegang toe.

Stapsgewijze digitalisering

De historische collectie van de bibliotheek van CBS bestaat uit zo’n vijf miljoen handgeschreven en gedrukte pagina’s met statistische tabellen en bijbehorende toelichtingen. Al deze documenten worden stapsgewijs gedigitaliseerd en beschikbaar gesteld via www.cbs.nl/historisch. ‘Dat is een meerjarenproject’, vertelt coördinator Margriet van Stiphout. ‘We zijn in 1996 begonnen met de digitalisering van de volkstellingen. Daarna volgden tellingen over bedrijven, beroepen en woningen. De website bevat boeken en tijdschriften over verschillende onderwerpen. Het begon met de internationale handel, de bevolking, het statistisch jaarboek en de Engelse variant daarvan.’

Schat aan informatie

Inmiddels zijn er nieuwe series bijgekomen. Zo zijn de statistieken over veiligheid en recht vanaf 1950 toegevoegd. Die bevatten informatie over branden, gevangenissen, politie en criminaliteit. Ook de milieustatistieken zijn nu beschikbaar, net als documenten met gegevens over de militaire keuringen vanaf het begin van de 19e eeuw. Ze bevatten een schat aan informatie. ‘De reden waarom CBS de collectie wil digitaliseren is drieledig. Allereerst is het een manier om de collectie te conserveren. Ten tweede kan op deze manier de collectie toegankelijk worden gemaakt voor wetenschappelijk onderzoek en het grote publiek. De derde reden voor digitalisering is dat de Europese statistische bureaus er naar streven hun informatie onderling eenvoudiger uitwisselbaar te maken’, aldus Van Stiphout. 

Verbeterde zoekmogelijkheden

Wat is nu het moeilijkste deel van zo’n groot project? ‘Het digitaliseringsproces gaat weliswaar steeds sneller en de techniek wordt steeds beter, maar het resultaat is erg afhankelijk van de kwaliteit van de originele documenten. Denk daarbij bijvoorbeeld aan de scherpte, kleur, volgorde en volledigheid van de documenten’, legt Van Stiphout uit. Ze vertelt dat de scans die door een digitaliseringsbedrijf worden gemaakt een steekproefsgewijze controle ondergaan. ‘Als dat gebeurd is, bewerkt het bedrijf de bestanden met OCR-software (optische tekenherkenning, red.). Dat maakt de publicatie full tekst doorzoekbaar. Het grootste voordeel zijn de sterk verbeterde zoek- en presentatiemogelijkheden. Zo zijn er filteropties toegevoegd waardoor je de zoekresultaten kunt verfijnen.’