Tuesday, August 08, 2006

KB gaat 8mln krantenpagina's scannen (NRC)

Gered van het krantenkerkhof
Bart Funnekotter
Koninklijke Bibliotheek gaat acht miljoen krantenpaginas scannen

De Koninklijke Bibliotheek gaat vier eeuwen kranten digitaliseren en gratis via internet openbaar maken. De grote krantenconcerns weten nog niet of ze hieraan willen meewerken.

Het Kaaspakhuis, zo noemen de medewerkers van de Koninklijke Bibliotheek (KB) in Den Haag het gedeelte van het ondergrondse magazijn waar de kranten liggen opgeslagen die van ouderdom uit elkaar vallen. In grote zuurvrije dozen liggen ze opgestapeld op honderden meters stellingkasten, als kazen die liggen te rijpen. Het Krantenkerkhof zou ook een goede naam zijn voor dit deel van de opslag. De Locomotief, De Volkseenheid, De Java-Bode, De Tribune, De Nieuwe Courant - het zijn allemaal titels die reeds lang het leven hebben gelaten.

Wie deze oude kranten wil raadplegen moet nu nog uren doorbrengen met het doorbladeren van muffige mappen, maar daar komt verandering in. De bibliotheek krijgt van het door het kabinet opgezette Innovatieplatform 12,5 miljoen euro om een fors deel van haar collectie in te scannen en via het internet openbaar te maken, zodat onderzoekers ze eenvoudig kunnen doorzoeken. Het gaat om een selectie van de kranten die tussen 1618 en 1995 zijn verschenen. Vanaf 2008 moeten de eerste titels online beschikbaar komen. Over vijf jaar moet de klus klaar zijn.

Hans Jansen, directeur Research & Development van de KB, leidt het project. Rond 1 oktober beginnen de werkzaamheden . Helaas kunnen we niet al onze kranten scannen. Daarvoor is er te weinig geld. We hebben zeven kilometer kranten staan, waarvan ongeveer 15 procent kan worden gedigitaliseerd. Dan hebben we het over acht miljoen paginas, zon dertig miljard woorden.

Op de site van de KB zijn nu al 350.000 paginas van kranten uit de periode 1910-1945 te doorzoeken, maar het nieuwe project vraagt om een andere aanpak dan die in het verleden, zegt Jansen. We moeten nu een beredeneerde selectie gaan maken: welke kranten we wél en welke kranten we niét aan de vergetelheid gaan ontrukken.

In de afgelopen vier eeuwen zijn in Nederland ongeveer zevenduizend krantentitels verschenen. Zon 270 daarvan waren landelijke dagbladen. Die wil Jansen in ieder geval allemaal digitaliseren. Uit de overige titels, regionaal en koloniaal, wordt een keuze gemaakt. Daarbij zullen we het advies inwinnen van de wetenschappers die veel van dit soort bronnen gebruik maken. Welke kranten zouden zij het liefst willen doorzoeken?

De KB blijft de kranten die zijn ingescand ook fysiek bewaren, zegt Jansen. Maar feit is dat met het verstrijken van de tijd steeds meer papier tot stof zal vergaan. Daarom is dit zon belangrijke operatie.

De grootste uitdaging van het project is niet het verzamelen en scannen van al die titels, ook al is dat een monnikenwerk. Jansen: Het is belangrijk dat de gedigitaliseerde tekst goed doorzoekbaar is. Als je een zoekterm invult, moet die relevante resultaten opleveren. Dat betekent dat aan sommige delen van de krant, zoals artikelen op de voorpagina en koppen, meer waarde moet worden toegekend dan aan andere delen. Maar wat doe je met de oude kranten waarin helemaal geen koppen boven de stukken staan?

Het krantenscanproject van de KB is het grootste ter wereld, dus zal in Nederland gedeeltelijk het wiel moeten worden uitgevonden. We kunnen natuurlijk de software gebruiken die Google gebruikt bij het inscannen van de boeken voor Google Library, maar een krant is toch wat anders dan een boek. Aan de universiteiten van Tilburg en Nijmegen wordt nu gewerkt aan de ontwikkeling van text mining software die wij misschien gaan gebruiken.

Grote Nederlandse krantenconcerns als De Telegraaf en PCM, eigenaar van onder andere NRC Handelsbladen de Volkskrant , hebben het voornemen van de KB niet met onverdeeld enthousiasme begroet. De Telegraaf heeft haar oude jaargangen zelf al ingescand en wil daar geld mee verdienen. Ton Boerma, directeur van Uitgeversmaatschappij De Telegraaf vindt het natuurlijk een geweldig idee van de KB. Maar laat ze maar even met de oude, niet meer bestaande titels beginnen. Dan kunnen we rustig om de tafel gaan zitten om te praten over wie wat gaat doen met kranten die nog verschijnen.

Ook PCM beraadt zich nog op een standpunt, zegt een woordvoerder. In het verleden hebben we altijd met de KB meegewerkt, maar nu het gaat om al onze oude jaargangen, moeten we nog eens goed nadenken of we die niet zelf commercieel willen exploiteren.

Info: Bekijk de reeds gescande kranten op kranten.kb.nl
Foto-onderschrift: Voordat deze krant tot stof vergaat, komt hij onder de scanner. En dan op internet. Hans Jansen in Het Kaaspakhuis
Trefwoord: Kranten; Bibliotheken en archieven
Geografie: Nederland
Organisatie: Koninklijke Bibliotheek; PCM Uitgevers; De Telegraaf