Nieuwsbrief
30 november 2007
Alle boeken thuis voor bijna niks: pennywise but poundfoolish
Hieronder de uitgebreide tekst van een opiniestuk dat een dezer dagen (wsl. maandag a.s.) in NRC Handelsblad zal verschijnen. In dit stuk reageren Cees Klapwijk en René van Stipriaan op berichtgeving over de plannen van de KB om door middel van kapot snijden, scannen en automatische tekstherkenning de hele Nederlandse boekproductie uit de periode 1800-1950 te digitaliseren. Ewoud Sanders toonde zich in NRC Handelsblad van 27 november j.l. enthousiast over deze plannen en zette dit initiatief af tegen de aanpak van de Digitale Bibliotheek voor de Nederlandse Letteren, die in de ogen van Sanders te duur en te langzaam werkt. Voor de niet NRC Handelsblad-lezer is het stuk van Sanders alsnog op de site van deze krant te bekijken.
Alle boeken thuis voor bijna niks: pennywise but poundfoolish
Cees Klapwijk & René van Stipriaan
Eindelijk iemand die het durft op te nemen tegen Google, was onze eerste gedachte. Het werd tijd. Al jaren laat het rijke en van oudsher goed georganiseerde West-Europa zich cultureel koloniseren door de handige zakenlieden van Google. Met projecten als Google Books en Google Library maken ze alle drukwerk dat ze maar te pakken kunnen krijgen tot vehikel voor advertenties en diensten die uiteindelijk maar één doel hebben: consumenten afhankelijk maken en daar geld aan verdienen. Google moet daar vooral mee doorgaan, maar we moeten niet gaan denken dat dit het best haalbare is. Het is de hoogste tijd dat de bibliotheekwereld, de wetenschap en politiek zich bezinnen op de vraag hoe een goede, voor wetenschap, onderwijs en burgers optimaal bruikbare digitale bibliotheek eruit moet zien.
De wereld gonst al jaren van de initiatieven, het plan van Hans Jansen, directeur Research & Development van de Koninklijke Bibliotheek is slechts een van de vele. Het afgelopen decennium is er ook al voor tientallen miljoenen geïnvesteerd in digitalisering van kranten, pamfletten, kamerstukken, prenten, liedbladen en wat niet al. Toch blijft het gevoel heersen dat het niet genoeg is. Bovendien kan het geïnteresseerde publiek geen andere indruk krijgen dan dat de wereld van het gedigitaliseerde erfgoed een erg ondoorzichtig gebeuren is. Er is geen coördinatie, er zijn geen standaards, er wordt nauwelijks geprioriteerd, de kwaliteit is zeer wisselend, en vooral: het is niet genoeg. Al weet niemand precies wat er wel en wat er niet is.
Het plan van Jansen houdt de belofte in dat al dit onbehagen in één keer kan worden weggenomen: 500 000 boeken uit de periode 1800-1950 digitaal beschikbaar via internet voor het luttele bedrag van 6 miljoen euro, ongeveer een halve jaarbegroting van een bescheiden universiteitsbibliotheek. Het is te mooi om waar te zijn. Toch krijgt zijn plan, los van de te verwachten schrikreacties, opvallende bijval. Verschillende vooraanstaande bibliothecarissen gaven te kennen wel iets in het plan te zien en afgelopen dinsdag gaf Ewoud Sanders in NRC Handelsblad (27 november 2007) nog te kennen het van harte te omhelzen. Sanders moedigt de Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) aan, om maar heel snel dit voorbeeld te volgen.
Sinds 2000 wordt door de DBNL gewerkt aan de digitalisering en ontsluiting van bronnen op het terrein van de Nederlandse taal en literatuur. Ze worden gepresenteerd in een overzichtelijke website, waarop ook biografieën, fotomateriaal, en secundaire literatuur te vinden zijn. Bij elkaar bevat de site meer dan 700 000 gedigitaliseerde boekpagina's, en daar komen er op dit ogenblik per maand ca. 25 000 bij, een aantal dat de komende maanden nog verder omhoog zal gaan. Sanders probeert het gelijk van de vismarkt te halen door het voor te stellen dat die 700 000 pagina's wel 2 miljoen euro hebben gekost. Zelf kan hij dat een stuk voortvarender. In anderhalf jaar tijd heeft ‘tussen het werk door’ 1,5 miljoen pagina's gescand. Hoe goed die pagina's zijn vertelt hij er niet bij. Dat hij het werk grotendeels door ‘twee jonge jongens’ laat uitvoeren, zoals hij in De Boekenwereld (2006/3) onthulde, ook niet.
Sanders laat buiten beschouwing dat de DBNL, op aanwijzing van wetenschappelijke adviseurs, de meest uiteenlopende teksttypen aanpakt. Ze worden verwerkt tot gestandaardiseerde xml-documenten, die bijna foutloze transcripties bevatten, en die ook op een gestandaardiseerde manier zijn ontsloten. Die standaardisatie garandeert dat de teksten tot in lengte van jaren voor allerlei doeleinden bruikbaar blijven. Bovendien staat de DBNL in contact met auteurs en uitgevers om toestemmingen te regelen, en daarnaast verleent ze allerlei diensten aan de wetenschap en het algemene publiek. De site wordt intensief gebruikt: dagelijks door meer dan 15 000 bezoekers, die tezamen meer dan 100 000 documenten raadplegen. En dat voor een jaarlijks bedrag dat kleiner is dan de jaarbegroting van een gemiddelde openbare dorpsbibliotheek.
Het optimisme van Jansen en Sanders is gebaseerd op de resultaten die met volautomatisch scannen en OCR (tekstherkenning) inmiddels bereikt kunnen worden: nog geen twee fouten op 10 000 aanslagen. Deze verwachting stoelt op beweringen van OCR-softwarefabrikanten. Iedereen die wel eens met dat type programmatuur werkt, weet wel beter. In het eerder genoemde artikel in De Boekenwereld gaf Sanders een wat reëler beeld van de beloftes van deze fabrikanten: 98% accuraat geldt voor hen als nog heel aanvaardbaar. En ook dat wordt vaak niet gehaald. Wat betekent die twee procent? Een regel in een roman beloopt meestal ca. 10 woorden, en ongeveer 65 aanslagen. Op één regel staat gemiddeld dus ten minste één fout: minstens één woord op de tien is niet goed gelezen. Die 2% verandert opeens al in meer dan 10%, we zoeken immers niet op letters maar op woorden.
Om te zien wat lichtgelovigheid in de prestaties van tekstherkenning teweeg kan brengen, is een kwartiertje googelen in Google Library heel instructief. Tik het sinds 2000 in omloop zijnde acroniem DBNL in en je krijgt maar liefst 375 treffers. Bij nader inzien blijkt nog geen 10% van de gepresenteerde citaten echt over de DBNL te gaan; de rest is een vrolijke reeks leesfouten tot ver in de achttiende eeuw aan toe (‘Sif*fínt mob! dnf dbnl?f”, aldus een anonymus in 1792).
Goed digitaliseren en ontsluiten is moeilijker en arbeidsintensiever dan Jansen en Sanders doen voorkomen. Boeken blijken in de digitaliseringspraktijk heel grillige objecten, die specifieke redactionele aandacht vragen. Het zo goed als blind op een scanner gooien van stapels losgesneden papier zal zeer wisselende resultaten te zien geven. Soms heel aardig, maar veel vaker erg belabberd. Wat kunnen we met zo'n databank vol onbetrouwbare data? Hoogstens sparen de scans je een gang naar de bibliotheek uit. Maar voor bijvoorbeeld wetenschappelijk onderzoek zijn deze bestanden zo goed als ongeschikt. Als we in het beste geval al moeten accepteren dat één op de tien woorden verkeerd gelezen is, dan kun je er geen enkele analyse meer op baseren.
Internet kun je vergelijken met een waterleidingssysteem - onze pc is een kraan op een oceaan aan informatie. Binnen deze metafoor is een digitale bibliotheek een waterleidingbedrijf. Als het goed is zorgt dit bedrijf voor een krachtige stroom betrouwbare data bij de eindgebruiker. Maar de straal die door ocr-projecten wordt geleverd is vuil, net goed genoeg om je tuin mee te sproeien of je auto mee te wassen, maar voor consumptie en tanden poetsen ongeschikt. Het probleem wordt verlegd naar de gebruiker. Die mag als het ware elk moment dat hij een slok wil nemen, het water eerst gaan koken. De houding die nu lijkt te ontstaan is: maar hier zullen we het mee moeten doen.
Binnen het project DBNL is vanaf het begin veel geëxperimenteerd met tekstherkenningsprogramma's, en de bedrijven waar mee wordt samengewerkt maken er ook volop gebruik van - overtikken gebeurt nog maar zelden. Maar het ocr-resultaat wordt gecontroleerd en opgewerkt naar de hoogst denkbare normen. We zeggen niet dat er nooit een fout in zit. Maar als het goed is word je er niet ziek van.
De gedachte zou kunnen ontstaan dat de behoefte aan digitale teksten met het vrijmaken van een paar miljoen euro, in één keer gestild kan worden. Het digitaliseren van een boek zou niet meer dan ca. 10 à 12 euro hoeven kosten. Geloof er maar niets van. We voorspellen dat het vinden van de overtollige exemplaren, het vergaderen over de prioriteiten, het regelen van de rechten, het tobben over het al dan niet versnijden van een boek dat in een antiquariaat meer dan 100 euro waard is, al meer gaat kosten. Maar nog zwaarder drukken de kosten op de langere termijn: uiteindelijk zal veel werk opnieuw moeten gebeuren. En wie wil dat dan nog betalen, want er is toch al voor betaald? Dus zal het werk door duurbetaalde geesteswetenschappers en onderzoeksinstituten op projectbasis opnieuw gedaan worden.
Het is daarom zinniger te investeren in grootschalige en meteen hoogwaardige digitalisering van gedrukt materiaal. Die vorm van digitalisering komt neer op het behandelen van tekst als tekst en niet als een plaatje. Het presenteren van dergelijke teksten in een goed begaanbare en helder gestructureerde digitale bibliotheek is daarbij onontbeerlijk. De DBNL heeft daarmee een voortvarend begin gemaakt en behoort tot de best bezochte websites uit de culturele sector.
De DBNL is volop in ontwikkeling: zo is het moment nabij dat bij elke tekst ook afbeeldingen van de originele pagina worden aangeboden, als extra service. De kosten van deze steeds ruimer wordende dienstverlening dalen nog altijd, een unicum in de bibliotheekwereld. Het is ons ondertussen een raadsel waarom Sanders zijn pijlen richt op de DBNL, die toch een van de weinige geslaagde digitaliseringsprojecten mag heten. De afgelopen tien jaar zijn ettelijke miljoenen gestoken in projecten waar vaak weinig of niets meer over is vernomen. Daartegenover beloopt de begroting van de DBNL maar een fractie van wat het traditionele bibliotheeknetwerk kost. Daarmee is niets ten nadele van de traditionele bibliotheek gezegd; ze zullen altijd nodig blijven, ook om een bijdrage te leveren aan de digitalisering van het culturele erfgoed. De KB en de universiteitsbibliotheken zouden om te beginnen eens werk kunnen maken van het grootscheeps digitaliseren van hun handschriften en bijzondere collecties.
Verantwoorde digitalisering, met respect voor het boek én de tekst, zou het Nederlandse taalgebied internationaal in de voorhoede kunnen brengen. Binnen vijf jaar kan er een digitale bibliotheek staan waarbij het gooi- en smijtwerk van de scanprojecten van Google en KB pover af zal steken. Dat kost geen zes miljoen, ook geen honderd miljoen. Het kost uiteindelijk niets; sterker nog; het levert geld op. Het vele geld dat in de bibliotheekwereld nog altijd wordt gestoken in het onderhoud en van publieksdiensten die nu al minder gebruikt worden, valt namelijk vrij. Een vooruitziende beleidsmaker investeert in betrouwbare digitalisering en in een overzichtelijke bibliotheek voor de Nederlandse cultuurgeschiedenis. De kost gaat voor de baat uit.