Mededelingen van de Stichting Jacob Campo Weyerman. Jaargang 16
(1993)– [tijdschrift] Mededelingen van de Stichting Jacob Campo Weyerman– Auteursrechtelijk beschermd
[pagina 52]
| ||||||
Campo en de computer II
| ||||||
Van gedrukte tekst naar computerbeeldMet behulp van een scanner wordt een gedrukte pagina als beeld (reproductie) in het geheugen van de computer opgenomen. Het beeld bestaat dan uit een groot aantal beeldpunten (pixels), aangeduid met Cartesische coördinaten (x, y) waarbij aan elk beeldpunt een waarde voor de grijstint (zwarting) wordt toegekend. | ||||||
BeeldverwerkingOude geschriften en documenten kunnen om een groot aantal redenen slecht leesbaar zijn. Verkleurd papier, verbleekte inkt, tweezijdig bedrukt en doorschijnend papier, wisselende inktkwaliteit, rommelige randen aan de letters door de papierstructuur etc. Op het digitaal opgeslagen beeld in de computer kunnen rekenkundige bewerkingen worden uitgevoerd om de leesbaarheid te verbeteren. De grijswaarde van een pixel kan bijvoorbeeld worden herberekend aan de hand van haar oorspronkelijke grijswaarde en die van naburige punten. Afhankelijk van de gekozen mathematische bewerking (het gekozen filter) zullen contouren dan scherper kunnen worden. Ook kunnen bijvoorbeeld alle grijstinten beneden een gekozen grenswaarde omgezet worden in wit (0) en daarboven in zwart (1). We hebben dan een zogenaamd binair beeldGa naar eind2.. In het Archivo de Indias in Sevilla zijn van grote aantallen historisch belangrijke documenten onbewerkte beelden op beeldplaat opgeslagen. Bezoekers kunnen deze raadplegen, beeldverbetering toepassen en afdrukken maken. Het is hierbij niet mogelijk om dit soort ‘documenten’ op trefwoorden te doorzoekenGa naar eind3.. | ||||||
Van beeld naar ASCII codeDe omzetting van beeld-tekens naar de zogenaamde ascii code, welke de computer hanteert voor de opslag van leestekens, levert een enorme besparing in geheugenruimte en -wat belangrijker is- maakt het mogelijk de zoekfunctie van de tekstverwerkingsprogrammatuur te benutten. De software die dit mogelijk maakt wordt aangeduid met de term optical character recognition (ocr). | ||||||
[pagina 53]
| ||||||
Afb. 1: Kopie van p. 22 uit de Amsterdamsche Hermes van Jacob Campo Weyerman
Afb. 2: Resultaat van ocr-procedure toegepast op p. 22 uit de Amsterdamsche Hermes
| ||||||
[pagina 54]
| ||||||
Via onze vriend Rob Tempelaars werd het bestuur onlangs in de gelegenheid gesteld een demonstratie bij te wonen van de zeer geavanceerde leesmachine (een Kurzweil K5200) van het Elektronisch WNT op het Instituut voor Nederlandse Lexicologie te Leiden. Men werkt hier aan een computer-versie van het WNT. Vanaf 1982 zijn de gegevens direct in de computer ingevoerd. De delen verschenen voor 1982 worden met OCR in de computer ingevoerd. Een aantal van de problemen die zich daarbij voordoen, zal naar alle waarschijnlijkheid ook optreden bij de Weyerman-tekstenGa naar eind4.. De OCR-procedure start direct met een binair beeld dat door de scanner is opgenomen. Er wordt geen beeldverbetering toegepast. De procedure maakt gebruik van een referentieset aan tekens, waarmee de ingevoerde tekens worden vergeleken. Deze tekenset kan inter-actief worden aangevuld en gewijzigd (ook wel aangeduid als trainen van het systeem). Tekens die door het programma niet eenduidig herkend worden, verschijnen op het computer-scherm en kunnen eventueel als correct ingevoerd worden. De referentie-set raakt zo afgestemd op de gebruikte drukletter. | ||||||
Automatische correctieBij het interpreteren van de beeldtekens blijkt het programma een aantal fouten met grote regelmaat te maken. Feitelijk bezorgen deze fouten het minste last. Ze kunnen met een geautomatiseerde procedure worden opgeheven. Voorbeelden: ‘DI’ moet vrijwel altijd ‘Dl’ worden en ‘(11)’ moet ‘(II)’ worden. | ||||||
Handmatige correctieHet bestand ontstaan na automatische correctie is nog niet vrij van fouten. Een overigens eveneens computer ondersteunde eerste en tweede correctie blijft mensenwerk. Deze correcties nemen gezamenlijk nog 45 minuten per kolom WNT in beslag. | ||||||
Weyerman en OCRWat kan deze scan-methode betekenen voor het automatiseren van Weyerman-teksten? Deze vraag probeer ik te beantwoorden aan de hand van enkele concrete voorbeelden. Tijdens de demonstratie gaven we de Kurzweil enkele pagina's van Weyerman te ‘lezen’, een pagina uit een originele tekst, een redelijk duidelijke kopie en een vrij slechte kopie. Uit de Amsterdamsche Hermes gebruikten we een redelijk goede kopie van p. 22 (zie afb. 1). Ondanks de vrij slechte kwaliteit van het drukwerk c.q. de kopie is deze pagina toch prima te lezen. Het resultaat van OCR-procedure door de Kurzweil K5200 is te vinden als afb. 2. Het drukwerk op zich voldoet meer aan de twintigste-eeuwse maatstaven. Door de veelvuldige verkeerde interpretatie van tekens is het geheel echter volstrekt onleesbaar geworden. Voorbeelden van verkeerde interpretaties: r.1:
| ||||||
[pagina 55]
| ||||||
Afb. 3: Kopie van p. 106 uit De ontleeder der gebreeken van Jacob Campo Weyerman
Afb. 4: Resultaat van de OCR-procedure toegepast op p. 106 uit De ontleeder der gebreeken
| ||||||
[pagina 56]
| ||||||
Het resultaat bij de kopie van slechte kwaliteit was een nog groter aantal fouten per regel (zie afb. 3 & 4); het resultaat bij de originele bladzijde was een iets lager aantal fouten. Bij foutenanalyse zien we dat de Kurzweil een zware dobber heeft aan Weyerman. Dat komt door de vele typografische bijzonderheden in Weyerman-teksten en door de vaak slechte (kopie-)kwaliteit. Zo struikelt de machine over de oude ſ, die nu weer f, dan weer £ wordt. Dat zou in een trainingsset vooraf kunnen worden opgenomen, maar wat te denken van de vele malen dat een e anders gelezen wordt (als c, als o of als ~)? Of van de veelvuldige problemen met de m en de n (zie hierboven uitgewerkte eerste regel van AH, p. 22)? Het lijkt ondoenlijk om laatstgenoemde leesfouten te systematiseren en ze zo in een trainingsset vooraf te laten verbeteren. De machine raakt ook van streek als letters niet exact op één lijn staan en een beetje lijken te ‘dansen’: een regelmatig verschijnsel in oud drukwerk. Problematisch zijn verder de vele vormen van betekenisloze ‘vervuiling’ (vooral in gekopieerde teksten), verandering van lettertype (zeer algemeen bij WeyermanGa naar eind5.), bobbelend papier (bij origineel drukwerk), doorschijnend zetsel van de achterzijde (zie bijvoorbeeld het einde van de eerste alinea in het eerste voorbeeld!), in elkaar overlopende letters door de grote variatie in de kwaliteit van het zetsel. Het gaat hier vrijwel overal om leesfouten die niet worden gemaakt bij het lezen van modern drukwerk (zie afb. 5). | ||||||
ConclusieHoogma's conclusie dat handmatige verwerking van oude teksten als die van Weyerman nog steeds sneller is dan scanning, blijft overeind. Een van de meest geavanceerde leesapparaten maakt teveel fouten bij het lezen van Weyermans teksten om tijdwinst op te leveren; correctie zal op deze wijze beslist meer tijd in beslag nemen dan eenvoudig intypenGa naar eind6.. Het corrigeren van bijvoorbeeld het eerste voorbeeld (afb. 2) kostte maar liefst 43 minuten! Er bestaat nu eenmaal geen programmatuur die in staat is grafisch sterk vervuilde teksten als die van Weyerman te lezen. Het is maar de vraag of die ooit commercieel verkrijgbaar zal zijn: het verwerken van oude teksten is nu eenmaal commercieel niet interessant genoeg. Leesmachines zijn commercieel exploitabel zolang het gaat om moderne administratieve toepassingen en wij hebben te maken met een bijzondere toepassing die bijzondere programmatuur vereist. | ||||||
NawoordNa afloop van deze voordracht werd ik door Joost Rosendaal geattendeerd op het onderzoeksverslag Van beeldpunt tot betekenis: scanning en optische tekenherkenning van gedrukt historisch bronnenmateriaal: achtergronden en mogelijkheden (Amsterdam 1992) door René van Horik. Daarin wordt verslag gedaan van uitvoeriger onderzoek naar het invoeren in de computer van historisch bronnenmateriaal bij het Nederlands Historisch Data Archief. De conclusie luidde o.a. dat van de beschikbare ocr-programma's de Kurzweil K5200 tot de beste resultaten leidde. Bovendien werd duidelijk dat ‘handschrift en gedrukt materiaal van zeer slechte kwaliteit (...) ocr-pakketten (nog) voor onoverkomelijke problemen stelt’ (p. 146). Documenten van mid- | ||||||
[pagina 57]
| ||||||
delmatige kwaliteit dienen voorlopig hoe dan ook eerst aan leesproeven onderworpen te worden om de automatische leesbaarheid vast te stellen.
Toch gloort er hoop voor het campisme aan de digitale horizon. Sinds kort bestaat de mogelijkheid voor derden om gebruik te maken van het Scan/ocr laboratorium van het Nederlands Historisch Data Archief. De apparatuur en software kan worden gehuurd, men kan daarbij ook instructies ‘kopen’, maar men kan er ook documenten laten converteren. Misschien biedt deze zeer recente dienstverlening toch een redelijk alternatief voor handmatige invoering van Weyerman-teksten. | ||||||
BijlageTER EERSTER VERJARINGE VAN MYNEN EERSTGEBOREN ZONE ABRAHAM VAN KOEVERDEN. Ik voel myn Zangster aêngedreven
Tot blyde toonen, lieve Spruit,
My in des hemels gunst gegeven,
Nu gy uw' eersten jaerkring sluit.
Thans mag ik aen de vreugt gedenken
Die myne ziel gewaert wiert, als
De hemel u my wilde schenken,
En ik uw moeder aen den hals
Bleef hangen, toen zy wiert ontbonden,
En gy uit haren kuisschen schoot
Geboren wiert, daer wy bevonden
Dat gy het levenslicht genoot.
Hoe drukte ik u in bel myne armen!
Wat was uw moeder allermeest,
Toen ze u na zoo veel zuchten, kannen,
Aenschouwen mogt, verheugt van geest!
Uw moeder, die met zoo veel zorgen
Uw jongkheid hoed en voed en queekt,
En tot den avont van den morgen
Met tedre drilten van u spreekt.
Uw moeder, die ik om haer zeden
En onbesproken deugt bemin,
Gepaert met veel bekoorlykheden,
Myn hartetroost, myn zielsvriendin.
Zag ik haer beelt in u herleven,
En volgde gy haer deugdenspoor,
Noit wiert my meer van Godt gegeven.
Daer koos ik gout noch schatten voor.
Mag 's vaders zegenwensch gedyen,
Myn ABRAHAM, myn dierbaer kint,
Zoo zult gy nimmer rampen lyen.
Zoo wort ge al vroeg van elk bemint.
Zoo zult gy steets Godts weg betrachten,
Noit averechtsche wegen gaen.
Dit is't dat wy van Godt verwachten,
Wil hy ons bidden gade slaen.
Geboren den viij. in April M D C C X X I.
Afb. 5: Resultaat van OCR-procedure toegepast op p. 112 van Med. JCW 15 (1992) 3 |
|