Naar de letter
(2003)–Marita Mathijsen– Auteursrechtelijk beschermdHandboek editiewetenschap
[pagina 410]
| |
beeldscherm en een programma. Bij elkaar wordt gesproken van Optical Character Recognition (ocr). Het inlezen van een tekst gebeurt in twee stappen. De scanner digitaliseert de letters van een in te lezen tekst en de ocr-software vergelijkt deze digitale informatie met letters die hij kent. Van het vermogen van de scanner en de trainbaarheid van het programma hangen de resultaten af. Het vermogen van de scanner wordt uitgedrukt in het aantal d.p.i.'s (dots per inch) dat hij tot zijn beschikking heeft. Een scanner met 400 of meer d.p.i.'s geldt als bruikbaar voor het lezen van historische druk. Maar dan moet het programma nog flexibel zijn, wil de ocr goede resultaten leveren. Meestal is een aantal lettertypes al standaard ingevoerd in de software en die worden dan automatisch herkend. Bij minder bekende lettertypen moet de gebruiker het programma eerst een instructie geven hoe bepaalde tekens geïnterpreteerd moeten worden (trainen). Bij bepaalde tekens die het programma na de training nog niet herkent, komt de vraag op het scherm hoe die geïnterpreteerd moeten worden. Bij papier van slechte kwaliteit (bobbelend of vervuild), uitvloeiende druk en beschadigde letters zijn de resultaten van het programma niet goed. De oudste generatie ocr's was alleen in staat modern zetsel vrijwel foutloos te lezen. De nieuwste ocr's kunnen ook historisch zetsel na enige instructie omzetten tot een bruikbaar bestand.Ga naar voetnoot10 Goede resultaten geven de ocr-programma's Pro Lector en Optopus in combinatie met een scanner van meer dan 400 d.p.i.'s. Het scannen en via het ocr-programma inlezen van een tekst is nauwelijks moeilijker dan het vervaardigen van een fotokopie. De scanner werkt bijna zo snel als een fotokopieermachine. De instructie van het ocr-programma voor de herkenning van een bepaald soort zetsel is vrij eenvoudig en reeds na enige bladzijden herkent de computer praktisch alle tekens. De voordelen van het gebruik van ocr voor edities zijn evident. Wanneer als basistekst een gedrukte versie gekozen wordt, kan deze ingelezen worden in plaats van overgetypt. Terwijl een goede typist 200 tekens per minuut verwerkt, kan een scanner er na instructie 3000 herkennen.Ga naar voetnoot11 Voor interne en externe collatie kunnen exemplaren van drukken gescand worden en via een vergelijkingsprogramma gecollationeerd. Aangezien scannen nauwelijks meer tijd kost dan fotokopiëren is de methode van de transparantkopieën alleen nog maar te prefereren voor het beginstadium van een collatie, wanneer overeenkomst of verschil tussen zetsels aangetoond moeten worden. De tekstvergelijkingsprogramma's die na het scannen ingeschakeld worden, werken sneller dan een editeur ooit kan. Bovendien levert de ocr behalve een soort fotokopie tegelijk een computertekst op, die bewerkt kan worden. Men kan zich enige voorstelling van de tijdsbesparing maken die ocr oplevert als men een editieproject bedenkt dat als doel heeft een vergelijking te maken van alle drukken en oplagen van Hermans' De donkere kamer van | |
[pagina 411]
| |
Damokles. Zoals bekend zijn in de films van het zetsel voor nieuwe oplagen geregeld wijzigingen aangebracht, en soms is er opnieuw gezet. Na een scan van alle drukken en oplagen, die na omzetting weinig fouten zal vertonen omdat het hier om fotozetsel gaat, kunnen de teksten via tustep vergeleken worden en kan er een lemma-apparaat vervaardigd worden, alles binnen een fractie van de tijd die een handmatige vergelijking gekost zou hebben. Voor de leestekst kan een van de reeds ingelezen versies gekozen worden.
Maar ook hier moeten enige beperkingen genoemd worden. Een via ocr ingelezen tekst moet gecontroleerd worden alsof die handmatig overgetypt is, want met name bij het lezen van handzetsel kunnen beschadigingen van de letter of vuile druk verkeerde interpretaties veroorzaken. Ook beoordeelt de scanner letters met een accent, alinea's en het wit tussen nauw op elkaar gezette woorden wel eens verkeerd. Met andere woorden: door de inschakeling van een scanner en een ocr-programma wordt er geen overdrachtsgang uitgespaard en evenmin een correctiegang. Wel werkt ocr sneller en bij een goede druk doorgaans preciezer dan een mens kan. |
|