Mededelingen van de Stichting Jacob Campo Weyerman. Jaargang 14
(1991)– [tijdschrift] Mededelingen van de Stichting Jacob Campo Weyerman– Auteursrechtelijk beschermd
[pagina 85]
| |
Campo en de computerGa naar eind*
| |
[pagina 86]
| |
programma te instrueren om bepaalde spellingsvariaties te negeren, en om bepaalde woorden en woordcombinaties onder één noemer te brengen. Dat laatste levert een synoniemenlijst op die het zoeken en selecteren kan versnellen. Het tweede type programma is relatief nieuw. Er is in de computerwereld lange tijd weinig aandacht geweest voor het bewerken van bestanden die grote hoeveelheden lopende tekst bevatten. Inmiddels zijn er diverse zogenoemde tekstdatabase of text retrieval pakketten op de marktGa naar eind4.. Zelf heb ik enige ervaring met het programma askSamGa naar eind5.. Dit is een ‘vrije vorm tekstdatabase’. Het grote voordeel van dit programma is dat het gericht is op tekst in ‘gewone’ vorm. Je kunt een Weyermantekst rechtstreeks intypen. Een structuur aanbrengen is in principe niet nodig, maar het kan wel (ook achteraf)Ga naar eind6.. Wie met de hand bepaalde woorden wil verzamelen gaat de tekst lezen en begint vervolgens te strepen. In askSam kan dat simpel op dezelfde manier. Je leest op het scherm en typt voor elk woord dat je wilt markeren een bepaald teken, bijvoorbeeld een $. Op deze manier kun je in askSam velden definiëren, het markeringsteken geldt dan als veldnaam. Dit is een handige eigenschap van het programma. Als je eenmaal bepaalde woorden tot veld hebt gebombardeerd, kun je er allerlei bewerkingen op uitvoeren. Je kunt ze selecteren, alfabetisch sorteren, in aparte lijsten afdrukken etc. Tegelijkertijd blijft het mogelijk direct op woorden te zoeken in de tekst als geheel. Ook in niet-gestructureerde tekst zijn er ruime zoek- en selectiemogelijkhedenGa naar eind7.. Het zoeken gaat bijzonder snel, veel sneller dan met een tekstverwerkingsprogramma als WordperfectGa naar eind8..
De meest voor de hand liggende gebruiker van een toekomstige tekstenverzameling is natuurlijk de annotator. Ik vertel in dit gezelschap niets nieuws als ik zeg dat het beste commentaar op Weyerman vaak in zijn eigen werk te vinden is. De bestaande tekstedities staan vol met voorbeelden. Dat is allemaal zonder computer gedaan destijds, zeker. Het punt is dat het doornemen van het hele werk ten dienste van de verklaring van één passage, of van een afzonderlijke tekst in de regel slechts een keer gebeurt. Een tekst die éénmaal in de computer ingevoerd is kan telkens opnieuw snel geraadpleegd en bevraagd worden, ook als er tijdens het onderzoek nieuwe problemen opduiken. Het grote voordeel van een electronische tekst blijkt mijns inziens vooral als we kijken naar woordverklaringen. Immers, wie op zoek is naar een schout, een alchimist, of een dokter ‘met den Molensteene Hoed’Ga naar eind9., kan gericht en daardoor snel, lezen. Bij woordverklaringen ligt dat anders. Op dit niveau kan een eenvoudige sterveling maar een vrij kleine hoeveelheid tekst onthouden en dus herkennen in het corpus. Er is niemand die het hele werk van Weyerman nog eens gaat doorploegen als hij een bepaald werkwoord niet kan oplossen en het WNT in alle talen zwijgt. Ik denk dat de snelle en efficiënte zoekmogelijkheden van de computer juist voor het woordcommentaar van groot belang kunnen zijn. Het zou de kwaliteit van de woordverklaringen sterk vergroten. Er is een traditie ontstaan in het Weyermancommentaar waarbij veel aandacht wordt besteed aan personen en zaken, zowel wat betreft onderzoekstijd als plaatsruimte in de editie zelf. Daar is niets tegen, maar woordcommentaar is natuurlijk niet minder belangrijk. In feite is een goed woordcommentaar voor het onderzoek naar de achttiende-eeuwse literatuur als geheel, belangrijker dan de vraag wie er schuilgaat achter de bijnaam Mevrouw Brandinopolis. Dat laatste vind ik zelf óók leuker, maar dat is een ander verhaal. Naast annotatie is een tweede belangrijke toepassing van een electronische tekst het onderzoek op het gebied van de stilistiek. Het gaat dan vooral om kwantitatieve | |
[pagina 87]
| |
technieken. Met behulp van concordanties en frequentielijsten kunnen statistische gegevens worden verzameld over gemiddelde woordlengte, gebruik van functiewoorden, combinaties van woorden, bepaalde typen bijzinnen etc. In de literatuur over computer en letteren worden een paar voorbeelden genoemd van stijlonderzoek ten dienste van het vaststellen van het auteurschap van teksten. Veel daarvan is omstreden, maar een enkele keer is identificatie succesvol geblekenGa naar eind10.. Voor dit type onderzoek is overigens assistentie van een statisticus noodzakelijk. Bij Weyerman speelt het auteurschap slechts in enkele gevallen. Er zijn echter genoeg aspecten van zijn stijl die zich lenen voor kwantitatief onderzoek. Zelf heb ik in een ander verband gekeken naar de Franse woorden in de Amsterdamsche Hermes. Het is namelijk opvallend dat in de Rotterdamsche Hermes en de Amsterdamsche Hermes veel meer Franse woorden gebruikt worden dan in latere tijdschriften. De hoeveelheid tekst die ik heb bekeken was te klein om conclusies te trekken, maar er vielen wel enkele vragen uit af te leiden. Zo gebruikt Weyerman in serieuze, beschouwende passages weinig of geen Franse woorden. Eenzelfde verschijnsel is bekend bij Van EffenGa naar eind11.. Dat zegt dus iets over de functie van het Frans. De vraag is wanneer precies het aandeel van het Frans bij Weyerman kleiner werd en waarom. Tellingen kunnen mischien nog iets anders opleveren. In een vrij letterlijk vertaald stukje SwiftGa naar eind12. valt het aantal Franse woorden sterk terug, in een La Fontaine bewerkingGa naar eind13. is het Franse aandeel extra hoog (hoewel Weyerman nauwelijks woorden uit het origineel overnam). Als het mogelijk zou zijn dit soort verschillen statistisch te beschrijven zou het een manier kunnen zijn om systematisch passages te verzamelen die mogelijk vertaald zijn. Dit is uiteraard een zeer hypothetische, maar wel aantrekkelijke gedachte. In ieder geval verloopt het verzamelen van het materiaal, de Franse woorden, heel wat sneller dan met de handGa naar eind14.. Tenslotte, ook aan thematisch onderzoek valt er bij Weyerman nog genoeg te doen. Historici werken soms met synoniemenlijsten om de selectie van relevante passages te bevorderen. Dat wil zeggen dat de computer ook zinnen met ‘juffers’ opzoekt als je als zoekvraag ‘vrouwen’ intikt. Zo'n synoniemenlijst lijkt bij Weyerman met zijn extreme neiging tot perifrase bijna onmogelijk. Wie naar ‘pastoor’ zoekt moet immers ook bedacht zijn op ‘paap’ of ‘paternosterteller’. Een kardinaal kan ook als ‘gezoden kreeft’ te boek staan, etc. Anderzijds doet Weyerman nog al eens aan recycling van metaforen, al dan niet met variatiesGa naar eind15.. Eén manier om zo'n lijst geleidelijk op te bouwen is het verzamelen van de annotaties uit de bestaande edities. Als we dit materiaal invoeren kunnen daaruit woordenlijsten samengesteld worden, die als ingang kunnen dienen voor de rest van het corpus. Het grote voordeel is natuurlijk dat zo de voortschrijdende kennis gecumuleerd kan worden. Iedere keer als er een stukje annotatie beschikbaar is, kan dit bijgevoegd worden. Ik wil uiteraard niet bijdragen aan het idiote misverstand dat alles een kwestie is van ‘een druk op de knop’. Het vergt veel tijd en inspanning om het materiaal goed te bewerken en de juiste vragen te stellen. Het gaat er echter om dat de grote hoeveelheid tekst beheersbaar wordt en voor deelonderzoeken geprepareerd kan worden. Een corpus zoals bedoeld kan natuurlijk ook prachtig materiaal verschaffen aan onderzoekers buiten de Campistiek: lexicografen, historici etc.
Tijd en inspanning is er voorlopig vooral nodig om de tekst in te voeren. Nu zijn er tegenwoordig optische invoermiddelen. Het gaat dan om een scanner, een leesapparaat dat aangesloten wordt op de pc. Het inlezen van afbeeldingen in de computer is al lang gemeengoed, maar voor het lezen van tekst is een goed OCR programma (Optical | |
[pagina 88]
| |
Character Recognition) nodig. Volgens de vaktijdschriften zijn dit soort programma's voor de pc volop in ontwikkeling. Er zijn echter blijkens een recente test maar enkele dure programma's die echt voldoenGa naar eind16.. Daarmee kunnen inderdaad moderne gedrukte boeken razendsnel worden ingelezen, zij het nog altijd met een kleine foutenmarge. Helaas is uit een test met een Weyermanuitgave, uitgevoerd door Jan Bruggeman, gebleken dat ook een geavanceerd programma toch te veel moeite heeft met de onregelmatigheden van achttiende-eeuws drukwerk. Dit heeft o.a. te maken met de slijtage van de letters en de intensiteit van de inkt. Men kan tijdens het scannen handmatig corrigeren / ingrijpen, maar veel tijdwinst is er dan niet ten opzichte van het intypen van de tekst. Conclusie: een alternatief voor het intikken is op dit moment niet voorhanden. We zouden kunnen wachten tot anderen een databank starten. Er is vorig jaar een voorstel in die richting gedaan door B. Salemans van de Universiteit van Nijmegen. Hij wil een ‘neerlandistisch computertekstencentrum’ oprichten waar zoveel mogelijk teksten in electronische vorm worden verzameld. Raadpleging zou dan moeten geschieden via de universitaire computernetwerkenGa naar eind17.. Ik zie zoiets niet gauw van de grond komen. Bij de historici praten ze er ook al jaren overGa naar eind18.. Daar moeten we dus niet op wachtenGa naar eind19.. Laten we hopen op verbetering van de programma's, maar intussen toch maar doorgaan met invoeren. |
|