| |
| |
| |
W.J.J. Pijnenburg en T.H. Schoonheim
Het Vroegmiddelnederlands Woordenboek (1200 - 1300)
De geschiedenis van een project
Abstract - The Vroegmiddelnederlands Woordenboek (Dictionary of Early Middle Dutch, henceforth VMNW) is a scientific, alphabetical, historical, so-called period dictionary, describing the Dutch language between 1200 and 1300 A.D. The dictionary is mainly based upon the Corpus-Gysseling, an edition of (nearly) all recorded documents and literary manuscripts in Dutch from the thirteenth century. They provide us with approximately 1,600,000 words (tokens), belonging to 27,000 entrances (types). Since 1989, a team of four editors, one corrector and one editorial secretary has been working on a lexical-semantic description of all Early Middle Dutch words. The VMNW has to be completed in 1998.
This contribution goes into the history of the project and the organisation and the set up of the editorial work, with some emphasis on the use of the computer.
| |
Inleiding
Op 1 januari 1989 ging officieel het project Vroegmiddelnederlands Woordenboek (verder VMNW) van start. Het is de bedoeling dat dit woordenboek op 31 december 1998 voltooid zal zijn. In de tien jaar die voor deze onderneming zijn uitgetrokken, zal een redactie van vier redacteuren, één redactiesecretaris en een corrector (deze laatste voor 50% van de werktijd) de ruim 27.000 lemmata (trefwoorden, ingangen) met in totaal ruim 1.600.000 bewijsplaatsen bewerken. Dit zijn binnen de context van de lexicografie enorme aantallen. Over de voorgeschiedenis en de totstandkoming van dit woordenboek gaat deze bijdrage.
| |
Identificatie
Het VMNW is een alfabetisch, wetenschappelijk, historisch periodewoordenboek. Alfabetisch wil uiteraard zeggen dat de volgorde van de lemmata door het alfabet wordt bepaald en niet bijvoorbeeld door de samenhang van de woorden binnen bepaalde begripsvelden, zoals in een ideologisch woordenboek. Het is een wetenschappelijk woordenboek in die zin, dat bij de inrichting van het woordenboek en bij de beschrijving van de individuele lemmata uitgegaan wordt van een wetenschappelijke taalkundige theorie en gebruik wordt gemaakt van een wetenschappe- | |
| |
lijk begrippenapparaat en dat de redacteuren de lezers/gebruikers de gelegenheid bieden de door hen gedefinieerde betekenissen te verifiëren aan de hand van toegevoegde citaten. Historisch is het VMNW omdat het niet de hedendaagse taal, maar een fase in de ontwikkeling van onze taal beschrijft, te weten de periode van 1200 tot 1300, waarmee tevens de term periodewoordenboek is toegelicht.
Anders dan in de ons omringende talen het geval is, beschikt het Nederlands niet over één groot historisch woordenboek dat de woordenschat van onze taal beschrijft van de oudste tijden tot heden. Het Duits heeft zijn Deutsches Wörterbuch (DW) en het Engels heeft zijn Oxford English Dictionary (OED). Voor het Nederlands beschikken we weliswaar over het Middelnederlandsch Woordenboek (MNW; ca. 12e eeuw - ca. 1550) en het min of meer daarbij aansluitende Woordenboek der Nederlandsche Taal (WNT) (1500-1921), maar met name aan het begin en aan het einde van de beschreven perioden zijn duidelijke lacunes zichtbaar. Het MNW neemt dan wel materiaal op uit de in die tijd beschikbare bronnen met ouder materiaal als het Oorkondenboek van Holland en Zeeland (ed. Van den Bergh) en de Inventaire (ed. Gilliodts van Severen), maar doet dit vrij incidenteel en weinig systematisch, zodat men moeilijk vol kan houden dat het ook een representatief woordenboek van het Nederlands van voor 1300 is. Juist voor deze periode is het Corpus van Middelnederlandse teksten (CG) van Maurits Gysseling, dat tussen 1977 en 1987 tot stand kwam, van fundamenteel belang gebleken: het bestand aan dertiende-eeuwse Nederlandstalige teksten is door het werk van Gysseling zeker vervijfvoudigd en nu bovendien in een zeer betrouwbare editie beschikbaar.
De twee ontbrekende perioden in de beschrijving van de Nederlandse woordenschat zijn het oudste Nederlands en het modernste Nederlands (de periode van 1921 tot heden). Voor de eerste periode verkeerde men door de arbeid van dr. Gysseling in de gelukkige omstandigheid dat het bronnenmateriaal reeds uitgegeven en op elektronische informatiedragers voorhanden was, zodat een begin al was gemaakt. De beantwoording van de vraag, welk wetenschappelijk lexicografisch project als eerste diende te worden aangevat, werd hiermee eenvoudig gemaakt en het bestuur van het Instituut voor Nederlandse Lexicologie (INL) nam dus de zeer praktische beslissing om het VMNW als eerste te laten bewerken.
| |
Bronnen
Als basis voor het VMNW dient, als gezegd, het zgn. Corpus-Gysseling, de uitgave van alle in origineel of in afschrift bewaarde Middelnederlandse teksten van vóór 1301 (dus tot en met 31 december 1300). Deze exacte datum lijkt misschien wat hyperprecies, maar de uit die tijd overgeleverde ambtelijke documenten, zoals oorkonden, zijn gewoonlijk tot op de dag af te dateren. Men moet alleen weten of de scribent paas- of kerststijl (of nog een andere stijl) voor zijn datering hanteerde. Maar over het algemeen geldt dat dit gedeelte van het materiaal, uitgegeven in reeks I van het CG, exact gedateerd materiaal oplevert. Voor de literaire teksten mag men een dergelijke precieze datering niet verwachten. De in reeks II van het CG opgenomen ‘literaire’ teksten zijn gedateerd op basis van de historische context, het
| |
| |
schrift en, in de mate van het mogelijke, de taal. Zo kon Gysseling een aantal handschriften bij benadering dateren op grond van een vergelijking van de paleografische kenmerken met de contemporaine Middelnederlandse en Latijnse oorkonden.
Toch zal het duidelijk zijn dat de mate van exactheid die voor de ambtelijke teksten in de datering te bereiken was, voor de literaire teksten niet tot de mogelijkheden behoorde. Over de al dan niet gerechtvaardigde opname van sommige literaire teksten waarop het VMNW gebaseerd is, zal wel steeds discussie blijven bestaan. Waarom wel het handschrift Detmold van Der Naturen Bloeme of Van den bere Wisselau, die beide volgens sommigen zeker niet dertiende-eeuws zijn, en waarom niet de Floris ende Blancefloer-fragmenten in de UB te Leiden (ed. K.H. van Dalen-Oskam) die volgens sommigen zeker dateren uit het einde van de dertiende eeuw? De redactie neemt in deze het standpunt in dat de basis voor het VMNW het Corpus-Gysseling is, plus een aantal teksten die door dr. Gysseling bewust en om praktische redenen hierbuiten zijn gehouden, namelijk omdat er al een goede (diplomatische) uitgave van bestond. Het zijn:het dertiende-eeuwse deel van Het oudste goederenregister van Oudenbiezen (1280-1344) (ed. Buntinx-Gysseling) en het zgn. Luiks Diatessaron [ca. 1291-1300] (ook wel het Limburgse Leven van Jezus genaamd) in de editie van C.C. de Bruin. Verder het Landrecht van Grimberghen van 1275 (ed. Meijers) en het Glossarium Bernense [ca. 1225-1250] (ed. De Man - Van Sterkenburg). Tot slot beschikt de redactie nog over het typoscript van dr. Gysseling van het nog onuitgegeven zgn. Antwerps Obituarium [ca. 1248-1271]. Vanwege de tijdsdruk is het niet doenlijk om steeds nieuwe teksten aan het materiaal te blijven toevoegen. Dit betekent namelijk dat reeds geredigeerde artikelen weer opnieuw zouden moeten worden bekeken en eventueel herschreven en dat de hoeveelheid te redigeren artikelen met een onbekend aantal zou toenemen. Bij het gegeven van een vaste einddatum
voor het project zou dit een onvoorspelbare, niet op voorhand in te schatten werklast betekenen en dus een ongewenste druk op de redactie leggen. Alleen voor teksten die zeker uit de eerste helft van de dertiende eeuw afkomstig zijn en dus bijdragen aan het minder goed gerepresenteerde deel van de materiaalverzameling wordt een uitzondering gemaakt, bijvoorbeeld de Servaas-fragmenten (ed. Goossens).
| |
Tijd
De afbakening van het materiaal in de tijd is voor een deel reeds in het CG zelf gegeven, doordat dr. Gysseling de terminus post-quem-non op 31 december 1300 heeft gesteld. Toch is hierdoor de terminus voor het VMNW niet zo vanzelfsprekend als het lijkt. Allereerst is daar natuurlijk het probleem van de datering van de literaire teksten. Weliswaar heeft de redactie daarin een praktisch standpunt ingenomen door de discussie over wat nog wel dertiende-eeuws is en wat niet meer niet opnieuw te gaan voeren, maar er blijven toch een paar beslissingen te nemen, zoals het besluit om het VMNW tevens te beschouwen als een woordenboek bij het CG. Dat betekent dat de redactie heeft besloten stukken in CG I die tot na 1300 doorlopen ook voor het overschrijdende deel op te nemen (bijv. het Poortersboek van Oudenaarde nr. 184). Dit geldt speciaal ook voor de (niet zo talrijke) dorsale notities van na 1300.
| |
| |
Aan het begin van de periode moest een grens getrokken worden. Immers in reeks II deel 1 heeft Gysseling ook Oudnederlands materiaal opgenomen. Daarbij heeft hij als grens tussen Oud- en Middelnederlands het jaar 1200 aangehouden. De redactie heeft deze grens overgenomen, hoewel een grens van 1150 ook te verdedigen zou zijn. In dat laatste geval zouden overigens alleen de zgn. Groningse psalmglossen (nr. 17) nog kunnen worden toegevoegd, maar deze zouden alleen al vanwege de taal (Oudfries) buiten het corpus voor het VMNW vallen.
| |
Ruimte
Bij de afbakening in de ruimte heeft de redactie uiteraard dezelfde criteria gehanteerd als Gysseling, d.w.z. alle teksten uit de Nederlandstalige delen van België en Nederland zijn opgenomen, met daaraan toegevoegd de teksten uit het voormalig Nederlandstalige (of tweetalige) gebied in Noord-Frankrijk (in de departementen Nord en Pas-de-Calais), in noordoost België (het dal van de Jeker, het gebied rond de Voerstreek) en in Duitsland (de Nederrijn). In principe zouden de teksten uit de Nedersaksische gebieden in het noordoosten van het huidige Nederland niet opgenomen dienen te worden, omdat ze tot een andere taal behoren, namelijk het Nederduits. Het zijn er uit de onderhavige periode echter maar drie (nr. 1899 Deventer [1300]; nrs. 1849 en 1950, beide Zutfen [1300]) en ook hier heeft de redactie het gegeven dat het VMNW tevens een woordenboek bij het CG moet zijn, laten prevaleren. Verder vallen buiten het Middelnederlandse taalgebied uiteraard de Friestalige gewesten. Het in het CG te Harlingen gelokaliseerde stuk (nr. 1625b) is weliswaar te Harlingen uitgevaardigd, maar de taal is Middelnederlands; het werd dus bij het bronnenbestand gevoegd.
Het Middelnederlandse taalgebied kan men verdelen in de volgende regio's met eigen streektalen (van noord naar zuid): 1. het Hollands met ca. 330 documenten, onder te verdelen in de gebieden rond de belangrijke centra, namelijk in het westen 's-Gravenhage, waar de grafelijke kanselarij doorgaans gevestigd was, en in het oosten de belangrijke havenstad Dordrecht; 2. het Utrechts, met een duidelijk oostelijker gekleurd taalgebruik en ca. 30 documenten, voornamelijk uitgevaardigd door de bisschop van Utrecht, 3. het Oostnederlands, met de drie hierboven genoemde oorkonden; 4. het Nederrijns met vier oorkonden, maar een groot aantal literaire teksten; 5. het Zeeuws met een 25-tal documenten, 6. het Vlaams (inclusief Zeeuws-Vlaanderen en het nederlandstalige deel van Frans-Vlaanderen; in totaal ca. 1470 documenten, of 70% van het totaal), met een westelijke variant (Aardenburg, Brugge) en een oostelijke variant (Gent, Oudenaarde); 7. het Brabants met ca. 210 documenten, te onderscheiden in het dialect van het noordelijke deel, met als centra Antwerpen en Breda, een zuidwestelijke variant met Brussel (waar de hertogelijke kanselarij doorgaans gevestigd was) en Mechelen als centra en een zuidoostelijke variant met Leuven; en tenslotte als achtste het Limburgs (15 documenten) met als centra Rijkhoven met de commanderij Aldenbiezen van de Duitse Orde en Maastricht.
| |
| |
| |
Enquête
Het wetenschappelijk concept voor het VMNW is ontwikkeld op basis van de lexicografische praktijk op het INL en op basis van de gegevens die naar voren kwamen uit een enquête die in 1987 onder 120 vakgenoten is gehouden. In deze enquête werd gevraagd naar de elementen die volgens de ondervraagden zeker een plaats in het woordenboek zouden moeten krijgen. Daaraan was tevens de vraag gekoppeld hoezeer men aan de opname daarvan gehecht was. De mate van voorkeur kon door een cijfercode kenbaar worden gemaakt. Volgens de vakgenoten zou het VMNW er als volgt uit moeten zien: het VMNW moet zo onafhankelijk mogelijk t.o.v. het MNW staan; het moet zeer veel citatenmateriaal bevatten; moet ook het anthroponymisch en toponymisch materiaal beschrijven en tenslotte uitgebreide woordsoort-informatie geven. Daarnaast mogen de gegevens betreffende flexie en derivatie wat zuiniger zijn. Etymologie komt alleen aan bod als er t.o.v. de bestaande (etymologische) woordenboeken iets nieuws of bijzonders te melden valt.
| |
Geïntendeerd publiek
Zoals uit het gegeven van een enquête al impliciet blijkt, stond de redactie van begin af aan een bepaald publiek voor ogen, dat globaal de volgende groepen zou moeten omvatten: taal- en letterkundigen (niet per se alleen de historisch geïnteresseerden), leraren in het VWO, historici, archivarissen, naamkundigen, genealogen en zij die geïnteresseerd zijn in de geschiedenis van hun vak. Daarbij denken we niet alleen aan de neerlandici, maar ook aan bijvoorbeeld rechtshistorici, scheepsarcheologen en aan hen meer willen weten over de laatmiddeleeuwse weg- en waterbouw. Om aan deze groepen in zijn algemeenheid tegemoet te komen voegt de redactie zeer veel encyclopedische gegevens toe. Speciaal voor letterkundigen en filologen, voorzover deze groepen al niet grotendeels samenvallen, worden verwijzingen naar bron- of parallelteksten toegevoegd, wordt aandacht besteed aan de mogelijke varianten in de tekstoverlevering en worden relevante passages uit de bijbel en uit de Latijnse of Oudfranse bronteksten toegevoegd die de behandelde citaten kunnen verduidelijken. Op deze aspecten zal in een volgende bijdrage over het VMNW nader worden ingegaan.
| |
Opnamebeleid
Object van een lexicaal-semantische beschrijving vormen alle Vroegmiddelnederlandse woordvormen uit ons corpus. Niet geselecteerd voor beschrijving werden: 1. Het Oudnederlands materiaal uit het eerste gedeelte van CG II, dl. 1. Fragmenten, omdat dit buiten het tijdsbestek valt; 2. de Latijnse woordvormen (vnl. in mengteksten, zie bijv. doc. 1 in het CG I) en de woordvormen uit doorlopende Oudfranse en Oudpicardische teksten, omdat deze niet tot de objecttaal behoren. Hiervan zijn weer uitgezonderd: geromaniseerde vormen van oorspronkelijk Germaans materiaal en materiaal dat een
| |
| |
Bladzijde uit de zevende concept-aflevering (1995) van het Vroegmiddelnederlands Woordenboek
| |
| |
naamkundig karakter heeft. Tot de eerste groep behoren gevallen als halstarium ‘halster’, schultetum ‘schout’, speyum ‘spui’, stiermannus ‘stuurman’; tot de tweede groep rekenen we: 1. geromaniseerde persoonsnamen als diedericus, godescalcus, ysebrandus; 2. geromaniseerde toponiemen en afleidingen daarvan: hollandia, daventria, zelandie; aldenardensibus, averbodiensem, hollandensium; 3. namen van boeken (liber rerum, kiramidarium) en incipits van gebeden (ave maria, meervoud: ave marien; pater noster). 4. Oudfranse en Oudpicardische woordvormen in Middelnederlandse context (leenwoorden).
Een speciale categorie vormen de - in oorsprong Griekse of Latijnse - namen van planten, dieren e.d. in Der Naturen Bloeme. We hebben besloten ook deze als ingang op te nemen. Vele ervan immers zijn inmiddels als leenwoord in onze taal opgenomen. Voor niet-inheemse planten- of diersoorten was er vaak ook geen volkstalige benaming en is met de vertaling van de klassieke literatuur over planten en dieren ook de (Latijnse) naam voor de eerste maal in onze taal aangetroffen: camelus (kameel), iena (hyena), pantera (panter), cameleon (kameleon), aloa (aloë), crocus (id.), coriander (koriander), papaver (id.). Dit speelt met name bij de benamingen voor de diverse edelstenen, die grotendeels in het hedendaags Nederlands zijn overgebleven: berillus (beril), carbonculus (karbonkel), corallus (koraal), onix (onyx), safirus (saffier), smaragdus (smaragd), topasius (topaas).
De mate waarin in de dertiende eeuw deze woorden als vreemd werden ervaren is niet na te gaan. Waarschijnlijk is dat de meeste wel als zodanig werden gevoeld. Bij sommige vermeldt Maerlant echter expliciet dat ze Nederlands zijn: rinocheros heetet (nl. het betreffende dier) in dietscher wort (Nat.Bl.D 120,30). Het waren de enige benamingen voor een groot aantal nieuwe realia, die in belangrijke mate ook deel van onze woordenschat zijn blijven uitmaken. Bovendien zijn de eerste tekenen van aanpassing aan het Nederlands al in Der Naturen Bloeme zelf vast te stellen (philomene naast filomena ‘nachtegaal’). Dat een groot aantal van deze woorden het later toch niet gehaald heeft in het Nederlands, kunnen we achteraf vaststellen, maar doet aan de eerste constatering niets af. Als consequentie van deze opstelling hebben we bovendien besloten, de namen voor planten, dieren enz. uit het Latijns-Middellimburgse Glossarium Bernense, voor zover ze overeenkwamen met de namen in Der Naturen Bloeme, ter vergelijking aan de bedoelde artikelen toe te voegen.
| |
Alfabetisering en spelling
Zoals hierboven bij de identificatie van het VMNW aan de orde is gekomen, is het VMNW een alfabetisch woordenboek. Deze simpele vaststelling impliceert het een en ander. De Middelnederlandse teksten onderscheiden zich op verschillende punten van de moderne Nederlandse, niet in het minst door een drietal orthografische eigenaardigheden, namelijk: 1. het ontbreken van een vaste spelling voor het hele taalgebied, 2. het ontbreken van vaste woord- en morfeemgrenzen en 3. een sterk afwijkend systeem van interpunctie.
Dit betekende dat, voordat de redactie aan de slag kon, deze een beeld moest hebben van wat we in het Vroegmiddelnederlands als een woord beschouwen. In veel
| |
| |
kritische edities is deze beslissing al door de tekstbezorger voor de lezer/gebruiker genomen en zo ook heeft de redactie op dit vlak een aantal knopen moeten doorhakken. Het zal duidelijk zijn dat de vaststelling van woordgrenzen van invloed is op het aantal woorden (lemmata, ingangen) die de redactie moet beschrijven: beschouwen we Middelnederlands een ende twintich als drie woorden, zoals het er vaak staat of als één woord, zoals in het moderne Nederlands?
Met dit voorbeeld is meteen de betrekkelijkheid aangetoond van het antwoord op de vraag hoeveel woorden het Nederlands of het Middelnederlands eigenlijk heeft. Dat hangt dus van de definitie van het begrip woord af. Als we afspreken de telwoorden aaneen te schrijven dan heeft een taal in theorie tenminste zoveel woorden als er telwoorden zijn: oneindig veel dus. Het feit dat we ze niet (allemaal) aaneenschrijven is overigens niet gebaseerd op een taalkundig criterium, maar op een praktisch: vanaf een bepaalde lengte passen ze niet meer op een tekstregel, zodat ze alleen al daarom gesplitst (afgebroken) moeten worden. Het was overigens ook zonder deze niet zo bijster relevante complicatie al moeilijk genoeg om woordgrenzen vast te leggen, zoals bij de morfologische codering van het materiaal (zie hieronder) is gebleken. Uiteindelijk zijn we op 27.234 te beschrijven lemmata uitgekomen, maar nog regelmatig blijkt bij een nadere beschouwing van de tekst tijdens de bewerking van de individuele artikelen dat we ons bij de codering (zie verderop onder Voorbereiding) hebben vergist en dat er een ‘nieuw’ woord moet worden toegevoegd.
Nu is de lexicaal-semantische beschrijving van een woord één ding, maar de redactie stelt het op prijs dat de gebruiker van het VMNW zo'n beschreven woord ook tussen de andere 27.000 kan terugvinden. Hiertoe zijn de lemmata alfabetisch geordend, maar het alfabetiseren van woorden zonder een vaste spelling gaat natuurlijk niet zomaar. Net als Verwijs en Verdam voor het MNW en De Vries en Te Winkel voor het WNT moest er ook voor het VMNW een eenduidige spelling worden vastgelegd. A priori zou men er vrede mee kunnen hebben als de spelling van het MNW zou zijn aangehouden, maar helaas: deze is niet echt consequent. Zo staan de afleidingen met af- nu eens onder af- (bijv. afbernen, afgront), dan weer onder ave- (bijv. avegonst, averechts).
Het zou te ver voeren hier het gehele spellingsysteem van het VMNW te behandelen met alle criteria die daaraan ten grondslag hebben gelegen, maar een voorbeeld is wellicht voldoende om de aard van de problemen aan te duiden. Allereerst heeft de redactie zich gerealiseerd dat in het Vroegmiddelnederlands een groot aantal leenwoorden uit het Oudpicardisch en het Oudwaals zijn opgenomen hetgeen de toevloed van leenfonemen met het daarmee verbonden ander gebruik van grafemen met zich meebracht. Zo is de <g> in het Middelnederlandse systeem gewoonlijk een [γ], maar in de leenwoorden voor gespreide frontvocaal veelal een [dz̆]. Anders dan het MNW heeft het VMNW deze verschillende fonemen ook in de spelling uit elkaar gehouden door in de positie voor [i] en [e] resp. <g> voor [dz̆] en <gh> voor [γ] te spellen. Op deze wijze wijze konden we bij het alfabetiseren de [dz̆]-woorden en de [γ]-woorden uit elkaar houden en treft men dus, bijvoorbeeld, eerst geeste ‘verhaal’ en genueverboom ‘jeneverbesboom’ aan (vgl. de grafische varianten ieeste, ienouerboem) met <g> = [(d)z̆] en pas daarna ghebare t/m ghewronghen met <gh> = [γ]. Ook al in het Middelnederlands kan een onderscheid gemaakt worden dat vergelijkbaar
| |
| |
is met het verschil dat wij nu maken tussen leenwoorden en bastaardwoorden. Bij deze laatste is de spelling aan het Middelnederlandse systeem aangepast. Het Oudfranse suffix -age wordt dan niet meer -age gespeld, maar bijvoorbeeld -adze of -aetse. Het spreekt vanzelf dat we deze adaptaties hebben gerespecteerd en niet weer herleid hebben tot -age, dus tsimadze ‘kroonlijst’ (Ofra. cymage) of peilgherimaedse ‘pelgrimage’ behouden hun aangepaste spelling.
| |
Voorbereiding
Zoals bekend zijn bij de verschillende delen van het CG al tijdens de uitgave automatisch vervaardigde woordindices bijgevoegd om het onderzoek te vergemakkelijken, maar ook toen reeds bestond het plan deze te zijner tijd te vervangen door een woordenboek. Automatisch vervaardigde woordindices veronderstellen immers een elektronisch tekstbestand als basis. Het besluit indertijd om de tekst op magnetische informatiedragers te zetten was in zekere zin revolutionair voor het onderzoek van de Nederlandse taal. Nog nooit eerder was een tekst van een dergelijke omvang geponst om de ponsbanden te zijner tijd te gebruiken voor taalkundig onderzoek. Maar de voordelen van een dergelijke benadering waren evident. Via de ponsband kon een fotozetmachine worden aangestuurd om de tekst te zetten, er konden voorlopige woordindices bij de teksten worden vervaardigd en de band kon als basis dienen voor wetenschappelijk onderzoek. Gysseling was al in een eerder stadium bereid gevonden om de uitgave van CG I zolang uit te stellen tot de techniek in staat was deze plannen te realiseren. Van 1970 tot 1977 werd aan de voorbereiding gewerkt: probleemanalyse, codering van de teksten, ponsen van de teksten, correctie van het geponste materiaal, tekstproductie en tenslotte, een jaar na de eerste tekstdelen in 1977, verschenen de woordindices. Een kort overzicht van de voorgeschiedenis treft men aan als Inleiding op deel I-5 van het CG. Daar wordt ook het belangrijkste motief genoemd om deze weg in te slaan, namelijk het creëren van de mogelijkheid om lexicografie met behulp van de computer te bedrijven. Het Vroegmiddelnederlands Woordenboek zal daarvan het eerste tastbare bewijs leveren.
Voordat evenwel met het eigenlijke redactionele werk kon worden begonnen, moest de tekst nog geschikt worden gemaakt voor het woordenboekenwerk. In de Inleiding op deel I-5 werd al uiteengezet dat voor de computer een woord ‘elke opeenvolging van symbolen tussen spaties’ is. Een dergelijke definitie is natuurlijk voor een woordenboek niet hanteerbaar en er moest dus d.m.v. codering een aantal ingrepen worden uitgevoerd om de juiste woordgrenzen te creëren.
1. Aaneengeschreven woorden moesten voor het computerbestand losgemaakt worden. Dit gebeurde uiteraard niet door spaties toe te voegen in de tekst zelf, maar door er voor elke zelfstandige woordvorm een code en een lemma aan toe te voegen: denhere 474+001_de_heer, seren 472+004_de_heer.
2. Losgeschreven gebonden morfemen moesten aangehecht worden, bijvoorbeeld weder ghe gheuen wordt weder+ghe+gheuen; be oest alf wordt be+oest+alf. Deze plus-tekens worden overigens niet in het woordenboek afgedrukt.
3. Er moest een werkdefinitie worden opgesteld om het begrip woord vast te leggen.
| |
| |
Dit betrof, naast de haast vanzelfsprekende ingrepen als bij de hierbovengemelde gevallen, voornamelijk de vraag of iets als een woordgroep, dan wel als een samenstelling moest worden beschouwd: in die catelinen kerke is catelinen+kerke één woord, in der katelinen kerke (met de voorbepaling in de gen. sing.) is sprake van een woordgroep.
Het is niet steeds even simpel om in dezen een beslissing te nemen. Moet bijvoorbeeld te dien tide dat opgevat worden als een verbinding van losse woorden ‘op het moment dat’, dan wel als één voegwoord ‘toen’, zoals wij met terwijl (Mnl. te der wile) hebben gedaan?
| |
Het computersysteem
De redactie werkt op VAX 8350-werkstations met een 21" beeldscherm, waarop het mogelijk is om in verschillende windows zowel de redactionele werkomgeving (zie verderop in de desbetreffende paragraaf) als het elektronische formulier (zie hiervoor verderop onder Lexicale database) van de lexicale databank (en eventueel nog andere schermen) te overzien. Bij het redigeren van het VMNW wordt gebruik gemaakt van een speciaal voor dit project ontwikkeld computersysteem. Dit systeem bestaat uit drie componenten, die onderling gerelateerd zijn. Ten eerste de zogenaamde materialenbank, een relationele database, waarin de materiaalverzameling ligt opgeslagen. Hierin zijn alle Vroegmiddelnederlandse woordvormen opgenomen, aangevuld met voor de bewerking van de woordenboekartikelen relevante informatie. In de redactionele werkomgeving, die vergelijkbaar is met de traditionele kaartenbak, kan het uit de materialenbank geselecteerde materiaal op verschillende manieren aan de redacteur gepresenteerd worden en vervolgens door deze worden geprepareerd voor het woordenboekartikel. Het eigenlijke woordenboek zal uiteindelijk straks worden afgeleid van de lexicale databank, een andere relationele database, waarin de geredigeerde woordenboekartikelen worden opgeslagen.
| |
De materialenbank
Om de materialenbank te vullen had de redactie - als gezegd - de beschikking over de zetbestanden van het Corpus-Gysseling. De teksten die niet op deze manier beschikbaar waren, werden hetzij ingelezen met behulp van een leesmachine, hetzij overgetikt als dat laatste niet mogelijk was. De reeks lineaire tekstbestanden die zo ontstond, werd verrijkt met diverse gegevens, die het materiaal geschikt moesten maken voor lexicografisch (en andere taalkundig) onderzoek. Elk woord kreeg een driecijferige woordsoortonderscheidende morfologische code en een modern Nederlands lemma, met behulp waarvan alle Vroegmiddelnederlandse spellingvarianten van hetzelfde woord in één keer kunnen worden opgevraagd. Nadat eerst was begonnen met het handmatig in de tekst inbrengen van deze codes en lemmata, werd er later toe overgegaan de tekst automatisch voor te coderen en lemmatiseren en vervolgens alle teksten met de hand na te lopen en te corrigeren. Met de woordvormen uit de indices als uitgangspunt werd een schatting gemaakt van de code die bij een bepaald woord het
| |
| |
meest frequent zou voorkomen en samen met het daarbij behorende lemma werden deze gegevens vervolgens in alle tekstbestanden toegevoegd. Zo kreeg bijvoorbeeld het Vroegmiddelnederlandse woord goet automatisch code 100 (bijvoeglijk naamwoord; enkelvoud; geen uitgang) met het modern-Nederlandse lemma GOED. Bij het nalopen werden die gevallen waarin goet een zelfstandig naamwoord was, veranderd in code 000, terwijl het lemma gelijk bleef.
Na deze zeer arbeidsintensieve fase werden de bestanden via een computerprogramma gecontroleerd op eventuele technische onvolkomenheden. Gecontroleerd werd onder andere of alle documenten wel van een datering en lokalisering waren voorzien en of bij elke code wel een lemma was toegevoegd. Nadat alle bestanden technisch correct waren bevonden, konden ze worden ingevoerd in de materialenbank. Dankzij de relationele organisatie daarvan is het betrekkelijk eenvoudig om elk woord te koppelen aan de bijbehorende informatie, zoals code, lemma, woordsoort, datering, lokalisering, flexie en tekstgenre.
| |
De redactionele werkomgeving
Voor het redigeren van een woordenboekartikel leest de redacteur het gewenste materiaal uit de materialenbank in in de redactionele werkomgeving. Hij heeft hierbij twee mogelijkheden tot zijn beschikking. Alle vindplaatsen van het gevraagde woord kunnen los op het beeldscherm worden gepresenteerd, voorzien van bijbehorende gegevens waaronder de lokalisering en de datering van het woord, het documentnummer van de tekst waarin het woord is aangetroffen, het genre van die tekst en het zogenaamde woordvormnummer, dat van belang is voor het kopiëren van citaten naar het woordenboekartikel. Verder zijn er kolommen waarin de redacteur een categoriseringscode kan aanbrengen. Deze is van belang voor de indeling van de semantische structuur. Daarnaast is er een kolom waarin staat aangegeven of er bij een bepaald woord al dan niet door de redacteur een citaat is afgebakend. Deze presentatie, die ‘fiche-samenvatting’ wordt genoemd, kan op verschillende manieren gesorteerd worden, alfabetisch, chronologisch of per regio, maar ook combinaties van deze factoren zijn mogelijk. Hiermee kan de redacteur zich een beeld vormen van de spellingvariatie en van de spreiding van het materiaal in tijd, ruimte en tekstgenre.
De andere manier van presentatie is die van het woord in context. De hoofdmoot van het beeldscherm wordt hierbij in beslag genomen door de Vroegmiddelnederlandse tekst. Hierbij worden het lemma, de code en de indicatie of er al dan niet al een citaat werd afgebakend op het scherm getoond. Uiteraard is ook hier ruimte voor het categoriseren van het materiaal. Voor meer informatie kan de redacteur een beroep doen op de functie ‘fiche detail’ waar alle gegevens die in de materialenbank aan een bepaald woord gekoppeld zijn, zijn terug te vinden. De presentatie van het woord in context is van belang bij het vaststellen van de flexie en bij de semantische analyse. Het materiaal dat voor opname in het woordenboek in aanmerking komt, kan worden gecategoriseerd en de citaten kunnen worden afgebakend door eenvoudigweg in de daartoe bestemde kolom met een B aan te geven waar het citaat moet beginnen en met een E waar het moet eindigen.
| |
| |
Een bij grote hoeveelheden materiaal zeer handige functie is het ‘sorteren op context’, waarbij de redacteur een of meer woordpatronen definieert, die vervolgens door de computer uit het materiaal worden gelicht en in een apart bestand worden weggeschreven. Bij de bewerking van het bez.vnw. kan bijvoorbeeld op deze manier worden bekeken hoe vaak de combinatie zelfstandig naamwoord + bezittelijk voornaamwoord voorkomt ten opzichte van die van bezittelijk voornaamwoord + zelfstandig naamwoord en bij de bewerking van een aanwijzend voornaamwoord kunnen alle bewijsplaatsen van voorzetsel + aanwijzend voornaamwoord worden opgevraagd. Het is ook mogelijk een selectie binnen een selectie te maken.
| |
De lexicale databank
De lexicale databank is het VMNW in elektronische vorm. Hierin ligt alle informatie over de woordenboekartikelen opgeslagen. De redacteur vult deze database met behulp van een formulier op het beeldscherm, waarin verschillende velden de diverse informatiecategorieën vertegenwoordigen. Het werken met velden maakt het mogelijk om te zijner tijd veel meer informatie uit het VMNW te halen dan met behulp van een traditioneel woordenboek mogelijk zou zijn. Zo kunnen er woorden en delen van woorden (bijv. pre- en suffixen) worden opgevraagd, maar er kan ook op woordsoort worden gezocht, naar artikelen met een oudste vindplaats van 1275 of naar alle woorden die niet in het MNW voorkomen.
In het formulier zit een aantal functies die het werk van de redacteur vergemakkelijken. Zo kan de computer de totale frequentie van een woord en de frequentie per tekstgenre berekenen en de datering en lokalisering van de oudste vindplaats geven. Ook is er een functie die de in de redactionele werkomgeving afgebakende citaten naar de lexicale databank kopieert (per stuk op woordvormnummer of per categorie op categoriecode), waarbij niet alleen de Vroegmiddelnederlandse tekst, maar ook alle overige gegevens als datering, lokalisering en de vindplaats in de bron zijn inbegrepen. Hierdoor kan veel overtikwerk worden uitgespaard en worden veel mogelijke fouten vermeden. In het systeem zijn tevens diverse controles ingebouwd. Deze maken het bijvoorbeeld onmogelijk om een verkeerde afkorting te gebruiken in de velden ‘woordsoort’ en ‘flexie’. Bij het definitieve afsluiten van een woordenboekartikel wordt gecontroleerd of alle noodzakelijke velden wel zijn ingevuld. Hiertoe behoren onder andere lemma, frequentie, woordsoort, flexie en definitie. Ontbreekt een essentieel veld, dan wordt aan de redacteur gemeld waar hij in gebreke is gebleven. Voor dit hersteld is, kan het woordenboekartikel niet definitief worden afgesloten.
Het is uiteraard ook mogelijk om een woordenboekartikel te printen. Dit kan op twee manieren, namelijk in formulierstructuur, waarin alle velden worden afgedrukt, ongeacht of ze al dan niet informatie bevatten, of in artikelstructuur, waarin het woordenboekartikel eruitziet zoals het in het VMNW terecht moet komen. De eerste manier van printen kan rechtstreeks vanuit de lexicale databank geschieden, voor de laatste wordt gebruik gemaakt van een speciaal programma dat eerst zorgt voor een WordPerfect-bestand. Met behulp van deze beide printmogelijkheden kan de redacteur controleren of zijn woordenboekartikel voldoet aan alle eisen van een goed gestructureerd VMNW-artikel.
| |
| |
De uiteindelijke verschijningsvorm van het VMNW zal waarschijnlijk tweeledig zijn: in boekvorm, omdat dit voor velen toch voorlopig nog de enige hanteerbare vorm zal blijven, en in elektronische vorm, op CD-Rom, waarbij gebruik kan worden gemaakt van veel meer zoekmogelijkheden. Hierbij kan overigens de informatie ook veel gemakkelijker uit het woordenboek worden opgehaald.
Daarnaast - en dat is ook nu al mogelijk - kan men op verzoek de steeds completer wordende lexicale databank van het VMNW raadplegen.
Adres van de auteurs:
Instituut voor Nederlandse lexicologie, Postbus 9515, nl-2300 ra Leiden
| |
Lijst van aangehaalde werken
CG - Corpus van Middelnederlandse teksten (tot en met het jaar 1300). Uitgegeven door M. Gysseling. Reeks I: ambtelijke bescheiden. 's-Gravenhage, 1977. 9 dln. Reeks II: literaire handschriften. 's-Gravenhage, 1980 - Leiden, 1986. 6 dln. |
DW - Jacob und Wilhelm Grimm: Deutsches Wörterbuch. Leipzig, 1854-1960. 16 Bde. in 32 Teile. |
Inventaire - Inventaire des chartes [des Archives de la ville de Bruges]. Par L. Gilliodts van Severen. 1e série, 13me au 16me siècle. Bruges, 1871-1885. |
MNW - E. Verwijs, J. Verdam: Middelnederlandsch Woordenboek. 's-Gravenhage, 1885-1953. 11 dln. |
OED - A new english dictionary on historical principles. [...]. Ed. by J.A.H. Murray [et. al.]. Oxford [etc.], 1884-1924. |
OHZ - Oorkondenboek van Holland en Zeeland. Bewerkt door L.Ph.C. van den Bergh. 's-Gravenhage, 1866-1873. |
WNT - Woordenboek der Nederlandsche Taal. 's-Gravenhage, enz., 1882-... |
|
|