Tabu. Jaargang 20
(1990)– [tijdschrift] Tabu– Auteursrechtelijk beschermd
[pagina 116]
| ||||||||||||||||||||||
Van Van Dale-bestanden naar Rosetta-woordenboeken
| ||||||||||||||||||||||
2 Het Rosetta-vertaalsysteemHet Rosetta vertaalsysteem is een multi-linguaal vertaalsysteem; op dit moment wordt gewerkt aan Rosetta3, waarbij voorlopig alleen geïsoleerde zinnen kunnen worden vertaald. In het huidige systeem wordt gewerkt aan grammatica's voor de talen Nederlands, Engels en SpaansGa naar eind3.. | ||||||||||||||||||||||
3 Rosetta-woordenboekenEen lemma uit een woordenboek van Rosetta heeft de volgende vorm (hier is ter wille van de duidelijkheid een sterk vereenvoudigd voorbeeld gegeven):
| ||||||||||||||||||||||
[pagina 117]
| ||||||||||||||||||||||
Ieder lemma bestaat uit: een ingangswoord (hier bank), een bilinguaal deel, waar door middel van betekenissleutels de relatie met woorden in andere talen is gelegd (in dit geval zal de eerste betekenissleutel verwijzen naar het Engelse woord bench, en de tweede sleutel naar het Engelse woord bank), en een monolinguaal deel, waarin een aantal grammaticale eigenschappen van het ingangswoord bank door middel van attribuut-waarde-paren zijn vastgelegd. Zo geeft de waarde ‘en-meervoud’ bij het attribuut ‘meervoudsvorm’ aan dat het meervoud van bank banken is (en niet bijvoorbeeld banks). Om gemakkelijk gewijzigd en bewerkt te kunnen worden zijn de lemma's in een tekstfile opgenomen. Na bewerking met de hand worden deze files in het systeem geïntegreerd waarbij ze worden omgezet in datafiles die een snelle en efficiënte verwerking tijdens het vertaalproces mogelijk maken. | ||||||||||||||||||||||
4 De Van Dale-bestandenDe bestanden van de N-N, de N-E en de E-N hebben de vorm van gestructureerde tekstfilesGa naar eind4.. Elk lemma heeft een systematische opbouw; ieder veld van het lemma wordt voorafgegaan door een code en voor elk type veld bestaat een unieke code. Zo wordt bijvoorbeeld het ingangswoord altijd voorafgegaan door de code ‘II#’; de betekenisomschrijving door de code ‘BB#’, etc. Zo ziet het lemma van het woord aansteker er in de N-N als volgt uit:
De codes corresponderen met bepaalde lettertypes in de gedrukte woordenboeken van Van Dale waardoor de verschillende velden van een lemma geaccentueerd worden. Verder zijn ook coderingen als ‘+;’ (in het ingangswoord) in de gedrukte woordenboeken omgezet in bepaalde tekens (‘+;’ correspondeert met het teken dat de klemtoon in het woord aangeeft). Helaas is de volgorde waarin codes kunnen voorkomen (en daarmee de opbouw van het lemma) door Van Dale niet exact vastgelegd in een syntaxis of een andersoortige formele beschrijving, zodat sommige velden op allerlei plaatsen in een lemma kunnen voorkomen. Verder bevatten de bestanden bij ieder woord grammaticale informatie; voor de N-N is dat in het hierboven gegeven lemma bij de GI#-code te zien. Het gaat bij deze grammaticale informatie om de volgende (meestal morfologische) eigenschappen van woorden: de ‘11’ betekent hier dat het een mannelijk zelfstandig naamwoord betreft, ‘-s’ betekent dat de meervoudsvorming | ||||||||||||||||||||||
[pagina 118]
| ||||||||||||||||||||||
geschiedt door een ‘s’ achter het woord te zetten. Bij werkwoorden vinden we informatie over de vervoeging, of het een reflexief werkwoord betreft, of er sprake is van een scheidbaar partikel (en zo ja welk), en over het syntactische gedrag van het werkwoord (overgankelijk, niet overgankelijk, e.d.). In de N-E is dit soort informatie slechts beperkt voorhanden. De E-N bevat informatie die vergelijkbaar is met die in de N-N, zij het dat het Engels morfologisch minder gevarieerd is en er daardoor in de E-N veelal mee volstaan is woorden met onregelmatige vormen te markeren. Tenslotte volgen de betekenissen van het woord, waarbij in de N-E en E-N ook nog de vertalingen vermeld worden, en een aantal voorbeelden. | ||||||||||||||||||||||
5 Het geschikt maken voor verdere verwerkingVoordat de bestanden voor de conversie gebruikt konden worden moest eerst een aantal handelingen verricht worden. In de eerste plaats zijn de bestanden naar woordsoort opgedeeld zodat er voor iedere woordsoort aparte files ontstonden. Verder is de consistentie van de lemma's gecontroleerd. Daartoe hebben we voor alle bestanden een syntaxis van het lemma ontwikkeld; een aantal lemma's is daarbij buiten beschouwing gebleven omdat deze de syntaxis enorm complex zouden maken. In feite gaat het daarbij om lemma's die ook door de gebruiker van het gedrukte woordenboek onmiddellijk als fout zouden worden bestempeld. Voorbeelden uit de N-N zijn:
Behalve de consistentie van de lemma's als geheel is ook de consistentie van de velden van het lemma getest. Daarbij zijn ook fouten gevonden. Voorbeelden hiervan zijn:
| ||||||||||||||||||||||
[pagina 119]
| ||||||||||||||||||||||
6 Onderzoek naar de mogelijkheden tot conversie van Van Dale-bestanden naar Rosetta-woordenboekenHet uiteindelijke doel was te onderzoeken of het mogelijk was voor Rosetta-woordenboeken te ontwikkelen voor de talen Nederlands en Engels. De hoogste prioriteit lag daarbij op het vertalen van Nederlands naar Engels. Daarbij ging het erom de volgende informatie uit de Van Dale-bestanden te krijgen:
Omdat de Rosetta-aanpak het mogelijk maakt dat een woordenboek voor een taal zowel voor analyse als generatie gebruikt kan worden, zou voor beide talenparen kunnen worden volstaan met één woordenboek per taal en een correct gedefinieerde vertaalrelatie tussen de woorden uit beide talen. Het is echter ook mogelijk voor beide talen aparte woordenboeken voor analyse en generatie te gebruiken. De N-N levert een woordenschat die gebaseerd is op het Nederlands op. De N-E is -op enkele kleine wijzigingen na- gebaseerd op dezelfde woordenschat als de N-N. Beide bestanden hebben min of meer dezelfde lemma's; d.w.z. ingangswoorden, onderverdeling in betekenis e.d. komen grotendeels overeen. De E-N is gebaseerd op een Engelse woordenschat. De E-N is niet het ‘omgekeerde’ van de N-E; de N-E geeft Engelse woorden die de vertaling zijn van de verzameling woorden die karakteristiek zijn voor de Nederlandse taal (en daarmee voor de Nederlandse cultuur, manier van leven e.d.), en dit impliceert dat deze Engelse woorden hoogstwaarschijnlijk geen representatieve Engelse woordenschat vormen. Daarnaast speelt ook het toeval een rol: woordenboeken zijn meestal gebaseerd op bepaalde tekst-corpora (kranten, boeken, etc.) en omdat de N-N en N-E op andere corpora zijn gebaseerd dan de E-N zullen ook daardoor veel verschillen in de woordenschat van N-E en E-N zijn ontstaan. De ideale situatie zou zijn de vereniging van N-E en E-N te gebruiken als basis van de woordenboeken van Rosetta; dit is echter onmogelijk om de volgende redenen: Ten eerste vormen de vertalingen uit de E-N nieuwe Nederlandse woorden die dan echter geen morfologische en syntactische informatie bevatten. Ten tweede moet men vermijden dat er woorden dubbel in het woordenboek komen: stel dat we het woord bank in het Nederlandse woordenboek (op basis van de woordenschat van N-N en N-E) hebben, en dat we hetzelfde woord uit de E-N krijgen als vertaling. Hoe weten we nu of dit woord tot de reeds aanwezige betekenissen van bank behoort of een nieuwe betekenis vormt, en als het eerste het geval is, tot welke van de reeds aanwezige betekenissen we het kunnen rekenen. | ||||||||||||||||||||||
[pagina 120]
| ||||||||||||||||||||||
Het zal duidelijk zijn dat het verenigen van N-E en E-N een onaanvaardbare hoeveelheid handwerk met zich mee zou brengen. Een verdere mogelijkheid is het gebruiken van de E-N als basis voor het vertalen van Engels naar Nederlands en de N-E als basis voor het vertalen van Nederlands naar Engels. Deze oplossing impliceert dat er voor elke taal aparte woordenboeken voor generatie en analyse ontstaan. Weliswaar hebben we nu niet het probleem dat de woordenschat van beide bestanden verenigd moeten worden, maar het probleem blijft dat we de vertalingen in beide woordenboeken van morfologische en syntactische informatie moeten voorzien. Voor het Nederlands is dit onmogelijk automatisch te doen: veel attributen hebben meerdere frequente waarden. Zo is het onmogelijk bij Nederlandse zelfstandige naamwoorden automatisch de manier van meervoudsvorming te genereren: ongeveer de helft van de Nederlandse vertalingen van de zelfstandige naamwoorden uit de E-N heeft een meervoud op ‘-en’ en de andere helft heeft een meervoud op ‘-s’ en dit is vrijwel nooit automatisch uit de spelling van het woord afleidbaar. Door deze problemen is het onmogelijk de E-N te gebruiken zonder daarvoor veel handwerk te verrichten en is ook deze oplossing niet aanvaardbaar. Een ‘beperktere’ oplossing is het gebruiken van alleen de N-E voor het maken van zowel het Nederlandse als het Engelse woordenboek. Dit zal resulteren in woordenboeken die eigenlijk alleen geschikt zijn voor het vertalen van Nederlands naar Engels. Voor het vertalen van Engels naar Nederlands kunnen ze wel gebruikt worden maar leveren ze geen correcte woordenschat op. Nu hebben we geen van de problemen die bij de andere twee oplossingen speelden, maar er blijft een probleem omdat de Engelse woorden van grammaticale informatie voorzien moeten worden. Gelukkig is het Engels (vergeleken met het Nederlands) morfologisch erg regelmatig en is het mogelijk de Engelse vertalingen uit de N-E met zeer grote mate van correctheid automatisch van morfologische informatie te voorzien. Zo kent het Engels maar één frequente meervoudsvorm bij zelfstandige naamwoorden (namelijk ‘-s’) en zijn de (zeldzame) uitzonderingen gemakkelijk te vinden: het betreft o.a. leenwoorden en woorden als sheep, child, enz. en samenstellingen daarvan die aan hun vorm herkend kunnen worden; in de meeste gevallen kan dit zelfs automatisch gebeuren, alleen bij mogelijke ambiguïteiten (waarbij de verschillende betekenissen ook verschillende morfologische attributen hebben) moet er handwerk verricht worden. Omdat de grammaticale informatie van de Nederlandse woorden uit de N-E beperkter is dan die in de N-N zijn deze twee bestanden gecombineerd; daarbij is in feite de grammaticale informatie uit de N-N overgebracht naar de N-EGa naar eind5.. De aldus verrijkte N-E heeft als basis gediend voor de Rosettawoordenboeken. De Engelse vertalingen uit de N-E vormen het Engelse woordenboek. Het zo gegenereerde Engelse woordenboek deed qua rijkheid aan grammaticale informatie nauwelijks onder voor de E-N. Overigens is de E-N (naast andere literatuur) gebruikt als informatiebron, bijvoorbeeld voor het vinden van | ||||||||||||||||||||||
[pagina 121]
| ||||||||||||||||||||||
allerlei morfologisch onregelmatige vormen. Bij het genereren van het Engelse woordenboek deden zich verder nog problemen voor met de vertalingen zoals die in de N-E zijn gegeven: vaak bestaat de vertaling niet simpelweg uit één Engels woord, maar is er sprake van een complexer geheel met daarin opgenomen allerlei varianten die door schuine strepen van elkaar gescheiden zijn. Een voorbeeld hiervan vormt de vertaling van het woord jeugdafdeling: ‘youth/youth people's/young persons' section’. Op soortgelijke wijze zijn ook vaak de uitgang in Brits Engels en Amerikaans Engels vermengd. Verder kwam het ook voor dat er bij een woord een modificerende bijstelling stond. Een voorbeeld hiervan is de vertaling van het woord jaarclub: ‘society of students of the same year’. In veel van deze gevallen moest de correcte vertaling uiteindelijk met de hand toegevoegd worden. Tenslotte bleek ook de onderverdeling in betekenissen in de N-E vaak tot problemen te leidenGa naar eind6.. Zo worden er soms betekenissen gegeven die geen eigenlijke betekenis van het woord zijn maar betrekking hebben op idiomatisch gebruik van het woord: een voorbeeld hiervan is het woord bal dat bij betekenis 0.5 in de N-E slechts de omschrijving ‘+geen’ heeft. In de N-N heeft het woord bij betekenis 0.5 de volgende omschrijving: ‘(inf.) (met “geen”) helemaal niets of helemaal geen’, en daarbij worden de volgende synoniemen gegeven: moer, zak, barst, flikker. Uit de met deze betekenis corresponderende voorbeelden blijkt dat het hier gaat om idiomen als geen bal uitvoeren, geen bal van iets snappen e.d. De betekenisomschrijving leidt hier tot onduidelijkheid en uiteraard is niet het woord moer een synoniem van bal, maar het idioom geen moer uitvoeren een synoniem van geen bal uitvoeren. De normale manier om dergelijke idiomen op te nemen zien we bij het woord bak, waar het idioom aan de bak komen niet met een betekenis correspondeert maar uitsluitend in de voorbeelden is terug te vindenGa naar eind7.. Andere voorbeelden van onduidelijke betekenissen in de N-E zijn o.a. barst (0.2) en paar (0.3). Soms geldt een betekenis alleen wanneer het ingangswoord een bepaalde vorm heeft (bijv. spek (0.3), rots (0.2), etc.). Iets vergelijkbaars zien we bij capaciteit (0.2 ‘bekwaamheid’) dat beter als aparte meervoudsvorm had kunnen worden opgenomen. Soms zijn de ingangswoorden op zich al zeer twijfelachtig, zoals bij doorboren en dooreten, maar ook bij dame (0.6 ‘mv., opschrift op toilet’) en camping (0.2 ‘het kamperen’). | ||||||||||||||||||||||
7 Verdere vulling van de Rosetta-woordenboekenDe meeste informatie die benodigd is in Rosetta-woordenboeken kan niet uit de Van Dale-bestanden gehaald worden. In de Van Dale-bestanden wordt vrijwel geen goed gestructureerde syntactische informatie gegeven. De informatie die in de voorbeelden is gegeven (in de gedrukte Van Dale te vinden na het ‘dropje’) was niet altijd volledig en niet systematisch genoeg voor automatische verwerking. | ||||||||||||||||||||||
[pagina 122]
| ||||||||||||||||||||||
Dit had tot gevolg dat er een aanzienlijke hoeveelheid informatie met de hand zou moeten worden toegevoegd. Omdat dit werk binnen een beperkte tijd en met beperkte mankracht moest geschieden, is als experiment een Rosetta-woordenboek van circa 5000 woorden in de open klassen (zelfstandige naamwoorden, werkwoorden, bijvoeglijke naamwoorden en bijwoorden) gemaakt, gebaseerd op de N-E (gecombineerd met N-N), waarbij er naar gestreefd is alle verdere informatie volledig met de hand toe te voegen. Voor de werkwoorden werd -wegens tijdgebrek- alleen voor de eerste betekenis van het woord informatie toegevoegd. Het Engelse woordenboek bestaat uit alle vertalingen van deze woorden. De gesloten klassen zijn vrijwel helemaal handmatig aangemaakt en hierbij is gestreefd naar volledigheid. Het gebruik van de totale woordenschat van de N-E bleek alleen geschikt als woordenboek voor ‘delen’ van het systeem, zoals bijvoorbeeld het gebruik van de morfologische component voor morfologische analyse. Hoewel de Van Dale-bestanden uiteraard niet bedoeld waren om als basis te dienen voor de woordenboeken van een automatisch vertaalsysteem, had er toch meer informatie in kunnen staan. Daarbij zou gedacht kunnen worden aan het gebruik van ‘verbpatterns’ zoals in ‘Oxford Advanced Learners Dictionary’, of ‘Longman Dictionary of Contemporary English’, die beide meer en beter gestructureerde syntactische informatie geven. Ook voor andere talen dan het Engels bestaan voorbeelden: ‘dtv Wörterbuch der deutschen Sprache’. Al deze woordenboeken geven betrekkelijk uitgebreide syntactische informatie, zoals de reeds genoemde ‘verbpatterns’ bij werkwoorden. In de Van Dale-bestanden had bijvoorbeeld kunnen worden vermeld hoeveel en welke soort argumenten een bepaald werkwoord neemt. Het aantal argumenten kan bijvoorbeeld 1 zijn (bij slapen) of 2 (bij slaan), etc. Het type argument kan bijvoorbeeld een NP zijn (hij slaat het kind), een PP met vast voorzetsel (hij wacht op zijn vader, een infinitief-complement, al dan niet met ‘te’ (hij probeert te komen, hij leert fietsen), etc. Op vergelijkbare wijze hadden zelfstandige naamwoorden en bijvoeglijke naamwoorden van informatie kunnen worden voorzien. Verder was het beter geweest wanneer idiomen altijd op dezelfde wijze waren opgenomen. Ze zouden altijd bij hun ‘hoofd’ en dan in een canonieke vorm opgenomen moeten worden, waarbij de vrije delen en de niet-vrije delen duidelijk (en in de gedrukte woordenboeken door middel van verschil in typografie) van elkaar onderscheiden moeten worden. Bijvoorbeeld: bij het woord geven zou dan hij geeft de pijp aan Maarten te vinden zijn, en bij aannaaien: hij naait Maarten een oor aan. Zo is te zien dat het woord Maarten in het ene geval deel uitmaakt van het idioom, terwijl het in de tweede uitdrukking vrij is. Het zou wellicht de voorkeur verdienen voor de vrije delen altijd voornaamwoorden (hij, hem, haar, iets, iemand, e.d.) te gebruikenGa naar eind8.. Verder had een semantische typering kunnen worden opgenomen, te denken valt bijvoorbeeld aan ‘levend’, ‘menselijk’, etc. Bij de bijwoorden had een onderverdeling in bijwoorden van tijd, plaats e.d. kunnen worden opgenomen. | ||||||||||||||||||||||
[pagina 123]
| ||||||||||||||||||||||
Voor Rosetta, maar ook voor andere taalverwerkende computersystemen, is zulke informatie onontbeerlijk en hoewel de genoemde andere woordenboeken ook nog lang niet voldoende specificeren is een grove indeling al nuttig omdat een verfijning ervan minder tijd kost dan het nalopen van alle woorden. | ||||||||||||||||||||||
8 Gebruik van de Van Dale-bestanden als informatiebronHoewel de in de Van Dale gegeven voorbeelden (in de gedrukte versie te vinden achter het ‘dropje’), waar o.a. combinaties van het ingangswoord met andere woordsoorten (zoals voorzetsels e.d.), idiomen, etc. opgenomen zijn, niet systematisch genoeg bleken te zijn om direkt op automatische wijze geconverteerd te worden, zijn ze wel geïnventariseerd. Zo is bijvoorbeeld op basis van alle voorbeelden waarin het woord te voorkomt met de hand een lijst van werkwoorden gemaakt die een infinitief complement met ‘te’ nemen. Op soortgelijke wijze is een lijst gemaakt van woorden die een bijzin ingeleid door ‘dat’ als argument hebben. Verder is op basis van de voorbeelden ook een lijst met idiomen gemaakt. Tenslotte is de E-N nog gebruikt om lijsten van morfologisch onregelmatige woorden te krijgen. De op deze manier gemaakte lijsten boden uiteraard geen garantie op volledigheid. Al dit materiaal heeft gediend als hulp bij het met de hand verbeteren van de Rosetta-woordenboeken. | ||||||||||||||||||||||
9 ConclusieBij het van start gaan van ons onderzoek naar de mogelijkheden om bestaande woordenboeken te gebruiken voor het ontwikkelen van grote woordenboeken voor het Rosetta-vertaalsysteem vormden de Van Dale-bestanden het beste en meest systematische materiaal dat er voor het Nederlands voorhanden was. Voor het genereren van Rosetta-woordenboeken bleken de bestanden echter maar beperkt geschikt. Zoals in de secties 6 en 7 van dit artikel is gebleken, kunnen slechts de vertaalrelatie en de juiste waarde van een aantal attributen uit de N-E en de N-N op automatische wijze afgeleid worden (zij het met de nodige problemen). Alle overige attribuutwaarden in de Rosetta-woordenboeken moeten met de hand toegevoegd worden. In vergelijking met een aantal buitenlandse woordenboeken bleken de Van Dale-bestanden te beperkt gevuld te zijn (zie sectie 7); er wordt bijvoorbeeld vrijwel geen syntactische informatie gegeven. Ook zijn idiomen niet systematisch weergegeven. Zelfs voor menselijke gebruikers is deze informatie te beperkt: zo is aan een voor iemand onbekend idioom in de Van Dale niet te zien welke argumenten deel uit maken van het idioom en welke vrij zijn. Hoewel de Van Dale-bestanden beter gestructureerd zijn dan vergelijkbare Nederlandse woordenboeken is er een onvoldoende duidelijk lexicologisch | ||||||||||||||||||||||
[pagina 124]
| ||||||||||||||||||||||
concept gemaakt. Dit blijkt o.a. uit de volgende feiten (die in de secties 5 en 6 uitvoerig toegelicht zijn):
Verder lijkt het erop dat er bij het aanmaken van de bestanden geen controle op het invoeren van de lemma's heeft plaatsgevonden en evenmin lijken de bestanden achteraf op systematische wijze (met programma's) gecontroleerd te zijn; aanwijzing hiervoor is het type fouten waarvan in sectie 5 voorbeelden zijn gegeven. Alle genoemde tekortkomingen hebben niet alleen geleid tot bestanden die voor het Rosetta-systeem beperkt te gebruiken en moeilijk te converteren waren, maar ze kunnen ook leiden tot problemen waar menselijke gebruikers last van hebben. | ||||||||||||||||||||||
[pagina 125]
| ||||||||||||||||||||||
Bibliografie
|
|