Tabu. Jaargang 20
(1990)– [tijdschrift] Tabu– Auteursrechtelijk beschermd
[pagina 75]
| ||||||||
Dimensies van (computer)lexica
| ||||||||
2 DilemmaDe drie dimensies die ik als bepalend aanzie voor een intelligente lexicale component van een natuurlijke-taalverwerkend systeem zijn de volgende:
Voor de eerste dynamische dimensie moge ik volstaan met te verwijzenGa naar eind1. naar mijn artikel ‘On the dynamic organization of (computer)lexicons’ (MARTIN, te verschijnen) en naar mijn oratie waar, onder de rubriek ‘Het lexicon als dynamische structuur’ (MARTIN, 1988, 12-16), het systeem Dilemma wordt voorgesteld. Het gaat daarbij om een lemmatiseerder/tagger voor het Engels die in zijn lexicale en morfologische component niet louter statische of opsommende, maar tevens dynamische of extendeerbare structuren vertoont. Het streven is naar een dynamische economie/zuinigheid in de behandeling van variabele fenomenen. Niet alleen (taalspecifieke) categoriale variatie ressorteert hieronder, maar eveneens (meer algemene) betekenisvariatie.Ga naar eind2. Een eerste stap in die richting zou dan kunnen betekenen dat, naar analogie van een categoriale graaf zoals in Dilemma gebruikt (zie fig.1), thans ook semantico-syntactische relaties (zoals b.v. selectierestricties) in grafen worden vastgelegd: net zoals hammer in Dilemma de basiscategorie | ||||||||
[pagina 76]
| ||||||||
noun krijgt toegewezen en de richtingsaanwijzer left (zodat het woord ook verb en adjective kan worden), zou een woord als bibliotheek het basiskenmerk artefact kunnen krijgen met de mogelijkheid te verschuiven naar het kenmerk locatie en verder naar het kenmerk institutie, etcetera. Voorganger- en opvolgerrelaties tussen woordcategorieën in het Engels Figuur 1
Zoals gezegd echter ga ik in dit artikel niet verder op dit aspect in, al zal het duidelijk zijn dat, willen lexica intelligent genoemd worden, zij niet alleen statische kennis moeten bevatten, maar tevens mogelijkheden om die kennis uit te breiden en te overstijgen. | ||||||||
3 LexpertDaar waar ik, in wat voorafgaat, heb gewezen op de dynamische dimensie van het lexicon, zou ik aan de hand van Lexpert enig licht willen werpen op de lexicale kennisstructuur zelf: wat ‘weet’/‘ken’ je in feite als je een woord ‘kent’/‘weet’? Lexpert-1 (MARTIN-MORTIER 1989) is een computerprogramma dat, als prototype voor Van Dale-Lexicografie en Van Dale-Talen, ontwikkeld werd ongeveer één jaar geleden. Het ging daarbij om het opbouwen van lexicale kennis omtrent woorden uit een tekst en die kennis te gebruiken bij raadstrategieën die leerders in staat zouden moeten stellen woorden te begrijpen en te gebruiken. Gegeven een willekeurige Engelse tekst wordt er door Lexpert
omtrent lexemen opgebouwd. De morfo-syntactische kennis komt via | ||||||||
[pagina 77]
| ||||||||
Dilemma tot stand, de pragmatische kennis is een door de docent in te vullen lege module (die onder meer opvulling vraagt met betrekking tot attributen als stijl, teksttype, domein, regio enz.)Ga naar eind3., de lexico-semantische kennis is de Engelse Van Dale, deel E-N (verder EVD) (voor het prototype, op PC geïmplementeerd, alleen bestaande uit de lexemen die in de behandelde tekst voorkwamen). Het is de bedoeling dat het systeem, finaliter, wanneer de gebruiker de cursor op een bepaald woord of element van een uitdrukking in een tekst plaatst, de gebruiker dan ook informeert over wat het Engelse woord of uitdrukking in het Nederlands (althans volgens de EVD) betekent, in casu hoe een en ander zou kunnen vertaald worden. Lexpert komt daarbij, in zijn huidige versie, vrij dicht in de buurt van een ‘word’, of beter, ‘lexeme’ translator. Toch is, uiteraard, de naam Lexpert, lexicaal expert, te hoog gegrepen; daarvoor is de kennis van Lexpert niet zozeer te beperkt, als wel te oppervlakkig, te ondiep. Vanuit het standpunt van het (computationele) lexicon echter is het daarbij niet onbelangrijk in te zien dat Lexpert niet alleen over lexicale kennis moet beschikkenGa naar eind4., maar ook en vooral over metakennis, i.e. kennis over zijn eigen organisatie, met name de organisatie van de EVD. Het feit dat Lexpert de EVD-organisatie kent, geeft namelijk aanleiding tot het ontwikkelen van inferentietechnieken waarbij de EVD-structuurelementen als keuzebepalers functioneren. Anders gesteld: de constraints die vaak de lexicale keuze bepalen, zouden idealiter hun weerspiegeling/expressie moeten vinden in de organisatie van het lexicon. In zoverre de EVD daarmee rekening heeft gehouden en deze metakennis ook aan Lexpert bekend is, slaagt deze erin heel wat lexicale ambiguïteit op te lossen zoals uit de nu volgende voorbeelden moge blijken. In fig.2 is een paragraaf van de behandelde tekst uit het prototype weergegeven; onderstreept zijn 3 woorden: doubled, confectionery en lead. In appendix is de informatie uit de EVD met betrekking tot doublé weergegeven en het relevante gedeelte in de meer dan één kolom woordenboektekst bestrijkende informatie op de voorgrond gebracht. Figuur 2
Zoals bekend is de semantiek van vertaalwoordenboeken voornamelijk te vinden in de vertalingen (buiten context) en in de voorbeelden (in context). Gegeven het feit dat een passief vertaalwoordenboek van het type vreemde | ||||||||
[pagina 78]
| ||||||||
taal-moedertaal van het onbekende naar het bekende gaat, kan niet op het onbekende (b.v. de betekenis van een woord) een beroep worden gedaan bij de organisatie van de informatie. Er wordt dus in de Van Dale Vreemde Taal-Nederlands woordenboeken van de vorm uitgegaan om tot de betekenis te komen: betekenisonderscheidingen worden georganiseerd op basis van categoriale, subcategoriale, pragmatisch-contextuele en combinatorische kenmerken. Door niet alleen weet te hebben van een bepaald kennisniveau (i.c. vertalingen), maar tevens van het meta-niveau van deze kennis, in casu de (gedeeltelijke) organisatie van deze vertalingen, slaagt Lexpert er heel vaak in zinvolle keuzes te maken. Zo zal hij in het geval ‘a sitting-room which doubled as our bedroom’ een eerste betekenisverband suggereren met ‘in the play he doubled as the father’ - in het stuk speelt hij ook de rol van de vader - en vandaaruit meer in het algemeen met: ‘een dubbele rol spelen, een dubbele functie hebben’. Zo zal hij ook lead in ‘a little yapping black thing on a lead’ feilloos oplossen, al moet er nu uit bijna twee kolommen woordenboekinformatie gekozen worden (met het additionele probleem van het onderscheid tussen de nomina lead (= lood) en lead (= leiding) - onderscheid dat thans niet door middel van uitspraakinformatie kan worden opgelost). Bij confectionery echter waar het woordenboek maar vier regels informatie telt zal geen volledig uitsluitsel kunnen gegeven worden (cf. infra). In de regel zal overigens gelden dat ‘the more idiosyncratic a structure, the easier it is to distinguish it from the other possibilities’ (HIRST, 1986, 156), omdat met name de EVD met dit fenomeen in de organisatie van informatie rekening houdt. | ||||||||
4 Relationele definitiemodellenTot dusver heb ik twee, mijns inziens essentiële dimensies, van lexica in het algemeen, computerlexica in het bijzonder, de revue laten passeren. Ik voeg daar thans een derde belangrijke dimensie aan toe, te weten de relationele. Lexica moeten niet alleen dynamisch zijn en kennis over hun eigen kennis hebben willen ze überhaupt als (intelligente) computerlexica kunnen functioneren, i.e. als lexicale componenten in NT-verwerkende systemen, ze moeten daarenboven ook een toegankelijke en krachtige betekenisstructuur vertonen. Bij Lexpert-1 bleek dat vorm en betekenis bepaalde relaties vertoonden en dat, door bij de organisatie van de betekenis, met de vorm rekening te houden, de betekenis ten dele toegankelijk werd. Ten dele: bij een geval als ‘a few boxes of confectionery’ werd weliswaar de lezing banketbakkerij/banketbakkerswinkel uitgeschakeld, een keuze tussen gebak en banketbakkersvak werd echter niet gemaakt.Ga naar eind5. Het is echter duidelijk dat woorden, of beter, woordbetekenissen niet alleen (formele) attributen krijgen maar dat zij tevens gerelateerd aan andere woordbetekenissen in ons geheugen worden opgeslagen. Een eenvoudige vraag | ||||||||
[pagina 79]
| ||||||||
naar aanleiding van de uiting ‘Alice was crossing the clearing when she heard a mew. She turned and saw a black kitten’, namelijk ‘what did the cat do?’ (zie EVENS 1985) is hiervan een goede illustratie. Een semantische analyse zal dan ook steeds - in een of andere vorm - een representatie van relaties tussen conceptuele betekenissen impliceren. In navolging van EVENS 1988 wordt er thans aan de VU-studierichting Lexicologie binnen een tweetal onderzoeksprojectenGa naar eind6. aan geformaliseerde relationele definitiemodellen gewerkt. In beide projecten immers speelt de organisatie van conceptuele betekenis een belangrijke rol. Voorbeelden van een relationele aanpak terzake vindt men in fig.3 en 4.Ga naar eind7. Figuur 4
Ad fig.3: gegeven een bepaalde woordbetekenis wordt deze al naar gelang van het geval gekoppeld aan bepaalde nominale concepten (entiteiten) of verbale concepten/relatoren (acties, toestanden, processen) die op hun beurt weer andere concepten kunnen oproepen. Voor bouwvakker wordt | ||||||||
[pagina 80]
| ||||||||
bijvoorbeeld in eerste instantie alleen maar een relatie gelegd met een bepaald type entiteit nl. ‘arbeider’ en een bepaalde rol nl. locative, i.c. bouwsector; in tweede instantie wordt dan via dit type een bepaalde verbale relator opgeroepen, nl. ‘verrichten’. Deze relator behoort tot een bepaald predikaatstype (nl. Act-2) dat op zijn beurt een aantal andere argumenten of rollen oproept. Op een dergelijke wijze kunnen definities gesystematiseerd worden en exploiteerbaar gemaakt. Het spreekt vanzelf dat een gedetailleerde taxonomie van types en hun onderlinge relaties de ruggegraat vormt van het systeem. Terecht stelt Sowa dat ‘A hierarchy of concept types is central to most knowledge representation systems’ (SOWA, 1988, 119). Ad fig.4: daar waar fig.3 gekozen werd voor een netwerkrepresentatie wordt in fig.4 van een aantal relationele triples uitgegaan. Lexemen of lexicale elementen als ziekte, disease, maladie, -itis krijgen de conceptuele betekenis DISEASE die een aantal centrale relaties oproept zoals mayCause (cf. Effector/Cause), hasDisease (Theme), naast een aantal meer perifere zoals b.v. hasCommunication (= wijze waarop ziekte kan worden overgedragen). Mutatis mutandis kan DISEASE als een conceptueel frame worden aangezien dat een aantal centrale en perifere slots oproept, waarbij al naar gelang van het geval, aan de slots condities gesteld worden (zie b.v. Theme) die dan bepaalde fillers al dan niet toelaten. Zo b.v. zal het Engelse woord cataract in het slot voor Theme de unieke specificatie EYE krijgen (in het Engels o.m. door ‘eye’ te lexicaliseren). Een lexicon dat betekenissen op een dergelijke wijze organiseert zou in staat moeten zijn ‘eye cataract’ als niet welgevormd te beschouwen, ‘respiratory tract disease’ als ((respiratory tract) disease) en niet als ((respiratory) ((tract)disease)) te analyseren en, tenslotte, tussen ‘cataract’ en ‘visual system’ het juiste verband te kunnen leggen. | ||||||||
5 Ter afsluitingIn het voorgaande heb ik geprobeerd een idee te geven van belangrijke dimensies van het computationeel-lexicologische onderzoek in het algemeen, dat aan de VU in het bijzonder. Met name heb ik gewezen op twee intralexematische (de dynamische en de meta-cognitieve) en een interlexematische (de relationele) dimensie. Ik zou deze uiteenzetting dan ook geslaagd weten indien de problemen die daarbij aan de orde zijn of zullen komen niet alleen onze maar ook Uw belangstelling zouden mogen wegdragen. | ||||||||
[pagina 81]
| ||||||||
Bibliografie
| ||||||||
[pagina 82]
| ||||||||
| ||||||||
[pagina 83]
| ||||||||
Appendix |
|