Tabu. Jaargang 20
(1990)– [tijdschrift] Tabu– Auteursrechtelijk beschermd
[pagina 137]
| |||||||||||||||||||||||||||||||||||||||||||
Het computationele lexicon op ware grootte
| |||||||||||||||||||||||||||||||||||||||||||
[pagina 138]
| |||||||||||||||||||||||||||||||||||||||||||
LEX) gekozen voor de tweede mogelijkheid, c.q. de systematische exploratie en exploitatie van MRDs -- met name de Longman Dictionary of Contemporary English (LDOCE) -- en de omvorming van gegevens daaruit tot lexicons met specifieke NLP-toepassingsmogelijkheden. Dat het meeste onderzoek op dit gebied zich voor wat het Engels betreft heeft gericht op de LDOCE is natuurlijk niet toevallig. LDOCE is het eerste Engelstalige woordenboek dat niet alleen machine-leesbaar is, maar waarbij de computer ook een zeer wezenlijke bijdrage aan de totstandkoming en interne coherentie ervan heeft geleverd. Dat gerichte benutting van de in LDOCE vervatte gegevens desondanks zeer aanzienlijke onderzoeksinspanningen (heeft) vereist (verg. b.v. Akkerman et al. 1986 en 1988) valt niet te ontkennen. Ons inziens wegen de rijkdom en reikwijdte van de bereikte resultaten echter ruimschoots hiertegenop. | |||||||||||||||||||||||||||||||||||||||||||
2 MRDs en lexicale kennisrepresentatieWat betreft de betekenisrepresentaties van de woorden kan een woordenboek beschouwd worden als een soort lexicale kennisbank, die tot op zekere hoogte een talige afspiegeling vormt van onze kennis van de wereld. Er bestaan stromingen in de taalwetenschap die stellen dat al onze kennis perceptueel of conceptueel is, en voorzover conceptueel tegelijk talig. Een dergelijke benadering is goed te rijmen met het rijk-gedocumenteerde (en vaak geconstateerde) gegeven dat verschillende culturen de werkelijkheid op verschillende manieren opdelen, en dat deze verschillen ook in de met die culturen corresponderende talen tot uiting komen. Dit resulteert onder meer in het feit dat sommige begrippen in de ene taal (cultuur) soms zeer moeizaam, of helemaal niet, naar een andere taal (cultuur) te vertalen zijn. De hierboven genoemde opvatting doet met name in de Functionele Grammatica (Dik 1989) opgeld. De FG -- die een belangrijk oriëntatiepunt vormt in ons onderzoek -- wijst dan ook abstracte betekeniselementen (‘semantic features’) af, en stelt dat al onze conceptuele kennis opgeslagen ligt in predikaten. Een consequentie hiervan is onder andere dat een en hetzelfde stukje kennis op verschillende manieren -- dat wil zeggen in verschillende predikaten -- opgeslagen kan zijn: als A bij B ‘in dienst is’ (wat op zichzelf al correspondeert met een bepaald predikaat), kunnen we dat uitdrukken door te zeggen: ‘A werkt bij B’, ‘B is A's werkgever’, ‘A is werknemer bij B’ enzovoort. Hoewel de uitdrukkingsvormen corresponderend met deze predikaten van elkaar verschillen, is de conceptuele inhoud in essentie steeds dezelfde. Woordenboeken verschillen vaak op vergelijkbare wijze van elkaar: woordenboeken die onafhankelijk van elkaar zijn opgesteld zullen zelden de conceptuele inhoud van een en hetzelfde woord in precies dezelfde bewoordingen omschrijven. Ten aanzien van de globale onderlinge samenhang van de gedefinieerde begrippen zal er echter toch een grote mate van overeenstem- | |||||||||||||||||||||||||||||||||||||||||||
[pagina 139]
| |||||||||||||||||||||||||||||||||||||||||||
ming zijn. Gezien de gemeenschappelijke culturele en talige verankering is het uiterst onwaarschijnlijk dat het ene woordenboek een bepaald woord (c.q. het daarmee gedekte begrip) indeelt in de categorie ‘vogels’, terwijl een ander woordenboek het indeelt bij de categorie ‘vissen’ (om maar eens iets te noemen). De gemeenschappelijke verankering leidt ongetwijfeld tot indelingen in categorieën/taxonomieën die grotendeels met elkaar overeen zullen komen, hoewel de feitelijk gebruikte predikaten -- c.q. de gebezigde bewoordingen in de definities -- aanzienlijke verschillen kunnen vertonen. Om de talig-culturele verankering van een woordenboek op het spoor te komen is het dus van groot belang de gebezigde predikaten systematisch met elkaar te verbinden, bijvoorbeeld om inferenties te kunnen maken die gebaseerd zijn op de onderlinge afhankelijkheid van de verschillende kenniselementen. Het gaat er hierbij om betekenispostulaten te traceren aan de hand waarvan relaties als synonymie, antonymie, hyponymie, metonymie en dergelijke kunnen worden vastgesteld. Overigens geldt over het algemeen dat de in woordenboeken gebezigde definities niet het karakter hebben van wetenschappelijke omschrijvingen, maar veeleer lijken op de ‘alledaagse’, nietspecialistische conceptualiseringen van doorsnee taalgebruikers -- iets wat ons inziens bepaald geen nadeel is. Zo vertonen de inferenties die taalgebruikers normaliter maken in de optiek van bijvoorbeeld het ‘naive semantics’ kader (Dahlgren 1988, Dahlgren, McDowell & Stabler 1989) veeleer een ‘gezond verstand logica’ dan een strikt ‘logische’ logica. | |||||||||||||||||||||||||||||||||||||||||||
3 Kort overzicht van de gevolgde methodiekDe kennis over woorden die is vervat in de definities van woordenboeken is opgeslagen in de vorm van expressies in natuurlijke taal, bestemd voor een menselijke lezer die in staat is om de betekenis van die uitdrukking te begrijpen. De betekenis van zo'n uitdrukking hangt af van zowel de structuur als van de betekenis van de woorden waaruit die is opgebouwd. Uit het feit dat in de definities van ‘Afghan’ en ‘bark’ het woord ‘dog’ voorkomt kunnen we niet de zelfde implicaties afleiden over de betreffende lemma's:
In de definitie van Afghan is ‘dog’ de syntactische en semantische kern van de definitie en kunnen we daarom afleiden dat een ‘Afghan’ een soort ‘dog’ sis. In de definitie van ‘bark’ is echter ‘dog’ niet de kern maar ‘sound’ wat tot geheel andere implicaties leidt over ‘bark’. Een zoekactie naar definities met een bepaald woord zal dan ook niet noodzakelijkerwijs tot een homogene groep concepten leiden. Echter, een meer specifieke eis dat het woord in die definities ook de- | |||||||||||||||||||||||||||||||||||||||||||
[pagina 140]
| |||||||||||||||||||||||||||||||||||||||||||
zelfde functie moet hebben is evenmin in alle gevallen voldoende:
Het woord ‘body’ heeft volgens LDOCE 10 verschillende betekenissen en is in de definities gebruikt in minstens 4 verschillende betekenissen. Dientengevolge heeft het toegankelijk maken van de informatie vervat in de definities plaatsgevonden in twee fasen:
| |||||||||||||||||||||||||||||||||||||||||||
3.1 De analyse van de structuur van de definities in LDOCEEerst is er een typologie ontwikkeld van de verschillende structuren van definities in het woordenboek die die structuren verklaart in termen van het semantisch effect. Het semantisch effect kan worden omschreven als het soort relatie dat wordt gelegd tussen het lemma en de woorden uit de definitie. Hiertoe zijn de definities opgeslagen in de vorm van een ‘getagged’ corpus waarin ieder definitiewoord is voorzien van een grammaticale code die de woordsoort en de flectie van het woord aangeeft. Met behulp van het zoek-programma Query (Van der Steen, 1982) is het mogelijk om in een dergelijk corpus snel en systematisch te zoeken naar patronen van woorden en/of codes. Na de inventarisatie van de typen definitiestructuren heeft een uitgebreide inventarisatie van de constituentstructuren plaatsgevonden waarbij is nagegaan hoe die constituenten konden worden beschreven in termen van die definitiesoorten. Vervolgens is met behulp van het Parspat-systeem (Van der Steen, 1987) een parser ontwikkeld die alle definities automatisch analyseert in termen van die structuren. Die analyses zijn tenslotte opgeslagen in een database programma (Linguistic Database pakket oftewel LDB, Van Halteren en Van den Heuvel, 1989) dat speciaal is ontwikkeld voor de opslag en exploitatie van grote bestanden met syntactische analyses (in totaal gaat het om circa 65 000 geanalyseerde definities) zodat het mogelijk is om via de computer systematisch toegang te krijgen tot de informatie in het woordenboek. | |||||||||||||||||||||||||||||||||||||||||||
3.2 Polyseme woorden in de definitiesIn de tweede fase is van de hoofdtermen uit die definities de betekenis | |||||||||||||||||||||||||||||||||||||||||||
[pagina 141]
| |||||||||||||||||||||||||||||||||||||||||||
bepaald waarin ze zijn gebruikt. Hierbij is zoveel mogelijk gebruik gemaakt van de informatie die door de eerste fase beschikbaar is gekomen. Zo is bijvoorbeeld eerst nagegaan hoeveel woorden polyseem zijn en in wat voor mate, en vervolgens is gekeken hoe de woorden die een prominente rol spelen in de definities zich tot de meest polyseme woorden verhouden. Verder is gekeken in hoeverre het mogelijk was om door combinatie van gegevens bepaalde lezingen van definitiewoorden bij voorbaat uit te sluiten (Vossen, 1990). | |||||||||||||||||||||||||||||||||||||||||||
3.3 De soorten relatiesDe output van de syntactische analyse betrof drie bestanden (met analyses van de zelfstandige naamwoorden, werkwoorden en adjectiva) met gelabelde haakjesstructuren waarin de constituentstructuur van de definities is weergegeven en waarbij, waar mogelijk, specifiekere semantische functies van die constituenten zijn aangegeven. De analyses van bijvoorbeeld de definities van de zelfstandige naamwoorden betrof naast enkele andere structuren een beschrijving van NPs in termen van een ‘determiner-component’, een ‘pre- en post-modifier component’ en een ‘kernel-component’. De ‘kernel-component’ betreft onder andere niet-complexe kernen waarin het syntactische hoofd ook het semantisch belangrijkste element is, bijvoorbeeld:
Dergelijk kernen kunnen gezien worden als de genus-term van de definitie die de klasse van dingen representeert (het hyperoniem) waarnaar het lemma verwijst. Bij complexe kernen daarentegen wordt niet zozeer de klasse aangegeven maar wordt het lemma gerelateerd aan een ander concept waarbij het syntactische hoofd slechts de relatie aangeeft:
De zogenaamde ‘of-complementen’ zijn in dit geval de meest informatieve elementen, terwijl de syntactische kernen ‘part’, ‘mass’, ‘group’ en ‘piece’ de elementen na of op bepaalde systematische manieren aan de desbetreffende lemma's relateren. Ongeacht het feit dat een kern complex is of niet, de relatie tussen de | |||||||||||||||||||||||||||||||||||||||||||
[pagina 142]
| |||||||||||||||||||||||||||||||||||||||||||
woorden uit de definitie wordt primair bepaald door het type kern. De preen post-modificators van die kernen geven slechts de differentia aan. Als zodanig voegen zij kenmerken toe, specificeren geïmpliceerde kenmerken of ontkennen weer andere implicaties die volgen uit het type entiteit dat door de kern bepaald is. Typische post-modificators van NPs zijn: PPs, VPs, relatieve bijzinnen, waarbij de laatste twee constituent-structuren zelf zeer complex kunnen zijn (op hun beurt bijvoorbeeld weer ingebedde bijzinnen en VPs bevattend). Verder kan op elk nivo binnen de analyse coördinatie optreden en kunnen de constituenten worden onderbroken door allerlei speciale constructies die woordenboekdefinities eigen zijn (zoals voorbeelden, specificaties, negaties, verwijzingen, commentaar, analogieën, etcetera). De structuren van de definities van adjectieven en werkwoorden konden worden beschreven in termen van sub-structuren die reeds binnen de NP-grammatica van de zelfstandige naamwoorden gedefinieerd waren. | |||||||||||||||||||||||||||||||||||||||||||
4 Systematische toegang tot de informatie vervat in LDOCEDoordat de informatie uit de definities nu systematisch toegankelijk is geworden is het mogelijk om die informatie op manieren te ordenen die in een woordenboek als ‘boek’ niet mogelijk zijn en zo inzicht te verwerven in het geheel aan lexicale relaties dat een woordenboek rijk is. Wat houdt systematische toegang tot de woorden van een taal in? | |||||||||||||||||||||||||||||||||||||||||||
4.1 Semantische veldenEen voor de hand liggende manier om de woorden uit het woordenboek te ordenen is in semantische velden, dat wil zeggen alle woorden die de zelfde kern hebben, bijvoorbeeld alle lemma's met ‘instrument’ als kern in de eerste betekenis volgens LDOCE (dat wil zeggen niet als muziekinstrument). Nog interessanter is het om bij dergelijke velden te kijken naar gemeenschappelijke informatie uitgedrukt in pre- en post-modificators van die kernen. In het onderstaande voorbeelden zijn lemma's opgenomen die niet alleen ‘instruments’ zijn maar bovendien ‘gebruikt worden om iets te meten’:
Ook is het mogelijk om ordeningen minder strict te maken, bijvoorbeeld alle | |||||||||||||||||||||||||||||||||||||||||||
[pagina 143]
| |||||||||||||||||||||||||||||||||||||||||||
lemma's die minimaal een eigenschap gemeen hebben zoals ‘blue’:
Zo ook is het mogelijk om inventarisaties te maken van alle adjectiva die als pre-modificator gebruikt zijn met hun frequentie:
Uit deze lijst met de meest voorkomende pre-modificators blijkt onder meer de prominentie van perceptuele eigenschappen en daarvan met name ‘shape’ en ‘size’. | |||||||||||||||||||||||||||||||||||||||||||
4.2 DefinitieketensEen geheel andere manier om de woorden in een lexicon te relateren, door Dik (1978) beschreven als ‘Stepwise Lexical Decomposition’, bestaat uit het vormen van ketens van lemma-kern-paren, waarbij de kern van de definitie van een lemma steeds wordt opgezocht als lemma in het zelfde woordenboek met zijn eigen definitie, bijvoorbeeld:
Dergelijke ketens leiden noodzakelijkwijs tot circulariteit doordat de lexicograaf over geen andere middelen beschikt dan de woorden van de taal die | |||||||||||||||||||||||||||||||||||||||||||
[pagina 144]
| |||||||||||||||||||||||||||||||||||||||||||
beschreven wordt. Velden in combinatie met dit soort ketens leveren een zeer krachtig systeem op waarin allerlei informatie kan worden afgeleid. Alle eigenschappen die voor het semantische veld ‘food’ gelden (zoals: ‘eatability’, ‘taste’, ‘structure’, etcetera), gelden automatisch voor ‘cake’ en ‘bun’. Doordat het nu in principe mogelijk is om voor alle woorden uit het woordenboek dergelijke ketens en velden automatisch te genereren is het ook mogelijk om dergelijke overervingen op grote schaal te bestuderen. Mogelijke toepassingen van dergelijke ‘talige’ systemen worden onder andere beschreven door Dik 1987, 1989a, 1989b en Fass 1989. | |||||||||||||||||||||||||||||||||||||||||||
4.3 Netwerken rond belangrijke conceptenIn de voorgaande structureringen van de relaties in het woordenboek spelen alleen hyponymie-relaties een rol. Echter, zoals al eerder vermeldt, komen ook anders-soortige relaties voor zoals ‘part-whole’, ‘member-group’, ‘mass-quantity’, etcetera. Gegeven de analyses, is het mogelijk om naar een heel netwerk van relaties te kijken rond ‘belangrijke’ concepten. Indien we bijvoorbeeld kijken naar een aantal lemma's die via hyponymie- en nonhyponymie-relaties aan ‘water’ zijn gerelateerd dan ontstaat het volgende beeld:
Dergelijke netwerken van gerelateerde woorden laten goed zien op wat voor wijze concepten in een taal gelexicaliseerd zijn. Het soort relaties wordt in belangrijke mate bepaald door het type concept waaraan gerelateerd wordt. Zo zullen rond het concept ‘person’ andere relaties gevonden worden (‘group’, ‘member’, etc.) dan voor een massa-aanduidend zelfstandig naamwoord als ‘water’. Andere verschijnselen zoals lexicalisatie van concepten die naar een basis concept verwijzen dat een bepaalde functie heeft (zoals: ‘drinking water’, ‘dishwater’, ‘douche’, etc.) zullen daarentegen bij allerlei typen concepten voorkomen. Hieruit valt ook af te leiden dat een taal over een rijk instrumentarium beschikt om hetzelfde concept ‘water’ in allerlei verschijningsvormen, verwikkeld in allerlei gebeurtenissen in variabele rollen door middel van een eenvoudige uitdrukking te benoemen. Een dergelijke | |||||||||||||||||||||||||||||||||||||||||||
[pagina 145]
| |||||||||||||||||||||||||||||||||||||||||||
verstrengeling van taal en concepten lijkt dan ook de hypothese van Dik dat conceptuele kennis talig is te ondersteunen. | |||||||||||||||||||||||||||||||||||||||||||
4.4 Verschillende conceptuele nivo's in het woordenboekDoor te kijken naar de rol die de lemma's uit het woordenboek spelen in de betekenisomschrijvingen is het mogelijk om een indeling te maken in drie nivo's:
Bij de indeling van de lemma's in deze nivo's bleek dat de definities van het top-nivo niet alleen circulair waren maar dat die lemma's bovendien zeer polyseem waren en vaak vage abstracte definities hadden die zonder voorbeelden niet begrijpbaar waren. De relaties tussen de top-nivo lemma's bleken bovendien niet altijd even consistent (Vossen 1990). Zo zijn ‘animal’ en ‘creature’ in elkaar gedefinieerd en op generlei wijze gerelateerd aan ‘human being’ en ‘plant’. Iets dergelijks geldt ook voor ‘substance’ dat wel ‘liquid’ en ‘gas’ als hyponiemen heeft maar niet ‘solid’. Dat de informatie vervat in een woordenboek niet altijd even bruikbaar is zal geen nieuws zijn. Door echter een indeling te maken in conceptuele nivo's binnen het woordenboek is het mogelijk om de ergste gevallen te isoleren en, aangezien het een vrij kleine groep betreft, eventueel handmatig te vervangen. Daarbij zou gedacht kunnen worden aan een systeem van atomair gedefinieerde begrippen dat complementair is aan het in termen van lexicale relaties gedefinieerde woordenboek. Een dergelijke tweedeling in abstracte primaire ‘features’ en meer specifieke incidentele concepten die ook meer taalafhankelijk lijken is ook gesuggereerd door Aarts en Calbert (1977) vanuit een theoretisch oog- | |||||||||||||||||||||||||||||||||||||||||||
[pagina 146]
| |||||||||||||||||||||||||||||||||||||||||||
punt. Zoals de analyses van de definities nu vervat zijn in het LDB pakket uit Nijmegen is het niet eenvoudig om op de hierboven beschreven manieren op grote schaal het woordenboek te doorkruisen. Daarom wordt er nu een systeem ontwikkeld genaamd DEVIL (DEcomposition VIa the Lexicon) dat de relevante data die uit het LDB zijn uitgelezen opslaat in een ‘L-tree’ systeem (Skolnik 1980). Hierdoor wordt het mogelijk alle genoemde relaties en onderscheidingen maximaal toegankelijk en toepasbaar te maken voor verdere NLP applicaties. | |||||||||||||||||||||||||||||||||||||||||||
Bibliografie
| |||||||||||||||||||||||||||||||||||||||||||
[pagina 147]
| |||||||||||||||||||||||||||||||||||||||||||
|