Tabu. Jaargang 20

(1990)– [tijdschrift] Tabu– rechtenstatus

Het computationele lexicon op ware grootte
Willem Meijs en Piek VossenGa naar eind0

1 Inleiding

Aangezien taal alles met woorden te maken heeft, heeft elke onderneming op het gebied van de computationele natuurlijke taalverwerking (NLP -- Natural Language Processing) een lexicon in een of andere vorm nodig. Er zijn ruwweg twee manieren om aan een dergelijk lexicon te komen: er zelf een maken, of een bestaand machine-leesbaar woordenboek gebruiken.

Het zelf maken van een lexicon heeft het voordeel dat alles precies kan worden afgestemd op de behoeften van het desbetreffende NLP-systeem. Nadeel is echter dat het handmatig construeren van een lexicon van enige omvang een heel arbeids- intensieve, tijdrovende, en op den duur waarschijnlijk ook nogal geestdodende aangelegenheid is. Gezien de beperkingen waaraan onderzoek op NLP-gebied (alsook op andere terreinen) gewoonlijk onderhevig is ten aanzien van tijd, mankracht, en middelen, betekent dit dat aldus geconstrueerde lexicons in de praktijk over het algemeen vrij klein zijn, waardoor zij maar een zeer geringe dekking bereiken, en meer illustratief dan representatief zijn voor de rijke lexicale geschakeerdheid die natuurlijke talen kenmerkt. Zo wijzen Boguraev en Briscoe (1989) op het feit dat uit een inventarisatie van NLP-lexicons blijkt dat de gemiddelde omvang minder dan 100 woorden bedraagt.

Inschakeling van een bestaand machine-leesbaar woordenboek (MRD -- machine-readable dictionary) heeft het voordeel dat een veel groter lexicon kan worden gevormd, met een veel betere dekking en representativiteit. Bovendien heeft een aldus verkregen lexicon (afhankelijk van de gekozen bron, uiteraard) meestal per item een veel groter scala van gegevens: gegevens over uitspraak, spelling, klemtoon, afbreekmogelijkheden, woordsoort, subcategorisatie, stijlregister, uitdrukkingen, collocaties, enzovoort. Nadeel van een dergelijk lexicon kan zijn dat aard en indeling van de lemmata niet specifiek afgestemd zijn op het omvattende NLP-kader, en dat de interne systematiek en consistentie juist door de grote omvang van het materiaal soms te wensen overlaten, zodat vaak allerlei aanpassingen en omvormingen nodig zullen zijn. Verder kan juist de rijkdom aan gegevens in een MRD een (betrekkelijk) bezwaar zijn, als de betreffende NLP-omgeving slechts een beperkte selectie van die gegevens nodig heeft -- een betrekkelijk bezwaar, want computationeel gezien is het over het algemeen niet zo moeilijk om niet-gewenste gegevens uit te sluiten.

Hoe dan ook, in onze instituutsomgeving is in het kader van een aantal samenhangende onderzoeksprojecten (ASCOT, LINKS, LEXALYSE en ACQUI-

LEX) gekozen voor de tweede mogelijkheid, c.q. de systematische exploratie en exploitatie van MRDs -- met name de Longman Dictionary of Contemporary English (LDOCE) -- en de omvorming van gegevens daaruit tot lexicons met specifieke NLP-toepassingsmogelijkheden. Dat het meeste onderzoek op dit gebied zich voor wat het Engels betreft heeft gericht op de LDOCE is natuurlijk niet toevallig. LDOCE is het eerste Engelstalige woordenboek dat niet alleen machine-leesbaar is, maar waarbij de computer ook een zeer wezenlijke bijdrage aan de totstandkoming en interne coherentie ervan heeft geleverd. Dat gerichte benutting van de in LDOCE vervatte gegevens desondanks zeer aanzienlijke onderzoeksinspanningen (heeft) vereist (verg. b.v. Akkerman et al. 1986 en 1988) valt niet te ontkennen. Ons inziens wegen de rijkdom en reikwijdte van de bereikte resultaten echter ruimschoots hiertegenop.

2 MRDs en lexicale kennisrepresentatie

Wat betreft de betekenisrepresentaties van de woorden kan een woordenboek beschouwd worden als een soort lexicale kennisbank, die tot op zekere hoogte een talige afspiegeling vormt van onze kennis van de wereld. Er bestaan stromingen in de taalwetenschap die stellen dat al onze kennis perceptueel of conceptueel is, en voorzover conceptueel tegelijk talig. Een dergelijke benadering is goed te rijmen met het rijk-gedocumenteerde (en vaak geconstateerde) gegeven dat verschillende culturen de werkelijkheid op verschillende manieren opdelen, en dat deze verschillen ook in de met die culturen corresponderende talen tot uiting komen. Dit resulteert onder meer in het feit dat sommige begrippen in de ene taal (cultuur) soms zeer moeizaam, of helemaal niet, naar een andere taal (cultuur) te vertalen zijn.

De hierboven genoemde opvatting doet met name in de Functionele Grammatica (Dik 1989) opgeld. De FG -- die een belangrijk oriëntatiepunt vormt in ons onderzoek -- wijst dan ook abstracte betekeniselementen (‘semantic features’) af, en stelt dat al onze conceptuele kennis opgeslagen ligt in predikaten. Een consequentie hiervan is onder andere dat een en hetzelfde stukje kennis op verschillende manieren -- dat wil zeggen in verschillende predikaten -- opgeslagen kan zijn: als A bij B ‘in dienst is’ (wat op zichzelf al correspondeert met een bepaald predikaat), kunnen we dat uitdrukken door te zeggen: ‘A werkt bij B’, ‘B is A's werkgever’, ‘A is werknemer bij B’ enzovoort. Hoewel de uitdrukkingsvormen corresponderend met deze predikaten van elkaar verschillen, is de conceptuele inhoud in essentie steeds dezelfde.

Woordenboeken verschillen vaak op vergelijkbare wijze van elkaar: woordenboeken die onafhankelijk van elkaar zijn opgesteld zullen zelden de conceptuele inhoud van een en hetzelfde woord in precies dezelfde bewoordingen omschrijven. Ten aanzien van de globale onderlinge samenhang van de gedefinieerde begrippen zal er echter toch een grote mate van overeenstem-

ming zijn. Gezien de gemeenschappelijke culturele en talige verankering is het uiterst onwaarschijnlijk dat het ene woordenboek een bepaald woord (c.q. het daarmee gedekte begrip) indeelt in de categorie ‘vogels’, terwijl een ander woordenboek het indeelt bij de categorie ‘vissen’ (om maar eens iets te noemen). De gemeenschappelijke verankering leidt ongetwijfeld tot indelingen in categorieën/taxonomieën die grotendeels met elkaar overeen zullen komen, hoewel de feitelijk gebruikte predikaten -- c.q. de gebezigde bewoordingen in de definities -- aanzienlijke verschillen kunnen vertonen.

Om de talig-culturele verankering van een woordenboek op het spoor te komen is het dus van groot belang de gebezigde predikaten systematisch met elkaar te verbinden, bijvoorbeeld om inferenties te kunnen maken die gebaseerd zijn op de onderlinge afhankelijkheid van de verschillende kenniselementen. Het gaat er hierbij om betekenispostulaten te traceren aan de hand waarvan relaties als synonymie, antonymie, hyponymie, metonymie en dergelijke kunnen worden vastgesteld. Overigens geldt over het algemeen dat de in woordenboeken gebezigde definities niet het karakter hebben van wetenschappelijke omschrijvingen, maar veeleer lijken op de ‘alledaagse’, nietspecialistische conceptualiseringen van doorsnee taalgebruikers -- iets wat ons inziens bepaald geen nadeel is. Zo vertonen de inferenties die taalgebruikers normaliter maken in de optiek van bijvoorbeeld het ‘naive semantics’ kader (Dahlgren 1988, Dahlgren, McDowell & Stabler 1989) veeleer een ‘gezond verstand logica’ dan een strikt ‘logische’ logica.

3 Kort overzicht van de gevolgde methodiek

De kennis over woorden die is vervat in de definities van woordenboeken is opgeslagen in de vorm van expressies in natuurlijke taal, bestemd voor een menselijke lezer die in staat is om de betekenis van die uitdrukking te begrijpen. De betekenis van zo'n uitdrukking hangt af van zowel de structuur als van de betekenis van de woorden waaruit die is opgebouwd. Uit het feit dat in de definities van ‘Afghan’ en ‘bark’ het woord ‘dog’ voorkomt kunnen we niet de zelfde implicaties afleiden over de betreffende lemma's:

Lemma	Definitie
Afghan	a tall thin swift hunting dog ...
bark	the sound made by a dogGa naar eind1

In de definitie van Afghan is ‘dog’ de syntactische en semantische kern van de definitie en kunnen we daarom afleiden dat een ‘Afghan’ een soort ‘dog’ sis. In de definitie van ‘bark’ is echter ‘dog’ niet de kern maar ‘sound’ wat tot geheel andere implicaties leidt over ‘bark’. Een zoekactie naar definities met een bepaald woord zal dan ook niet noodzakelijkerwijs tot een homogene groep concepten leiden.

Echter, een meer specifieke eis dat het woord in die definities ook de-

zelfde functie moet hebben is evenmin in alle gevallen voldoende:

Lemma	Definitie
corpse	a dead body, esp. of a person
planet	a large body in space...

Het woord ‘body’ heeft volgens LDOCE 10 verschillende betekenissen en is in de definities gebruikt in minstens 4 verschillende betekenissen. Dientengevolge heeft het toegankelijk maken van de informatie vervat in de definities plaatsgevonden in twee fasen:

i	analyse van de structuur van de definities in termen van het semantisch effect ten aanzien van het lemma
ii	disambigueren van polyseme woorden uit de definities.

3.1 De analyse van de structuur van de definities in LDOCE

Eerst is er een typologie ontwikkeld van de verschillende structuren van definities in het woordenboek die die structuren verklaart in termen van het semantisch effect. Het semantisch effect kan worden omschreven als het soort relatie dat wordt gelegd tussen het lemma en de woorden uit de definitie. Hiertoe zijn de definities opgeslagen in de vorm van een ‘getagged’ corpus waarin ieder definitiewoord is voorzien van een grammaticale code die de woordsoort en de flectie van het woord aangeeft. Met behulp van het zoek-programma Query (Van der Steen, 1982) is het mogelijk om in een dergelijk corpus snel en systematisch te zoeken naar patronen van woorden en/of codes. Na de inventarisatie van de typen definitiestructuren heeft een uitgebreide inventarisatie van de constituentstructuren plaatsgevonden waarbij is nagegaan hoe die constituenten konden worden beschreven in termen van die definitiesoorten. Vervolgens is met behulp van het Parspat-systeem (Van der Steen, 1987) een parser ontwikkeld die alle definities automatisch analyseert in termen van die structuren. Die analyses zijn tenslotte opgeslagen in een database programma (Linguistic Database pakket oftewel LDB, Van Halteren en Van den Heuvel, 1989) dat speciaal is ontwikkeld voor de opslag en exploitatie van grote bestanden met syntactische analyses (in totaal gaat het om circa 65 000 geanalyseerde definities) zodat het mogelijk is om via de computer systematisch toegang te krijgen tot de informatie in het woordenboek.

3.2 Polyseme woorden in de definities

In de tweede fase is van de hoofdtermen uit die definities de betekenis

bepaald waarin ze zijn gebruikt. Hierbij is zoveel mogelijk gebruik gemaakt van de informatie die door de eerste fase beschikbaar is gekomen. Zo is bijvoorbeeld eerst nagegaan hoeveel woorden polyseem zijn en in wat voor mate, en vervolgens is gekeken hoe de woorden die een prominente rol spelen in de definities zich tot de meest polyseme woorden verhouden. Verder is gekeken in hoeverre het mogelijk was om door combinatie van gegevens bepaalde lezingen van definitiewoorden bij voorbaat uit te sluiten (Vossen, 1990).

3.3 De soorten relaties

De output van de syntactische analyse betrof drie bestanden (met analyses van de zelfstandige naamwoorden, werkwoorden en adjectiva) met gelabelde haakjesstructuren waarin de constituentstructuur van de definities is weergegeven en waarbij, waar mogelijk, specifiekere semantische functies van die constituenten zijn aangegeven. De analyses van bijvoorbeeld de definities van de zelfstandige naamwoorden betrof naast enkele andere structuren een beschrijving van NPs in termen van een ‘determiner-component’, een ‘pre- en post-modifier component’ en een ‘kernel-component’. De ‘kernel-component’ betreft onder andere niet-complexe kernen waarin het syntactische hoofd ook het semantisch belangrijkste element is, bijvoorbeeld:

Lemma	Definitie
watchdog	a fierce dog kept to guard property
sheepdog	a dog trained to drive sheep ...

Dergelijk kernen kunnen gezien worden als de genus-term van de definitie die de klasse van dingen representeert (het hyperoniem) waarnaar het lemma verwijst. Bij complexe kernen daarentegen wordt niet zozeer de klasse aangegeven maar wordt het lemma gerelateerd aan een ander concept waarbij het syntactische hoofd slechts de relatie aangeeft:

Lemma	Definitie
stomach	the front part of the body ..
bun	a mass of hair ...
abbey	the group of people ...
chair	a piece of furniture ...
policeman	a member of a police force

De zogenaamde ‘of-complementen’ zijn in dit geval de meest informatieve elementen, terwijl de syntactische kernen ‘part’, ‘mass’, ‘group’ en ‘piece’ de elementen na of op bepaalde systematische manieren aan de desbetreffende lemma's relateren.

Ongeacht het feit dat een kern complex is of niet, de relatie tussen de

woorden uit de definitie wordt primair bepaald door het type kern. De preen post-modificators van die kernen geven slechts de differentia aan. Als zodanig voegen zij kenmerken toe, specificeren geïmpliceerde kenmerken of ontkennen weer andere implicaties die volgen uit het type entiteit dat door de kern bepaald is. Typische post-modificators van NPs zijn: PPs, VPs, relatieve bijzinnen, waarbij de laatste twee constituent-structuren zelf zeer complex kunnen zijn (op hun beurt bijvoorbeeld weer ingebedde bijzinnen en VPs bevattend). Verder kan op elk nivo binnen de analyse coördinatie optreden en kunnen de constituenten worden onderbroken door allerlei speciale constructies die woordenboekdefinities eigen zijn (zoals voorbeelden, specificaties, negaties, verwijzingen, commentaar, analogieën, etcetera).

De structuren van de definities van adjectieven en werkwoorden konden worden beschreven in termen van sub-structuren die reeds binnen de NP-grammatica van de zelfstandige naamwoorden gedefinieerd waren.

4 Systematische toegang tot de informatie vervat in LDOCE

Doordat de informatie uit de definities nu systematisch toegankelijk is geworden is het mogelijk om die informatie op manieren te ordenen die in een woordenboek als ‘boek’ niet mogelijk zijn en zo inzicht te verwerven in het geheel aan lexicale relaties dat een woordenboek rijk is.

Wat houdt systematische toegang tot de woorden van een taal in?

4.1 Semantische velden

Een voor de hand liggende manier om de woorden uit het woordenboek te ordenen is in semantische velden, dat wil zeggen alle woorden die de zelfde kern hebben, bijvoorbeeld alle lemma's met ‘instrument’ als kern in de eerste betekenis volgens LDOCE (dat wil zeggen niet als muziekinstrument). Nog interessanter is het om bij dergelijke velden te kijken naar gemeenschappelijke informatie uitgedrukt in pre- en post-modificators van die kernen. In het onderstaande voorbeelden zijn lemma's opgenomen die niet alleen ‘instruments’ zijn maar bovendien ‘gebruikt worden om iets te meten’:

Lemma	Kern	Tweede argument van Hfdwerkww. ‘measuring’
barometer	instrument 01	pressure of air
clock		time
dividers		lines, angles
log		speed of a ship
rain gauge		rainfall

Ook is het mogelijk om ordeningen minder strict te maken, bijvoorbeeld alle

lemma's die minimaal een eigenschap gemeen hebben zoals ‘blue’:

Lemma	Kern	Pre-modificator
bluebag	powder	blue
bluebell	flower	blue
blue peter	flag	blue
gentian	flower	blue
huckleberry	fruit	blue

Zo ook is het mogelijk om inventarisaties te maken van alle adjectiva die als pre-modificator gebruikt zijn met hun frequentie:

Pre-mod.	Frequentie	Pre-mod.	Frequentie
particular	181	long	318
great	184	short	325
sudden	185	strong	332
narrow	194	large	707
thin	215	small	1368

Uit deze lijst met de meest voorkomende pre-modificators blijkt onder meer de prominentie van perceptuele eigenschappen en daarvan met name ‘shape’ en ‘size’.

4.2 Definitieketens

Een geheel andere manier om de woorden in een lexicon te relateren, door Dik (1978) beschreven als ‘Stepwise Lexical Decomposition’, bestaat uit het vormen van ketens van lemma-kern-paren, waarbij de kern van de definitie van een lemma steeds wordt opgezocht als lemma in het zelfde woordenboek met zijn eigen definitie, bijvoorbeeld:

Lemma	Definitie
bun	a small round sweet cake
cake	a food made by baking ...
food	an eatable substance
substance	a material
material	anything
anything	any one thing
thing	any material object
object	a thing

Dergelijke ketens leiden noodzakelijkwijs tot circulariteit doordat de lexicograaf over geen andere middelen beschikt dan de woorden van de taal die

beschreven wordt. Velden in combinatie met dit soort ketens leveren een zeer krachtig systeem op waarin allerlei informatie kan worden afgeleid. Alle eigenschappen die voor het semantische veld ‘food’ gelden (zoals: ‘eatability’, ‘taste’, ‘structure’, etcetera), gelden automatisch voor ‘cake’ en ‘bun’. Doordat het nu in principe mogelijk is om voor alle woorden uit het woordenboek dergelijke ketens en velden automatisch te genereren is het ook mogelijk om dergelijke overervingen op grote schaal te bestuderen. Mogelijke toepassingen van dergelijke ‘talige’ systemen worden onder andere beschreven door Dik 1987, 1989a, 1989b en Fass 1989.

4.3 Netwerken rond belangrijke concepten

In de voorgaande structureringen van de relaties in het woordenboek spelen alleen hyponymie-relaties een rol. Echter, zoals al eerder vermeldt, komen ook anders-soortige relaties voor zoals ‘part-whole’, ‘member-group’, ‘mass-quantity’, etcetera. Gegeven de analyses, is het mogelijk om naar een heel netwerk van relaties te kijken rond ‘belangrijke’ concepten. Indien we bijvoorbeeld kijken naar een aantal lemma's die via hyponymie- en nonhyponymie-relaties aan ‘water’ zijn gerelateerd dan ontstaat het volgende beeld:

Non-hyponymie:
line of water:	vapour trail
stretch of water:	icefall, maelstrom, lock, millpond
stream of water:	fountain, river, watercourse, douche
body of water:	head, creek, sea
area of water:	harbour, waterhole

Hyponymie:
water:	mineral water, brine, heavy water, dishwater, rain, drinking water

Dergelijke netwerken van gerelateerde woorden laten goed zien op wat voor wijze concepten in een taal gelexicaliseerd zijn. Het soort relaties wordt in belangrijke mate bepaald door het type concept waaraan gerelateerd wordt. Zo zullen rond het concept ‘person’ andere relaties gevonden worden (‘group’, ‘member’, etc.) dan voor een massa-aanduidend zelfstandig naamwoord als ‘water’. Andere verschijnselen zoals lexicalisatie van concepten die naar een basis concept verwijzen dat een bepaalde functie heeft (zoals: ‘drinking water’, ‘dishwater’, ‘douche’, etc.) zullen daarentegen bij allerlei typen concepten voorkomen. Hieruit valt ook af te leiden dat een taal over een rijk instrumentarium beschikt om hetzelfde concept ‘water’ in allerlei verschijningsvormen, verwikkeld in allerlei gebeurtenissen in variabele rollen door middel van een eenvoudige uitdrukking te benoemen. Een dergelijke

verstrengeling van taal en concepten lijkt dan ook de hypothese van Dik dat conceptuele kennis talig is te ondersteunen.

4.4 Verschillende conceptuele nivo's in het woordenboek

Door te kijken naar de rol die de lemma's uit het woordenboek spelen in de betekenisomschrijvingen is het mogelijk om een indeling te maken in drie nivo's:

object	‘Top level’
fruit	‘Core level’
plums, bananas, pear, avocado, pine-apple, loquat, mangoes, papaya	‘Bottom level’

-	lemma's die niet of nauwelijks als kern van een betekenis voorkomen vormen het zogenaamde ‘bottom-level’.
-	lemma's die zeer frequent als kern voorkomen vormen het ‘core-level’.
-	een vrij beperkte verzameling lemma's die min of meer circulair gedefinieerd zijn en waarin alle ketens, zoals hierboven beschreven, noodzakelijkerwijs zullen eindigen. Deze lemma's vormen het ‘top-level’ van het woordenboek.

Bij de indeling van de lemma's in deze nivo's bleek dat de definities van het top-nivo niet alleen circulair waren maar dat die lemma's bovendien zeer polyseem waren en vaak vage abstracte definities hadden die zonder voorbeelden niet begrijpbaar waren. De relaties tussen de top-nivo lemma's bleken bovendien niet altijd even consistent (Vossen 1990). Zo zijn ‘animal’ en ‘creature’ in elkaar gedefinieerd en op generlei wijze gerelateerd aan ‘human being’ en ‘plant’. Iets dergelijks geldt ook voor ‘substance’ dat wel ‘liquid’ en ‘gas’ als hyponiemen heeft maar niet ‘solid’. Dat de informatie vervat in een woordenboek niet altijd even bruikbaar is zal geen nieuws zijn. Door echter een indeling te maken in conceptuele nivo's binnen het woordenboek is het mogelijk om de ergste gevallen te isoleren en, aangezien het een vrij kleine groep betreft, eventueel handmatig te vervangen. Daarbij zou gedacht kunnen worden aan een systeem van atomair gedefinieerde begrippen dat complementair is aan het in termen van lexicale relaties gedefinieerde woordenboek. Een dergelijke tweedeling in abstracte primaire ‘features’ en meer specifieke incidentele concepten die ook meer taalafhankelijk lijken is ook gesuggereerd door Aarts en Calbert (1977) vanuit een theoretisch oog-

punt.

Zoals de analyses van de definities nu vervat zijn in het LDB pakket uit Nijmegen is het niet eenvoudig om op de hierboven beschreven manieren op grote schaal het woordenboek te doorkruisen. Daarom wordt er nu een systeem ontwikkeld genaamd DEVIL (DEcomposition VIa the Lexicon) dat de relevante data die uit het LDB zijn uitgelezen opslaat in een ‘L-tree’ systeem (Skolnik 1980). Hierdoor wordt het mogelijk alle genoemde relaties en onderscheidingen maximaal toegankelijk en toepasbaar te maken voor verdere NLP applicaties.

Bibliografie

Aarts, J. en J. Calbert (1979). Metaphor and non-metaphor. Tübingen: Max Niemeyer Verlag.

Akkerman, E., P. Masereeuw, en W. Meijs (1985). Designing a computerized lexicon for linguistic purposes. Ascot Report No 1. Amsterdam: Rodopi.

Akkerman, E., W. Meijs, en H. Voogt-van Zutphen (1988). A computerized lexicon for word-level tagging. Ascot Report No 2. Asmterdam: Rodopi.

Boguraev, B. en T. Briscoe (eds.) (1989). Computational lexicography for natural language processing. London: Longman.

Dahlgren, K. (1988), Naive Semantics for Natural Language Understanding. Boston (Mass.): Kluwer Academie Press.

Dahlgren, K., J. McDowell, & E.P. Stabler (1989). ‘Knowledge representation for commonsense reasoning with text’, in: Computational Linguistics 15/3. 149-170.

Dik, S. (1978). Stepwise lexical decomposition. Lisse: Peter de Ridder Press.

Dik, S. (1987). ‘Linguistically motivated knowledge representation’, in: M. Nagao (ed.) Language and artificial intelligence. Amsterdam: North Holland, 145-170.

Dik, S. (1989)a. ‘Relational reasoning in functional logic’, in: J. Connolly and S. Dik (eds.) Functional grammar and the computer. Functional grammar series 10. Dordrecht: Foris, 273-288.

Dik, S. (1989)b. The lexicon in a computational functional grammar. Amsterdam: Instituut voor Algemene Taalwetenschap, Universiteit van Amsterdam.

Fass, D. (1989). ‘An account of coherence, semantic relations, metonymy and lexical ambiguity resolution’, in: S. Small, G. Cottrell and M. Tanenhaus (eds.) Lexical ambiguity resolution. San Mateo, (Cal.): Morgan Kaufmann Publishers. Inc.

Halteren, H. van & T. van den Heuvel (1989). Linguistic exploitation of syntactic databases. Nijmegen: Katholieke Universiteit.

Procter, P. (ed.) (1987). Longman dictionary of contemporary English. London: Longman.

Skolnik, J. (1980). ‘L-trees’. Paper presented at the 6th Symposium of the Association for Literary and Linguistic Computing, Cambridge.

Steen, G.J. van der (1982). ‘A treatment of queries in large text corpora’, in: S. Johansson (ed.) Computer corpora in English language research. Bergen: Norwegian Computing Centre for the Humanities, 49-65.

Steen, G.J. van der (1987). A program generator for recognition, parsing and transduction with syntactic patterns. (diss.) Rijksuniversiteit Utrecht.

Vossen, P., W. Meijs en M. den Broeder (1989)a. ‘Meaning and structure in dictionary definitions’, in: B. Boguraev and T. Briscoe (eds.).

Vossen, P. (1989)b. ‘The structure of lexical knowledge as envisaged in the Links-project’, in: J. Connolly and S. Dik (eds.) Functional grammar and the computer. Functional grammar series 10. Dordrecht: Foris, 177-199.

Vossen, P. (1990). ‘Polysemy and vagueness of meaning descriptions in the Longman dictionary of contemporary English’, in: J. Svartvik and H. Wekker (eds.) Topics in English linguistics. Berlijn: Mouton de Gruyter.

eind0: De auteurs zijn verbonden aan het Engels Seminarium van de Universiteit van Amsterdam.

eind1: Voorbeelden van definities zijn, tenzij anders vermeld uit LDOCE, 1978.

Vorige Volgende

Tabu. Jaargang 20

Het computationele lexicon op ware grootte
Willem Meijs en Piek VossenGa naar eind0

1 Inleiding

2 MRDs en lexicale kennisrepresentatie

3 Kort overzicht van de gevolgde methodiek

3.1 De analyse van de structuur van de definities in LDOCE

3.2 Polyseme woorden in de definities

3.3 De soorten relaties

4 Systematische toegang tot de informatie vervat in LDOCE

4.1 Semantische velden

4.2 Definitieketens

4.3 Netwerken rond belangrijke concepten

4.4 Verschillende conceptuele nivo's in het woordenboek

Bibliografie

Over dit hoofdstuk/artikel

auteurs

taalkunde

Het computationele lexicon op ware grootte Willem Meijs en Piek VossenGa naar eind0

1 Inleiding

2 MRDs en lexicale kennisrepresentatie

3 Kort overzicht van de gevolgde methodiek

3.1 De analyse van de structuur van de definities in LDOCE

3.2 Polyseme woorden in de definities

3.3 De soorten relaties

4 Systematische toegang tot de informatie vervat in LDOCE

4.1 Semantische velden

4.2 Definitieketens

4.3 Netwerken rond belangrijke concepten

4.4 Verschillende conceptuele nivo's in het woordenboek

Bibliografie

Over dit hoofdstuk/artikel

auteurs

taalkunde

Het computationele lexicon op ware grootte
Willem Meijs en Piek VossenGa naar eind0