Tabu. Jaargang 20

(1990)– [tijdschrift] Tabu– rechtenstatus

[Nummer 2]

Computer en lexicon
Erik-Jan van der Linden en Ton van der Wouden

0 InleidingGa naar eind1

Het lexicon is op dit moment een belangrijk onderzoeksonderwerp binnen de computationele linguïstiek. De artikelen in dit themanummer van TABU vormen de papieren neerslag van een aantal van de lezingen op het colloquium ‘Computer en Lexicon’, gehouden onder auspiciën van het Onderzoeksinstituut voor Taal en Spraak (RUU) en het Instituut voor Taal- en Kennistechnologie (KUB) op 12 en 13 oktober 1989. Het thema van dit colloquium was het Nederlandse onderzoek rond het computationele lexicon.

Er heerst enige terminologische verwarring binnen de vakgebieden die zich bezighouden met woordenboeken en met de woordenschat; in deze inleiding zullen we in grote lijnen de voorstellen van De Tollenaere (1963) accepteren. Lexicologie is dan de meest algemene term voor alle studie van de woordenschat. Onder lexicografie verstaan we het woordenboekenmaken en de theoretische reflectie daarop. Die reflectie kan eventueel aangeduid worden met theoretische lexicografie. Verder gebruiken we computationele lexicologie als algemene term, zowel voor alle deelgebieden van de computerlinguïstiek waarin woordenboeken en woordenlijsten een belangrijke rol spelen, als voor het gebruik van de computer als hulpmiddel bij het maken van woordenboeken. Voor dat laatste vak kunnen we dan, zo nodig, nog de specifieke term computationele of computerondersteunde lexicografie munten, en voor de theoretische reflectie op de computationele lexicografie is dan eventueel nog de monsterachtige term theoretische computationele lexicografie beschikbaar.

In deze inleiding wordt gepoogd een algemeen perspectief te bieden waarbinnen de artikelen in deze bundel gezien kunnen worden. Daartoe wordt allereerst een kort en beslist onvolledig historisch overzicht gegeven van Nederlands onderzoek op het gebied van de computationele lexicologie (zie Walker 1989 voor een overzicht van de internationale activiteiten). Vervolgens worden de belangrijkste onderzoeksthema's beschreven.

1 Geschiedenis

1.1 De geschiedenis tot 1970: Corpuslinguïstiek en computerondersteunde lexicografie

In de vijftiger en zestiger jaren kunnen de eerste ontmoetingen tussen computer en woordenlijst worden waargenomen. Het nieuwe speelgoed wordt

ingezet in het taalstatistisch onderzoek, in het corpusonderzoek en bij de samenstelling van concordanties en indexen. Dit onderzoek resulteert in geordende verzamelingen lexicaal materiaal. De Tollenaere (1963) geeft een overzicht van de internationale activiteiten op dit terrein vanuit een lexicologisch perspectief, en geeft aanzetten voor toekomstig onderzoek die ook internationaal zijn opgemerkt (Zgusta 1971). Ook wordt in Nederland taalstatistisch onderzoek uitgevoerd, zoals door Alinei in Utrecht en door een groep op het Amsterdamse Mathematisch Centrum (van Berckel et al. 1965), wat eveneens in lexicale materiaalverzamelingen resulteert. Wat betreft taalkundige informatie, meer speciaal syntactische en semantische informatie, zijn deze verzamelingen in het algemeen overigens niet rijker, eerder armer, dan woordenboeken voor menselijke gebruikers. De rest van de computationele linguïstiek is in die tijd, onder meer door de naar onze huidige begrippen buitengewoon geringe capaciteit van het toenmalig machinepark, nog niet toe aan gebruik van dergelijke grote woordenverzamelingen.

1.2 De geschiedenis na 1970: de opmars van het lexicon in de taalkunde

Waar het zwaartepunt in de moderne taalkunde van de vijftiger en zestiger jaren geheel bij de syntaxis lag, gaat in de zeventiger en tachtiger jaren in een aantal taalkundige stromingen het lexicon een steeds belangrijker rol spelen (Hoekstra, Van der Hulst en Moortgat 1981; Schreuder 1987). Omdat de moderne formele taalkunde steeds moeilijker te scheiden is van de computationele heeft deze ontwikkeling een grote invloed gehad op computerlinguïstisch onderzoek naar het lexicon.

1.2.1 Syntaxis en Lexicon

In de eerste dagen van de generatieve taalkunde (Chomsky 1957) bestond de lexicale component uit niet meer dan een lijst woorden die door een herschrijfregel in de oppervlaktestructuur werden geïntroduceerd. Regels die lexicale elementen introduceren hadden dezelfde status als andere herschrijfregels. Later, in de ‘Standaardtheorie’ (Chomsky 1965), werd het lexicon gescheiden van de herschrijfregels. Elke ingang in het lexicon bevatte informatie over syntactische, semantische en fonologische eigenschappen van een lexicaal item. Lexicale items werden in de dieptestructuur geïnserteerd door een lexicale insertieregel, een speciaal soort transformatie. Het lexicon werd beschouwd als de ‘junk yard of linguistics’ (Hoeksema 1984, p. 2): het was de plaats waar uitzonderingen op grammaticaregels waren gerepresenteerd. Wat dat betreft was er nog heel weinig veranderd ten opzichte van het Amerikaanse structuralisme: Bloomfield (1933) zag het lexicon als een ‘appendix’ van de grammatica.

Recenter ontwikkelde taalkundige theorieën richten zich sterker op op-

pervlaktestructuren dan op dieptestructuren: niet langer worden posities in een of andere dieptestructuur verbonden met lexicale elementen, maar strings (rijtjes woorden) worden geassocieerd met lexicale informatie in de vorm van kenmerkstructuren (feature structures). In dit soort visies bevat een taalkundig formalisme, naast de beschrijving van kenmerkstructuren, regels die beschrijven hoe kenmerkstructuren met elkaar gecombineerd kunnen worden. Afhankelijk van de verdeling van de informatie over regels en kenmerkstructuren speelt het lexicon een meer of minder belangrijke rol bij de beschrijving van taalkundige kennis.

Binnen de Generalized Phrase Structure Grammar (GPSG) bijvoorbeeld (Gazdar et al. 1985) wordt subcategorisatie-informatie opgenomen in het lexicon, en bevatten syntactische regels beschrijvingen van de kenmerkstructuren waarop de regel van toepassing is. Binnen moderne varianten van de Chomsky-grammatica wordt subcategorisatie eveneens lexicaal geregeld via ‘thematische rasters’ en het ‘projectieprincipe’ (Bennis en Hoekstra 1989). Het principe om taalkundige informatie in steeds grotere mate in het lexicon te representeren is op een radicale manier geïmplementeerd in de Categoriale Grammatica (zie bijvoorbeeld Moortgat 1988). In deze syntactische theorie zijn de herschrijfregels gereduceerd tot een uiterst kleine verzameling regels en principes, en ligt de verklarende last vrijwel geheel bij de elementen in het lexicon.

1.2.2 Morfologie en Lexicon

Niet alleen is de aandacht voor het lexicon toegenomen door de lexicalisering van (een gedeelte van) de syntaxis, ook de hernieuwde belangstelling voor de morfologie plaatst het lexicon centraler in het onderzoek. Vond in de vroege TG de woordvorming in hetzelfde regelstelsel plaats als waarin zinnen worden geformeerd, thans heerst in de generatieve morfologie de gedachte dat de woordgrammatica gelocaliseerd is in een aparte, lexicale component (zie Scalise (1986) voor een overzicht).

1.2.3 Semantiek en Lexicon

Na de opkomst van de formele syntaxis in het werk van Chomsky, gaven Richard Montague (1974) en anderen aanzetten tot formele benaderingen van de betekenis. Daarbij ging de aandacht echter vrijwel uitsluitend uit naar de betekenis van zinnen. Het volgende (al vaak geciteerde) fragment laat zien dat de lexicale semantiek minder aandacht kreeg.

[...] we should not expect a semantic theory to furnish an account of how any two expressions belonging to the same syntactic category differ in meaning. (Thomason 1974, p. 48).

Zonder dat we zouden willen beweren dat binnen Chomskyaanse en Montegoviaanse kaders helemaal geen lexicale semantiek bedreven wordt, kunnen we toch constateren dat in de tachtiger jaren de betekenis van individuele woorden meer aandacht krijgt met de opkomst van de cognitieve semantiek (Geeraerts 1986, 1989). Desalniettemin is het nog steeds zo dat het ontbreken van een complete en solide lexicale betekenistheorie ontwikkelingen binnen de computationele lexicologie in de weg staat.

1.2.4 Lexicografie en Taalkunde

Waar woordenboeken vroeger, als ze al aandacht besteedden aan grammaticale aspecten van woorden, te rade gingen bij de toenmalige grammatica's, grammatica's die we nu ‘traditioneel’ noemen, kunnen ze nu profiteren van de toenemende belangstelling van de ‘moderne’ taalkunde voor de woordenschat. Door ontwikkelingen binnen de lexicologie, de syntaxis, de morfologie en de semantiek verschilt de lexicografische praktijk daarom, behalve in de gebruikte hulpmiddelen (waarover hieronder meer), ook inhoudelijk van die van dertig jaar geleden.

It is a tradition that will go on evolving, as modern linguistics continues to influence the theoretical basis of lexicography and as modern computer technology influences the production possibilities of dictionaries (Jackson 1988, p. 250; zie ook Heestermans 1976, p. 44-45).

Fraaie voorbeelden van de inhoudelijke veranderingen die we kunnen toeschrijven aan de invloed van de taalkunde en het gebruik van de computer vinden we in de Britse lexicografische praktijk. Woordenboeken als die van Longman en Collins geven veel gedetailleerder syntactische informatie, bijvoorbeeld wat betreft subcategorisatie, dan de Nederlandse handwoordenboeken. Het Collins-woordenboek is gemaakt op basis van een tekstcorpus van zo'n 20 miljoen woorden; de voorbeeldzinnen zijn zo veel mogelijk aan dat corpus ontleend.

1.3 De geschiedenis na 1980: Computerondersteunde lexicografie en taalverwerkende machines

Terwijl ontwikkelingen binnen de taalkunde nieuwe theoretische interesse voor het lexicon heeft gewekt, heeft de komst van de computer de belangstelling voor het lexicon vanuit een praktische invalshoek gestimuleerd. De komst van de computer ging voor de lexicografie gepaard met twee belangrijke veranderingen. In de eerste plaats konden woordenboeken voortaan worden gemaakt en uitgegeven met behulp van computers. In de tweede plaats is de computationele taalkunde inmiddels zover gevorderd dat in elk

geval sommige grote systemen (bijvoorbeeld bij het automatisch vertalen) behoefte hebben aan grote computationele lexica.

1.3.1 De electro-lexicografische praktijk

Uit het bovenstaande blijkt dat naast de taalkunde, ook de computer de lexicografische praktijk radicaal veranderd heeft (zie ook Jackson 1988, p. 236-7). Niet alleen kan de lexicografische praktijk profiteren van moderne verworvenheden als tekstverwerkers en ‘desk top publishing’ (volgens opgave van IBM wordt zo'n 80 procent van de totale rekencapaciteit van IBM-machines in de wereld gebruikt voor het verwerken van tekstueel materiaal), ook blijken volstrekt nieuwe toepassingen van computers mogelijk zoals automatische controle op consistentie bij definities, of het automatisch verzamelen van vindplaatsen van een woord, een uitdrukking of een combinatie in een corpus (zie verder Heylen en Van der Wouden, 1989). Papier is niet langer het enige medium waarin woordenboeken verspreid worden: Lexitron, een uitgave van Van Dale Lexicografie b.v., is het eerste Nederlandse voorbeeld van een woorden‘boek’ op CD-ROM.

Behalve dat (commerciële) uitgevers massaal overgegaan zijn op geautomatiseerde zetapparatuur, met de spin-off van zettapes die soms beschikbaar gesteld worden aan het wetenschappelijk onderzoek, en naast uitgeversinitiatieven als Lexitron, zien we dat ook publiek gefinancierde instellingen traditioneel lexicografengereedschap als kroontjespen en kaartenbak inruilen voor verworvenheden van de automatiseringsmaatschappij. Zo wordt op het Instituut voor Nederlandse Lexicologie in toenemende mate gebruik gemaakt van computationele technieken om lexicografen te ondersteunen bij het voltooien van het Woordenboek der Nederlandsche Taal, bij de voorbereiding van het grote Vroegmiddelnederlands Woordenboek, en bij het bruikbaar maken van de taaldatabank (zie Heylen en Van der Wouden (1989), Heylen, Moortgat en Van der Wouden (1990), en de diverse Jaarboeken van de Stichting INL van de laatste jaren).

Verder heeft een aantal instituten de handen ineengeslagen en is het Centrum voor Lexicale Informatie (CELEX) opgericht, dat een grote lexicale databank beheert (zie de Celex Newsletter). Deze databank, met informatie over grote delen van de Nederlandse en Engelse woordenschat, is via het universitaire computernetwerk (SURFnet) te gebruiken door gebruikers uit het hele land.

1.3.2 Verwerking van natuurlijke taal

Computers worden steeds meer ingezet voor het verwerken van taal en tekst. Ten eerste heeft tekstverwerkende computerapparatuur op heel veel plaatsen de plaats van de schrijfmachine ingenomen, terwijl ook een aanzien-

lijk deel van de taken van de drukkerswereld tegenwoordig door computers verricht wordt. Ten tweede worden tot de verbeelding sprekende toepassingen als automatische vertaling door het goedkoper worden van machines en het steeds duurder worden van mensen steeds aantrekkelijker, zodat daar op vele plaatsen in de wereld aan gewerkt wordt. Ten derde wint de opvatting terrein dat de machine in de mens-machine-communicatie de mens wel wat meer tegemoet zou kunnen treden dan nu het geval is, dat wil zeggen, dat de machine wel wat gebruiksvriendelijker zou mogen worden, bijvoorbeeld door natuurlijke taal te leren begrijpen.

Om op een intelligente manier met taal te kunnen werken zijn nieuwe technieken noodzakelijk. Het Nederlandse computerlinguïstische onderzoek naar deze technieken heeft zijn wortels in de zestiger jaren. Het werd meestal georganiseerd in projecten rond een specifieke toepassing. Het vertrekpunt van deze projecten was vaak de syntaxis, omdat dat nu eenmaal de meest uitgewerkte tak van de taalkunde was (uitzonderingen (Van Berckel e.a., De Tollenaere) zijn al genoemd). Pas halverwege de tachtiger jaren zijn deelprojecten geformuleerd met een oriëntatie op het lexicon (van de meeste van deze projecten was een vertegenwoordiger aanwezig op het Colloquium ‘Computer en Lexicon’).

Behalve door de groeiende belangstelling vanuit theoretisch-taalkundige hoek neemt ook vanuit de ‘algemene’ computerlinguïstiek de interesse voor het lexicon om heel praktische redenen toe. Lexicale schaalvergroting is op dit moment een van de grootste problemen voor de computationele taalkunde (Zernik 1989 spreekt zelfs van een ‘flessehals’): als een prachtig werkende vertaalcomputer maar honderd woorden kent, dan is de praktische bruikbaarheid ervan nihil. Waar men in het begin van de constructie van taalverwerkende programma's kan volstaan met ‘speelgoed’-woordenboekjes van enkele honderden woorden, wordt nu onderzoek gedaan naar opslag en gebruik van grote hoeveelheden lexicale kennis en lexicale data. Een voorbeeld: de lexicale databank van CELEX bevat inmiddels informatie over honderdduizenden Nederlandse en Engelse woorden.

Voor het ontwikkelen van lexicale componenten van taalverwerkende programma's heeft de computationele taalkunde ook kunnen profiteren van recente ontwikkelingen in de informatica, de kunstmatige intelligentie (AI) en de psycholexicologie.

- INFORMATICA: De informatica maakte zich verdienstelijk voor de computationele lexicografie door technieken te ontwikkelen voor het beheersen van grote hoeveelheden data, en het ontwikkelen van methoden voor het snel terugvinden van informatie uit het interne en externe geheugen van computers (in het CELEX-project bijvoorbeeld worden op grote schaal database management technieken gebruikt).

- AI: In de kunstmatige intelligentie zijn onder meer formalismen en technieken ontwikkeld voor de beschrijving van complexe kennis en data. Deze kunnen worden gebruikt voor het beschrijven van de ingewikkelde relaties die er in een lexicon bestaan tussen de lexicale elementen onderling en met

de ermee geassocieerde informatie (Daelemans 1987, De Smedt 1990).

- PSYCHOLEXICOLOGIE: De relaties van de computationele lexicologie met de psycholexicologie zijn complex en veelvoudig; de term ‘kruisbestuiving’ is zeker op zijn plaats. Enerzijds wordt in taalpsychologisch onderzoek gebruik gemaakt van lexicale databanken die ontwikkeld worden in de computationele lexicologie. Anderzijds draagt de psycholexicologie ideeën aan over de organisatie van het lexicon en over de processen die een rol spelen tijdens het raadplegen van het lexicon, problemen waar de theoretische taalkunde zich niet in de eerste plaats mee bezighoudt. Immers, daar ligt de belangstelling meer bij de mechanismen in de ‘lexicale module’ dan bij de actuele organisatie van het lexicon. De taalpsychologie probeert daarentegen vanuit het perspectief van de mens als taalgebruiker modellen voor taalproductie en taalverwerking te ontwikkelen (Beckwith e.a. 1989). Zogenaamde connectionistische modellen uit de cognitieve psychologie hebben via de psycholexicologie hun weg gevonden naar de computationele lexicologie (McClelland en Rumelhart 1986, Dyer 1989; zie ook Van der Linden en Kraaij 1990). Het artikel van Frauenfelder in deze bundel bespreekt een aantal manieren waarop onderzoek aan en met behulp van grote lexicale databanken ons iets kan leren over de relaties tussen eenheden in het mentale lexicon en over de structuur en de organisatie daarvan.

Het hierboven geschetste beeld van de onderlinge bevruchting van taalkunde, psycholinguïstiek en computationele lexicografie is volgens sommigen overigens veel te rooskleurig:

Het theoretische en praktische belang van onderzoek naar natuurlijketaalverwerking moeten van elkaar worden onderscheiden. Een linguïstisch of psycholinguïstisch interessante theorie is lang niet altijd geschikt voor gebruik in praktische toepassingen. Anderzijds zijn pragmatische oplossingen theoretisch vaak oninteressant. (Claassen 1990)

2 Vragen

In het voorafgaande hebben we laten zien dat computer en lexicon elkaar op een aantal manieren tegenkomen. In de eerste plaats wordt de computer ingezet om het uitgeven van papieren woordenboeken te ondersteunen. In de tweede plaats wordt de computer ingezet voor het construeren van woordenboeken voor menselijke gebruikers op ‘nieuwe media’. In de derde plaats vereisen computerprogramma's die natuurlijke taal verwerken heel nieuwe soorten woordenboeken.

Hieronder wordt een aantal belangrijke vragen opgesomd die momenteel een rol spelen bij computerlexicografisch onderzoek. Een beperking bij de selectie van de vragen is dat meer gekeken wordt naar de theorie dan de praktijk, en ook meer naar taalkundig, dan naar niet-taalkundig georiënteerde problemen.

2.1 Wat is een (goed) woordenboek?

In de theoretische lexicografie bestaat enige theorievorming over de vraag wat een woordenboek is, en (zij het minder) over wat een goed woordenboek is (bijvoorbeeld Zgusta 1971). De grootschalige invoering van computers in de woordenboekenwereld biedt echter geheel nieuwe mogelijkheden, terwijl woordenboeken voor natuurlijke-taalverwerkende systemen aan andere eisen moeten voldoen dan woordenboeken voor gebruik door mensen.

Nemen we aan dat we de volgende algemene definitie voor woordenboeken hanteren:

een woordenboek is een geordende verzameling lexicale eenheden waarbij bij elk van die eenheden in ieder geval linguïstische en mogelijk extralinguïstische informatie is gerepresenteerd.

dan is het computerwoordenboek, in de meest algemene zin, een speciaal type woordenboek, namelijk een woordenboek dat in een computer is opgeslagen:

een computerwoordenboek is een, in een computer gerepresenteerde, geordende verzameling lexicale eenheden waarbij bij elk van die eenheden in ieder geval linguïstische en mogelijk extra-linguïstische informatie is gerepresenteerd.

Volgens deze definitie is een computerwoordenboek in theorie een beperking van het gewone woordenboek. Maar toch biedt een computerwoordenboek in de praktijk vaak een uitbreiding van de mogelijkheden ten opzichte van het klassieke woordenboek, aangezien een woordenboek traditioneel geïmplementeerd wordt in boek- of kaartenbakvorm. Om maar een voorbeeld te noemen, de ordening in een papieren woordenboek ligt vast: die is of alfabetisch, of retrograde, of systematisch, of anders, maar om volgens een andere dan de eenmaal gekozen ordening te zoeken of te bladeren heeft men een nieuwe woordenboek nodig. Een computerwoordenboek kan men in dit opzicht beschouwen als een combinatie van vele woordenboeken: moderne databanktechnieken bieden de gebruiker de kans om zonder veel moeite (de spreekwoordelijke ‘druk op de knop’ is genoeg) verschillende ordeningen aan te brengen in een en dezelfde woordenverzameling.

Wil een computerwoordenboek een goed computerwoordenboek zijn, dan dient het op zijn minst te voldoen aan eisen van algemene bruikbaarheid, efficiëntie en flexibiliteit.

‘Algemene bruikbaarheid’ wil zeggen bruikbaarheid bij verschillende applicaties, en bij verschillende taalkundige theorieën. Als ‘verschillende’ door ‘alle’ (of ‘veel’) vervangen kan worden, wordt wel gesproken over een ‘generiek’ of ‘multifunctioneel’ lexicon. De belangrijkste vraag is of een dergelijk woordenboek eigenlijk wel gemaakt kan worden: de eisen die applicaties en theorieën stellen zouden heel goed te divers kunnen zijn om een dergelijke

onderneming mogelijk te maken. Om dit probleem te minimaliseren kiest men vaak voor een modulaire aanpak, waarbij de taken verdeeld worden tussen een centraal moederlexicon en aparte interfaces voor elke applicatie en theorie daaromheen (zie in deze bundel Van Gaaien, en daarbuiten Van der Eijk en Van der Wouden 1989; Daelemans 1987; Te Lindert en Calder 1987).

Algemene bruikbaarheid gaat meestal niet zover dat een en hetzelfde lexicale gegevensbestand zonder meer even bruikbaar is voor mensen en computers. Omdat mensen taal kennen en begrijpen kan in een woordenboek voor menselijke gebruikers heel veel informatie hetzij impliciet blijven, hetzij uitgedrukt worden in natuurlijke taal. Computers zijn in dezen veel kinderachtiger: de betekenisomschrijvingen in een gewoon woordenboek, waarmee mensen doorgaans heel aardig uit de voeten kunnen, zijn voor apparaten niet direct te bevatten. Een voldoende uitgewerkte semantische theorie met een behoorlijke dekking die zou kunnen dienen om die betekenissen aan de computer duidelijk te maken ontbreekt evenwel. Een ander voorbeeld: mensen hebben meestal genoeg aan simpele grammaticale aanduidingen als ‘overgankelijk’ en ‘hulpwerkwoord’. Zulke etiketten blijken echter voor zo'n variëteit aan constructies te staan dat ze in NLP-toepassingen aanleiding geven tot gigantische lexicale ambiguïteit (cf. Nirenburg 1989).

‘Efficiëntie’ verwijst naar de snelheid waarmee in een grote verzameling lexicaal materiaal het juiste element kan worden gevonden (zie in deze bundel Masereeuw en Skolnik), en de ruimte die het lexicon op de machine in beslag neemt.

‘Flexibiliteit’ verwijst naar de mate waarin een lexicale component van een systeem in staat is om informatie over nieuwe, onbekende woorden en/of betekenissen af te leiden of te raden. Aangezien mensen heel goed in deze taak blijken te zijn, maakt de opvatting school dat dit vermogen ook in computerwoordenboeken (of in natuurlijke-taalverwerkende systemen in het algemeen) dient te worden ingebouwd of nagebootst. In deze conceptie is een lexicon niet langer een statisch, maar een dynamisch geheel. Het idee van een ‘efficiënt’ en ‘dynamisch’ lexicon kan overigens verschillende vormen aannemen; Martin (deze bundel en de daarbij aangegeven literatuur) verstaat onder dynamiek het verschijnsel dat een en hetzelfde woord op voorspelbare wijze verschillende syntactische categorieën kan aannemen. Dit verschijnsel wordt in het computationele lexicon nagebootst door aan het woord een basiscategorie toe te kennen, en de rest te berekenen via categorie-veranderende regels. Anderen (bijvoorbeeld Domenig 1988, 1989; Daelemans 1987; Te Lindert en Calder 1987) richten hun aandacht meer op de morfologie. Het Nederlands heeft een tamelijk arm systeem van verbuiging en vervoeging; het kost niet zo verschrikkelijk veel extra opslagruimte om alle flectievormen van Nederlandse woorden compleet bij de basisvormen op te slaan. Anders is het bij talen met veel naamvallen en grote verbale paradigmata, zoals het Fins (Koskenniemi 1983) en verschillende Slavische talen (De Haan e.a., deze bundel): het is onmogelijk om voor deze talen een woordvormenlexicon te maken, dus men is wel gedwongen een regelcomponent in het lexicon op te

nemen (hetzelfde geldt vermoedelijk voor de morfologische processen van afleiding en samenstelling in het Nederlands). Het doel van dynamisering is in beide gevallen gelijk, namelijk het verminderen van de ruimte die voor de opslag van gegevens nodig is. Deze ruimtewinst gaat dikwijls echter ten koste van de verwerkingssnelheid.

2.2 Hoe zien inhoud en structuur van het lexicon eruit?

De traditionele lexicografie onderscheidt twee kernvragen die een lexicograaf moet beantwoorden bij het opzetten van een woordenboek. De eerste behelst de macro-structuur van het woordenboek, oftewel, welke eenheden moeten worden opgenomen in het lexicon? De tweede de microstructuur, oftewel, welke informatie moet worden opgenomen bij elk van die eenheden?

Ook voor de computationele lexicoloog zijn beide vragen van groot belang. Gezien de taalkundige achtergrond en oriëntering van de meeste computerlexica spitst de vraag naar de microstructuur zich toe op het punt van de taalkundige informatie die moet worden opgenomen in het lexicon. Zoals we hierboven al beschreven hebben hoeft er eigenlijk geen beslissing te worden genomen over het macrostructurele ordeningsprincipe van het lexicon: idealiter hoeft men niet te kiezen voor hetzij alfabetisch of retrograde of iets anders, omdat de computer al deze mogelijkheden tegelijkertijd kan bieden. Dat neemt niet weg dat bij het beantwoorden van beide vragen een heel zorgvuldige beslissing genomen moet worden over het te hanteren formalisme, al is het alleen maar omdat de beschikbare formalismen niet allemaal even goed voldoen aan de eerder geformuleerde eisen van efficiëntie en flexibiliteit; terwijl er ook verschillen zijn in opslagcapaciteit en gebruiksvriendelijkheid.

Dat het ultieme databankmechanisme voor computerwoordenboeken nog niet gevonden is, blijkt wel uit het feit dat radikaal verschillende formalismen gebruikt worden: relationele databankmodellen (Celex), connectionistische netwerken (Rumelhart en McLelland 1986) en object-georiënteerde representaties (Daelemans 1987, De Smedt 1990, Van Gaaien in deze bundel).

2.3 Hoe wordt een lexicon gevuld?

Een nog niet genoemde eis aan lexica is dat de dekkingsgraad hoog moet zijn: een lexicon moet een zo groot mogelijk deel van het lexicale materiaal dekken dat in een bepaalde applicatie gewenst is. Hier tekent zich het lexicale schaalvergrotingsprobleem af dat hiervoor al genoemd is: het is uiterst kostbaar en tijdrovend om met de hand een computationeel lexicon te ontwikkelen.

Oplossingen voor dit probleem worden gezocht in het gebruik van machine-leesbare vormen van bestaande woordenboeken. Deze bijprodukten van de

voortschrijdende automatisering van de uitgeverswereld werden in de loop van de jaren zeventig door sommige uitgevers voor onderzoekstoepassingen beschikbaar gesteld.

Het maken en hergebruiken van grote bestanden met lexicale informatie is inmiddels zo populair dat men bijna van een apart specialisme binnen de computerlinguïstiek kan spreken, een apart specialisme met zijn eigen methoden en technieken, en met zijn eigen problemen. Met behulp van ingewikkelde ontleed- en conversiestrategieën tracht men bijvoorbeeld zoveel mogelijk van de benodigde informatie aan machine-leesbare woordenboeken te ontfutselen (zie voor overzichten een aantal van de artikelen in Walker, Zampolli en Calzolari (eds.) 1987 en Boguraev en Briscoe (eds.) 1989; zie ook Janssen en Meijs en Vossen in deze bundel). Soms blijkt deze methode echter meer problemen op te leveren dan op te lossen (zie McNaught 1989 en het artikel van Smit in deze bundel). Daarom wordt ook onderzoek gedaan naar heel andere mameren om met minimale inspanning, dus (semi-)automatisch, maximaal grote lexica te ontwikkelen, bijvoorbeeld ontwikkelen naar lerende systemen (zie het laatste deel van Zernik (ed.) 1989).

3 Besluit

De computerlinguïstiek is zo ver gevorderd dat ze toe is aan grote woordenboeken, woordenboeken die aan heel andere eisen moeten voldoen dan de traditionele, papieren woordenboeken voor menselijk gebruik. Daarnaast biedt de computer, en meer in het algemeen de informatietechnologie, geheel nieuwe mogelijkheden voor het maken van oude en nieuwe soorten woordenboeken en andere lexicale informatiebronnen. De taalkunde is in toenemende mate van belang geworden voor inhoud en structuur en voor de ontwikkeling van deze lexicale informatiebronnen voor mens en machine. Hier ligt ook de oorzaak voor de ‘terminologische verwarring’ die aan het begin van dit artikel is gesignaleerd: door de groeiende taalkundige invloed groeien de (computationele) lexicologie (in de zin van de wetenschappelijke studie van de woordenschat) en de (computationele) lexicografie (in de zin van het maken van woordenboeken en de theoretische reflectie daarop) naar elkaar toe. Het maken van woordenboeken is niet meer mogelijk zonder gedegen reflectie op de woordenschat; reflectie op de woordenschat en reflectie op de structuur van woordenboeken en de ontwikkeling daarvan gaan steeds vaker hand in hand.

Het raakvlak van computer en lexicon is op het moment al met al een uiterst dynamisch gebied, waar de ontwikkelingen heel snel gaan en waar veel spannends gebeurt. We realiseren ons dat veel van de in deze bundel besproken inzichten en gehanteerde technieken over een paar jaar verouderd zullen zijn, en vervangen door nieuwe ideeën en nieuwe snufjes. We hopen in deze bundel evenwel iets van de heersende spanning over te brengen, en een overzicht te geven van de huidige stand van zaken in Nederland.

Deze bundel opent met twee artikelen van Martin en Frauenfelder waarin dimensies van de conceptuele structuur van het lexicon aan de orde worden gesteld. De artikelen van Van Gaalen en De Haan e.a. belichten een dynamische benadering van morfologische processen in het lexicon. Smit, Janssen en Meijs en Vossen bespreken het gebruik van machine-leesbare woordenboeken bij het maken van lexica voor natuurlijke-taalverwerking. De bundel eindigt met de minst omvangrijke bijdrage, een korte beschrijving door Masereeuw en Skolnik van de implementatie van een efficiënt ordeningsprincipe.

Noten

0. Erik-Jan van der Linden en Ton van der Wouden zijn verbonden aan respectievelijk het Instituut voor Taal- en Kennistechnologie in Tilburg en het Onderzoekscentrum voor Taal en Spraak in Utrecht.

Bibliografie

Beckwith, R., C. Fellbaum, D. Gross en G. Miller (1989). ‘A Lexical Database Organized on Psycholinguistic Principles’, in: Zernik (1989) (ed.).

Bennis, H. en T. Hoekstra (1989). Generatieve Grammatica. Dordrecht: Foris.

Van Berckel, J A.Th.M., H. Brandt Corstius, R.J. Mokken en A. van Wijngaarden (1965): Formal Properties of Newspaper Dutch. Amsterdam: Mathematisch Centrum.

Bloomfield, L. (1933). Language. New York: Holt.

Boguraev, B. en T. Briscoe (eds.) (1989). Computational Lexicography for Natural Language Processing. Harlow: Longman.

Celex-Newsletter. (1986). Nijmegen: CELEX.

Chomsky, N. (1957). Syntactic Structures. Den Haag: Mouton.

Chomsky, N. (1965). Aspects of the Theory of Syntax. Cambridge, (Mass.): MIT Press.

Claassen, W. (1990). ‘Generatie van referentiële expressies in dialoogsystemen’, in: Informatie 32, 3.

Collins Cobuild English Language Dictionary (1987). London en Glasgow: Collins.

Daelemans, W. (1987). Studies in Language Technology; An Object-Oriented Computer Model of Morphophonological Aspects of Dutch. (diss.) Leuven.

Domenig, M. (1988). ‘Word Manager: A System for the Definition, Access and Maintenance of Lexical Databases’, in: Proceedings Coling 1988, Budapest.

Domenig, M. (1989). ‘Word Manager: A System for the Specification, Use, and Maintenance of Morphological Knowledge’, ms. Universität Zürich-Irchel.

Dyer, M. (1989). ‘Lexical Acquisition through Symbol Recirculation in Distributed Connectionist Networks’, in: Zernik (ed.).

Van der Eijk, P. en T. van der Wouden (1989). ‘A Modular Lexicon Architecture for NLP’, in: Zernik (ed.).

Gazdar, G., E. Klein, G. Pullum en I. Sag (1985). Generalized Phrase Structure Grammar. Cambridge (Mass.): Harvard University Press.

Geeraerts, D. (1986). Woordbetekenis. Een overzicht van de Lexicale Semantiek. Leuven/Amersfoort: Acco.

Geeraerts, D. (1989): Wat er in een Woord zit. Aspecten van de Lexicale Semantiek. Leuven: Peeters.

Heestermans, J. (1976). ‘Een kritische kanttekening en een schets voor een lexicografische theorie’, in: P. van Sterkenburg (red.): De Nederlandse Lexicologie tussen handwerk en machine. Groningen: Tjeenk Willink.

Heylen, D., M. Moortgat en T. van der Wouden (1990). ‘Categoriale Ontleding - Theorie en Praktijk’, in: A. Neijt en D. Bakker (red.): Computerlinguïstiek. Een Overzicht in Artikelen. Dordrecht: Foris.

Heylen, D. en T. van der Wouden (1989). ‘De Automatisering van de Lexicografische Praktijk’, ms. INL Leiden.

Hoeksema, J. (1984). Categorial Morphology. (diss.) Groningen.

Hoekstra, T., H. van der Hulst en M. Moortgat (1981). ‘Introduction’, in: dez. (red.) Lexical Grammar. Dordrecht: Foris.

Jackson, H., (1988): Words and their meaning. London: Longman.

Koskenniemi, K. (1983). Two-Level Morphology: A General Computational Model for Word-Form Recognition and Production. (diss.) Helsinki.

Van der Linden, E. en Kraaij, W. (1990). ‘Ambiguity resolution and the retrieval of idioms: two approaches’, (te versch.) in: Proceedings COLING 1990. Helsinki, 20-25 August 1990.

Te Lindert, E. en J. Calder (1987). ‘The Protolexicon: Towards a High-Level Language for Lexical Description’, in: E. Klein en J. van Benthem (eds.): Categories, Polymorphism and Unification. Edinburgh en Amsterdam: CCS en ITLI.

Longman Dictionary of Contemporary English (1987). New edition. Harlow: Longman.

McNaught, J. (1988). ‘Computational Lexicography and Computational Linguistics’, in: Lexicographica 4.

Montague, R. (1974). Formal Philosophy. Collected Papers of Richard Montague, ed. and intr. by R.H. Thomason.

Moortgat, M. (1988). Categorial Investigations. Logical and Linguistic Aspects of the Lambek Calculus. (diss. Amsterdam), Dordrecht: Foris.

Nirenburg, S. (1989). ‘Lexicons for Computer Programs and Lexicons for People’, in: Dictionaries in the Electronic Age. Proceedings of the Fifth Annual Conference of the UW Centre for the New Oxford English Dictionary. Waterloo en Oxford UW Centre for the New OED.

Rumelhart, D. en J. McClelland & the PDP Research Group (eds.) (1986). Parallel Distributed Processing. Cambridge (Mass.): MIT Press.

Scalise, S. (1986). Generative Morphology. Dordrecht: Foris.

Schreuder, R. (1987). Het mentale lexicon, (openbare les) Nijmegen.

De Smedt, K. (1990). Incremental Sentence Generation. A computer model of grammatical encoding. (diss.) KU Nijmegen; NICI Technical Report 90-01.

Thomason, (1974). ‘Introduction’, in: Montague (1974).

De Tollenaere, F. (1963). Nieuwe Wegen in de Lexicologie. Amsterdam: Noord-Hollandsche Uitgevers Maatschappij.

Walker, D.A. Zampolli en N. Calzolari (eds.) (1987). Special Issue on the Lexicon. Computational Linguistics 13, 3-4.

Walker, D. (1989). ‘Developing Lexical Resources’, in: Dictionaries in the Electronic Age. Proceedings of the Fifth Annual Conference of the UW Centre for the New Oxford English Dictionary. Waterloo en Oxford: UW Centre for the New OED.

Zernik, U. (1989). ‘Paradigms in Lexical Acquisition’, in: Zernik (ed.) (1989).

Zernik U. (ed.) (1989). Proceedings of the First International Lexical Acquisition Workshop, (te versch.): AAAI Press.

Zgusta (1971): Manual of Lexicography. Praag, Den Haag en Parijs: Academia en Mouton.

eind1: Walter Daelemans wordt bedankt voor discussies over het thema van deze bundel, Dirk Heylen voor het proeflezen. De resterende fouten zijn, uiteraard, voor rekening van de auteurs.

Vorige Volgende