Forum der Letteren. Jaargang 1991

(1991)– [tijdschrift] Forum der Letteren– rechtenstatus

De CELEX lexicale databank
Harald Baayen

Het centrum voor lexicale informatie CELEX te Nijmegen is een van de Nederlandse wetenschappelijke expertisecentra. In deze bijdrage geef ik eerst enige achtergrondinformatie over CELEX, waarna een beknopt overzicht volgt van de rijkdom aan lexicale informatie die CELEX ter beschikking stelt. Tenslotte behandel ik een aantal problemen op met name het gebied van de morfologie waar ik als regelmatige gebruiker van CELEX mee in aanraking ben gekomen.

CELEX

De eerste impulsen die geleid hebben tot de oprichting van CELEX zijn uitgegaan van de taalpsychologie. Het corpus Uit den Boogaart (1975) bleek namelijk qua grootte (725.000 tokens) en toegankelijkheid ontoereikend voor onderzoek op bijvoorbeeld het gebied van het mentale lexicon. Dit bracht onderzoekers verbonden aan het Max-Planck-Instituut voor Psycholinguïstiek in Nijmegen ertoe de mogelijkheid van de aanleg van een groter en qua informatie rijker bestand te overwegen.

De realisering van dit ideaal kwam een stap dichterbij toen het mogelijk bleek om gebruik te maken van de ongeveer achthonderd, overwegend literaire teksten die door het Instituut voor Nederlandse Lexicologie (voortaan INL) in electronische vorm waren vastgelegd, het zogenaamde INL-corpus, een corpus van rond de 42 miljoen tokens. De tijdrovende en kostbare stap van de aanleg van een corpus kon hierdoor worden overgeslagen. Zo kon in 1986 CELEX worden opgericht als gemeenschappelijk project van de Interfacultaire Werkgroep Taal en Spraakgedrag (Nijmegen), het INL, het Max-Planck-Instituut voor Psycholinguïstiek, het Instituut voor Perceptie Onderzoek (Eindhoven) en het Dr. Neher Laboratorium van de PTT. In 1988 verkreeg CELEX de officiële status van nationaal expertisecentrum, en werd nieuwe financiële ondersteuning door NWO verworven. Het doel dat CELEX zich voor ogen had gesteld, en dat het inmiddels voor een groot deel heeft bereikt, was informatie uit lexica en omvangrijke corpora op het gebied van het Nederlands, het Engels en het Duits bijeen te brengen en te verrijken met fonologische, morfologische en syntactische informatie, en deze informatie met behulp van gebruikersvriendelijke programmatuur goed toegankelijk te maken. Wat het Nederlands betreft is het resultaat een databank waarin zijn verwerkt het van Dale Groot Woordenboek van Hedendaags Nederlands (1984), de Woordenlijst van de Nederlandse Taal, Uit den Boogaart's Woordfrekwenties (1975) en het INL-corpus. Op het Engelse taalgebied is een soortgelijke databank tot stand gebracht op basis van het Cobuild corpus (18 miljoen tokens), de Oxford Advanced Learner's Dictionary of Current English en de Longman Dictionary of Contemporary English. Inmiddels is ook voor het Duitse taalgebied een eerste versie van een soortgelijke databank gereedgekomen. In wat volgt beperk ik mij tot de databank van het Nederlands.

De gegevensbank en FLEX

De gegevens die CELEX in relationele gegevensbanken heeft opgeslagen kunnen worden opgevraagd met het progamma FLEX, een ‘flexible user interface’. Wie FLEX binnenkomt kan met behulp van een aaneenschakeling van menu's een zoekopdracht laten formuleren op grond waarvan de gewenste woorden in de gegevensbank worden opgezocht. Op deze manier kan de gebruiker zijn persoonlijke lexicon definiëren en uit het grote bestand extraheren. Ook is het mogelijk om door de gebruiker aangeleverde woordenlijsten te verrijken met de door CELEX bijeengebrachte lexicale informatie. Voor het raadplegen van de databanken is men niet gebonden aan FLEX: met de database vraagtaal SQL kan men eveneens de gewenste informatie uit de ORACLE relationele databank opvragen. Het grote voordeel van FLEX boven SQL is dat FLEX bijzonder gebruikersvriendelijk is, en nauwelijks voorkennis ten aanzien van de opbouw van de databank en de werking van ORACLE vereist. Het enige nadeel van het gebruik van FLEX is dat dit programma geregeld nogal traag werkt. De omvang van de gegevensbank is namelijk zodanig groot dat de capaciteit van de beschikbare hardware tot het uiterste benut wordt. Dit heeft tot gevolg dat het systeem bij intensief gebruik snel overbelast is, zodat bijvoorbeeld het on-line doorbladeren van zelf opgebouwde lexica binnen FLEX een tijdrovende bezigheid kan zijn.

De gegevensbank zelf kan men zich het beste voorstellen als opgebouwd uit rijen en kolommen. De verschillende lexicale typen (lemma's dan wel woordvormen) vindt men in de rijen van de gegevensbank. De kolommen, zo'n 150 in aantal, specificeren de orthografische, fonologische, morfologische en

Tabel 1: Overzicht van de lexicale informatie in CELEX
Ortografie	met of zonder diacritische tekens
	alternatieve spellingen
	aantal letters
	aantal lettergrepen
Fonologie	fonetische transcripties met onder meer - lettergreepverdeling - aanduiding van hoofd- en bijklemtoon
	CV-patronen
	aantal fonemen
Morfologie	Derivatie en compositie: - ontleding in stam en affixen - verschillende mogelijke parseringen
	Flectie: - de stam en het type flectie
Syntaxis	woordsoort
	subcategorisaties per woordsoort
Frekwentie	de frekwentie in het INL-corpus

syntactische kenmerken en eigenschappen van de lexicale typen. Tabel 1 biedt een beknopt overzicht van de soorten informatie die CELEX beschikbaar stelt, en tabel 2 geeft een eenvoudig voorbeeld van de regel- en kolomstructuur van een zelf gedefinieerd lexicon. Zowel FLEX als de beschikbare lexicale informatie zijn uitvoerig gedocumenteerd in de CELEX gebruikersgids (Burnage 1990).

lemma	fre- kwentie	morfologie: stam en affixen	fonologie
Tabel 2: Een eenvoudig voorbeeld van de rij- en kolomstructuur van een met FLEX opgebouwd lexicon.
aandachtigheid	0	aandachtig+heid	an-dAx-t@x-hEIt
aandachtseenheid	3	aandacht+s+een+heid	an-dAxts-en-hEIt
aandoenlijkheid	0	aan+doe+lijk+heid	an-dun-l@k-hElt
aangeborenheid	2	aan+geboren+heid	aN-G@-bo-r@-hEIt
aangelegenheid	919	aangelegen+heid	aN-G@-le-G@-hEIt
aangenaamheid	2	aangenaam+heid	aN-G@-nam-hEIt
aanschouwelijkheid	12	aan+schouw+elijk+heid	an-sxAU-w@-l@k-hEIt
aanhalerigheid	0	aan+haal+erig+heid	an-ha-l@-r@x-hEIt
aanhaligheid	6	aan+haal+ig+heid	an-ha-l@x-hEIt
aanhankelijkheid	86	aan+hang+elijk+heid	an-hAN-k@-l@k-hEIt

Het is onmogelijk om binnen het kader van deze bespreking recht te doen aan de veelheid aan lexicale informatie die CELEX beschikbaar stelt. Niet alleen is de hoeveelheid informatie indrukwekkend - als men de in CELEX opgeslagen informatie af zou drukken, zou men een papier nodig hebben van 5.5 meter bij 2.4 kilometer (Burnage 1990:1-3) - maar ook de veelheid aan alternatieve morfologische analyses, fonologische representaties, tellingen van fonemen, morfemen, syllaben etc. Van grote waarde is daarnaast de vrij grote nauwkeurigheid waarmee de veelal semi-automatisch tot stand gekomen analyses op hun juistheid zijn gecontroleerd. Op zich maken voortgaande ontwikkelingen binnen de computationele linguïstiek het steeds gemakkelijker om zelf corpora te analyseren, maar tot nu toe bereikt men met dergelijke methoden slechts een nauwkeurigheid van grofweg 90%. Een belangrijke verdienste van CELEX is dat men de moeite heeft genomen om de resterende 10% te corrigeren, waarmee een betrouwbaar gegevensbestand dat een omvangrijk deel van de Nederlandse woordenschat beschrijft beschikbaar is gekomen.

Als nadere illustratie van de soorten informatie die in de CELEX databanken liggen opgeslagen, en als handreiking bij het gebruik van CELEX, ga ik iets dieper in op de opbouw van de bestanden. Sterk vereenvoudigd kan een lexicale gegevensbank als die van CELEX worden voorgesteld als een met extra informatie verrijkte frekwentielijst. In het eenvoudigste geval bevindt zich alle informatie betreffende een gegeven type op één regel. De complexiteit van de

informatie die moet worden opgeslagen is echter zodanig groot dat deze eenvoudige structuur binnen CELEX is verlaten. Het probleem is dat er uiteenlopende manieren zijn waarop men een ‘lexicaal type’ kan definiëren, en als gevolg hiervan dus ook verschillende manieren om de gegevensbank op te bouwen. Voor een bestand dat vanuit verschillende theoretische invalshoeken moet kunnen worden geraadpleegd is een ruime en flexibele definitie van ‘lexicaal type’ vereist. CELEX heeft dit probleem als volgt opgelost.

In de eerste plaats heeft men de informatie betreffende de eigenschappen van lemma's gescheiden van de informatie ten aanzien van geflecteerde vormen. Zo wordt wie met behulp van FLEX een eigen lexicon definieert, allereerst voor de keuze geplaatst wat voor soort lexicon men op het oog heeft: een op lemma's gebaseerd lexicon dan wel een lexicon dat ook ten aanzien van de verschillende woordvormen in detail treedt. Het zogenaamde lemma-bestand in de CELEX gegevensbank is goed vergelijkbaar met een woordenboek, in de zin dat de flectionele varianten van een gegeven ingang niet apart worden gespecificeerd. Het zogenaamde woordvormen-bestand van CELEX, daarentegen, vat de verschillende geflecteerde vormen van een lemma als evenzovele typen op. CELEX werkt hier in feite met twee zelfstandige bestanden, die elk de fonologische, orthografische en morfologische eigenschappen van de typen, lemma's dan wel woordvormen, specificeren. In het geval van het lemma-bestand wordt de morfologische structuur niet alleen benoemd (samenstelling, derivatie etc.), zij is ook in verschillende soorten representaties beschikbaar (zie tabel 3 voor enkele voorbeelden). In het geval van het woordvormen-bestand worden de flectionele kenmerken alleen benoemd qua persoon, getal, tijd etc. De derivationele of compositionele structuur van de corresponderende stam kan men hier dankzij een verbinding met het lemma-bestand opvragen.

Tabel 3: Voorbeelden van representaties van morfologische structuur. (1) volledige vlakke representatie. (2) onmiddellijke segmentatie. (3) volledige, hiërarchische segmentatie. (4) volledige benoemde segmentatie.
(1)	graan+zuiver+ing+s+machine
(2)	graanzuivering+s+machine
(3)	(((graan), (zuiver), (ing)), (s), (machine))
(4)	(((graan)[N],(zuiver)[V],(ing)[N-NV.])[N],(s)[N-N,(machine)[N])[N]

In de tweede plaats worden flectionele homoniemen en orthografische varianten in het woordvormen-bestand, en orthografische varianten en alternatieve morfologische analyses in het lemma-bestand, op aparte rijen vermeldt. Deze organisatie van de bestanden maakt bij het definiëren van een eigen lexicon een preciese en voldoende restrictieve definitie van de gewenste lexicale typen noodzakelijk. Ik geef een drietal voorbeelden.

spelling	lexicaal type	InlSpellF	Inl	InlLemma
Tabel 4: Ortografische varianten: P/N: voorkeurspelling/alternatieve spelling; InlSpellF: INL-frekwentie van de spelling; Inl: INL-frekwentie; InlLemma: INL-frekwentie van het corresponderende lemma.
		woordvormen-bestand
P	gestructureerd	81	101	298
N	gestruktureerd	20	101	298
		lemma-bestand
P	structureer	264	298
N	struktureer	34	298

Tabel 4 illustreert hoe orthografische varianten in het woordvormen-lexicon en het lemma-lexicon zijn behandeld. Is men geïnteresseerd in een frekwentielijst van participia van de vorm ge-X-eerd, dan moet men ervoor zorgen dat slechts één van beide spellingvarianten in de lijst voorkomt, bijvoorbeeld door alleen de voorkeurspelling (P in tabel 4) toe te laten. Laat men deze restrictie weg, dan zullen beide vormen, elk met INL-frekwentie 101, in de lijst worden opgenomen, waardoor de frekwentie van dit participium tweemaal te hoog wordt ingeschat. Is men daarentegen geïnteresseerd in de frekwenties van de spellingsvarianten, dan moet men gebruik maken van de kolom InlSpellF, die voor gestructureerd en gestruktureerd de respectievelijke frekwenties 81 en 20 vermeld. Deze frekwenties tellen op tot 101, de frekwentie van het participium onafhankelijk van de spelling. Beschouw vervolgens de flectionele homoniemen van een lemma als aanraden.

woordvorm	flectionele kenmerken	Inl	InlLemma
Tabel 5: Flectionele varianten in het woordvormen-lexicon; Inl: INL-frekwentie van de geflecteerde vorm; InlLemma: INL-frekwentie van het corresponderende lemma; i: infinitief; t: tegenwoordige tijd; m: meervoud.
aanraden	i	101	487
aanraden	tm	101	487

In tegenstelling tot het vorige voorbeeld zijn de frekwenties van de twee lezingen van aanraden niet gedisambigueerd. De totale frekwentie van de vorm aanraden, 202, is hier gelijkelijk verdeeld over de infinitief en de finiete vorm.

Stem	Struc	Number	InlLemma
Tabel 6: Alternatieve morfologische parseringen. Struc: parsering; Number: morfologische analyse nummer; InlLemma: INL-lemma frekwentie.
autotentoonstelling	((auto),(tentoonstel),(ing))	1	2
autotentoonstelling	((auto),((tentoonstel),(ing)))	2	2

Tabel 6, tenslotte, illustreert hoe alternatieve morfologische analyses behandeld worden. Zo kan autotentoonstelling begrepen worden als een samenstellende afleiding, maar ook als een samenstelling. De verschillende analyses van een gegeven vorm zijn genummerd, zodat men de gewenste analyse kan opvragen. Wederom is de INL-frekwentie voor beide parseringen hetzelfde. Om te voorkomen dat structureel ambigue vormen tweemaal voorkomen, zal men bij het samenstellen van een frekwentielijst slechts één van de alternatieven moeten toelaten.

De CELEX gegevens vinden verschillende soorten toepassingen. Binnen de psycholinguïstiek worden de gegevensbanken geregeld geraadpleegd voor het samenstellen van lexicaal materiaal voor experimenten, en worden woordfrekwentiedistributies op allerlei eigenschappen die bij perceptie en productie een rol spelen onderzocht. Binnen de computerlinguïstiek wordt CELEX onder meer gebruikt om corpora te verrijken met structurele informatie over lemma's. De in CELEX opgeslagen informatie over spelling wordt door ontwerpers van tekstverwerkers benut voor de bouw van ‘spelling checkers’ en voor het correct afbreken van woorden. Binnen de linguïstiek, tenslotte, wordt CELEX onder meer geraadpleegd bij de bestudering van de fonotactische en morfologische eigenschappen van woorden.

Zonder afbreuk te willen doen aan mijn respect voor de wijze waarop CELEX de haar gestelde taak heeft uitgevoerd, bespreek ik in wat volgt een aantal problemen waar ik als regelmatige gebruiker van CELEX mee in aanraking ben gekomen. Deze problemen laten zich herleiden tot een tweetal factoren die de inhoud van het gegevensbestand mede bepalen, namelijk

-	technische beperkingen op de verwerking van het corpus, en
-	de semi-automatische bepaling van fonologische en morfologische representaties.

De verwerking van het corpus

Ten aanzien van de Nederlandse databank noem ik twee problemen die zich laten herleiden tot technische beperkingen op de verwerking van het omvangrijke INL-corpus. In de eerste plaats is er het feit dat CELEX bij de verwerking van het in

het corpus aanwezige lexicale materiaal het criterium gehanteerd heeft dat, wil een woord in het bestand worden opgenomen, het in minimaal twee van de 835 verschillende teksten van het INL-corpus dient voor te komen. Vanuit een lexicografische invalshoek is dit criterium van minimale dispersie wellicht verdedigbaar, maar voor mijn eigen onderzoek naar morfologische produktiviteit (Baayen 1989) is het ontbreken van de hapax legomena in het Nederlandse bestand (maar niet in het Engelse) een gemis. Afgaande op de frekwentiedistributie van de woorden die wel in de databank zijn opgenomen maar die niet in Van Dale (1984) staan vermeld (deze informatie is met behulp van CELEX gemakkelijk op te vragen) laat het aantal lemma's dat in het INL-corpus voorkomt maar niet in CELEX zich schatten op 5000, zo'n 4% van alle lemma typen in de databank. Maar ook ten opzichte van de Van Dale-Kruyskamp (1961) blijken er tientallen nieuwe formaties (alle met minimale dispersie van 2 in het INL) in de CELEX-bestanden voor te komen, hetgeen doet vermoeden dat er nogal wat neologismen in het INL-corpus aanwezig zijn die men niet in de woordenboeken terug zal vinden. Het is jammer dat men deze woorden niet met behulp van CELEX kan opsporen. Bij navraag blijkt het criterium van minimale dispersie niet alleen lexicologisch gemotiveerd: het verwerken van het bestand met hapaxen en woorden die slechts in één subcorpus voorkomen is, mede door de grote aantallen tikfouten, eenvoudigweg te arbeidsintensief gegeven de beschikbare financiële middelen, zowel bij het INL als bij CELEX.

Een tweede probleem betreft het volgende. In bepaalde gevallen kan het wenselijk zijn om op het INL-corpus gebaseerde tellingen te vergelijken met tellingen in andere corpora, corpora die meestal veel kleiner zullen zijn. Daar een aantal standaardcorpora 1.000.000 tokens omvatten, heeft CELEX een kolom ingevoegd die de geschatte frekwentie bij 1.000.000 in plaats van bij 42.000.000 biedt. Idealiter zou men deze frekwentie willen vaststellen aan de hand van een willekeurig gekozen aantal tekstfragmenten uit het INL-corpus ter grootte van 1 miljoen tokens. Dit is wederom een omslachtige en arbeidsintensieve klus, terwijl de beoogde informatie slechts van secundair belang is. Terecht heeft men dan ook gekozen voor een aanpak waarin de beoogde frekwenties uit de INL-frekwenties worden berekend. Ongelukkigerwijs zijn de door CELEX aangereikte geschatte frekwenties niet goed bruikbaar. CELEX is van de veronderstelling uitgegaan dat de voorkomfrekwentie van elk type in het corpus binomiaal verdeeld is. Op basis van deze assumptie kan de frekwentie bij 1 miljoen verkregen worden door de frekwentie bij 42 miljoen te delen door 42 en vervolgens af te ronden. Nu is deze methode betrouwbaar zolang het gaat om het schatten van de frekwenties van individuele typen. Toegepast op de volledige frekwentiedistributie ontstaat echter een vertekend beeld: een substantieel deel van de laagfrekwente soorten in het INL-corpus wordt bij deze wijze van werken ten onrechte niet in de steekproef van 1 miljoen opgenomen. Het gevolg is dat het aantal verschillende soorten bij 1 miljoen tokens ernstig onderschat wordt. Berekeningen van de omvang van de woordenschat als geheel of de graad van produktiviteit van morfologische categorieën vallen op grond van deze cijfers te laag uit. Nauwkeuriger schattingen kan men verkrijgen door de frekwenties van de typen te bepalen aan de hand van een aselecte steekproef van 1 miljoen tokens uit het totale bestand van 42 miljoen

tokens, een met behulp van een computer eenvoudig uit te voeren taak.

Een ander punt van zorg betreft de representativiteit van de INL-frekwenties. In het geval van het corpus Uit den Boogaart is men redelijk zorgvuldig te werk gegaan ten aanzien van de opbouw van het bestand als representatieve steekproef van hedendaags Nederlands taalgebruik, en hetzelfde geldt ten aanzien van het Cobuild corpus (zie e.g. Sinclair 1987). In het geval van het INL-corpus, daarentegen, is er sprake van overwegend literair materiaal dat niet volgens de regels van de steekproeftheorie bijeen is gebracht. De verrijking van het INL-corpus, onder andere met teksten van het NOS-journaal, heeft nog niet geresulteerd in uitbreiding van de CELEX-databank. We kunnen niet zonder meer aannemen dat de frekwentieverhoudingen zoals die door CELEX aangereikt worden generaliseren naar andere teksttypen. Wellicht is het zo dat de grote omvang van het corpus het gebrek aan representativiteit enigzins compenseert. Anderzijds moeten we vaststellen dat voor onderzoek naar verschillen in woordgebruik tussen tekstsoorten we voorlopig aangewezen blijven op het corpus Uit den Boogaart.

Voor volledigheid wijs ik er tenslotte op dat CELEX niet beoogt het INL-corpus uitputtend te beschrijven. Het doel van CELEX is de opbouw van zo volledig mogelijke lexicale databanken. In het geval van het Nederlands is het INL-corpus hierbij op twee manieren gebruikt: enerzijds om gegevens ten aanzien van de gebruiksfrekwenties van woorden te verkrijgen, en anderzijds om de Van Dale (1984) en de Woordenlijst van de Nederlandse Taal te completeren. Voor het verkrijgen van contextuele informatie van woorden zal men het INL-corpus of het corpus Uit den Boogaart moeten raadplegen: bij de constructie van de CELEX databanken heeft men zich (ook contractueel) moeten beperken tot het woord als grootste eenheid van analyse.

De linguïstische analyse

De verrijking met structurele informatie van wat in oorsprong een combinatie van informatie uit woordenboek en frekwentielijst is, is semi-automatisch tot stand gebracht: door de computer gegenereerde parseringen en orthografie-fonologie omzettingen zijn met de hand gecontroleerd. Het resultaat is in het algemeen betrouwbaar. Toch komt men hier en daar foute of aanvechtbare analyses tegen, waarvan ik er hier enkele noem.

In de eerste plaats blijkt het in de huidige versie van de Nederlandse gegevensbank nog niet altijd mogelijk de morfologische structuur van bepaalde formaties te achterhalen. Dit probleem doet zich voor bij gelede woorden die door conversie zijn ontstaan uit geflecteerde vormen. In tabel 7a heb ik twee voorbeelden opgenomen die dit verschijnsel illustreren voor de adjectiva verklarend en veracht, die teruggaan op gelijkluidende - flectionele - deelwoorden. Het ontbreken van een parsering voor deze formaties is het gevolg van de

Tabel 7: Voorbeelden van foutieve parseringen
	(a) Geflecteerde vormen zonder parsering
verklaar	v@rklar	5186	ver+klaar	V
verklarend	v@rklar@nt	84		A
verklaring	v@rklarIN	4182	ver+klaar+ing	N
veracht	v@rAxt	273	ver+acht	V
veracht	v@rAxt	76		A
verachtelijk	v@rAxt@l@k	209	ver+acht+elijk	A
	(b) Uitsluitend formeel gelede woorden
verguis	v@rGLs	54		V
vergeet	v@rGet	6018		V
	(c) Non-compositionele vormen
verzoek	v@rzuk	2451		N
verantwoordelijk	v@rAntword@l@k	1865	verantwoord+elijk	A
verandering	v@rAnd@rIN	6250		N
	(d) Derivationele vormen zonder parsering
verwetenschappelijking	v@rwet@sxAp@l@kIN	27		N
verontreinig	v@rOntrKn@GIN	107	verontreinig+ing	N

afwezigheid van een parsering voor geflecteerde vormen in het woordvormenbestand. Soms leidt dit tot verrassende inconsistenties, namelijk waar geflecteerde vormen aanleiding geven tot verdere derivatie, vergelijk

over+beschaafd+heid
over+be+schaaf+ing

waar het gelede werkwoord be+schaaf alleen wordt ontleed bij de afwezigheid van het flectionele suffix -d.

In de tweede plaats blijkt dat zogenaamde uitsluitend formeel gelede woorden als vergeet en verguis (tabel 7b) als monomorfematisch worden behandeld. In het licht van de afwezigheid van semantische compositionaliteit valt dit wellicht te rechtvaardigen, maar gegeven de vormelijke geleedheid van dit soort formaties verdient het mijns inziens toch de voorkeur de aanwezigheid van het prefix ver- te onderkennen. De huidige informatie in het lemma-bestand maakt het onmogelijk om uitsluitend formeel gelede woorden te onderscheiden van woorden met een zogenaamd pseudo-prefix, zoals bijvoorbeeld veranda. Een vergelijkbaar probleem doet zich voor bij verba die semantisch niet compositioneel zijn, maar waarvan het

grondwoord wel degelijk bestaat (tabel 7c). Bij verba van het type verzoeken, verantwoorden en veranderen is de betekenis niet zonder meer af te lezen aan prefix en grondwoord, maar ook hier is de behandeling als ongeleed niet overtuigend. Tenslotte is het mij onduidelijk waarom vergissen, verhuizen en verhouten als ongeleed worden opgevoerd, terwijl formaties als vergapen, vergaren en verstenen wel als transparant worden behandeld en van een parsering worden voorzien. Gesteld dat men de niet transparante gevallen in de gegevensbank inderdaad als ongeleed moet behandelen, dan had men voor een meer consistente analyse toch een beroep kunnen doen op De Vries (1975). Anderzijds zou ik zelf ervoor pleiten om de niet transparante formaties wel als geleed te behandelen. Met behulp van een extra kolom in het lemma-lexicon met informatie over de semantische transparantheid van het lemma zou dan het onderscheid tussen de transparante en opake vormen gemaakt kunnen worden.

In de derde plaats vindt men voorbeelden als genoemd in tabel 7d. In het geval van verwetenschappelijking heeft het adjectief wetenschappelijk als grondwoord gediend voor de vorming van het werkwoord verwetenschappelijken, een werkwoord waarvan in de databank geen voorbeelden voorkomen. Dit ‘mogelijke’ maar niet ‘bestaande’ werkwoord is zelf het grondwoord voor een nominalisatie op -ing. De voor de morfologie door CELEX gehanteerde categoriale parser (KASIMIR) was zo geconstrueerd dat ambiguïteiten zoveel mogelijk op grond van reeds in CELEX opgeslagen lexicale informatie werden opgelost. In dit geval heeft deze strategie averechts gewerkt: de structuur van het mogelijke grondwoord is niet onderkend, met als gevolg dat de ervan afgeleide nominalisatie als ongeleed is opgevoerd. Een soortgelijk geval is verontreinigen. De stapeling van de prefixen ver- en ont- is uitzonderlijk, maar niet ongrammatikaal. De afwezigheid van het mogelijke maar niet bestaande werkwoord ontreinigen in het lexicon heeft de parsering van verontreinig geblokkeerd. In dit geval had de parser wel het (gelede) werkwoord verontreinigen als bestaand woord in het CELEX bestand ter beschikking, zodat het suffix -ing in de nominalisatie verontreiniging kon worden onderkend.

Conclusies

CELEX stelt een indrukwekkende databank ter beschikking die met een uitstekende user interface bijzonder gemakkelijk toegankelijk is. Gezien de weerbarstigheid van het materiaal en de veelheid aan mogelijke vraagstellingen is het resultaat indrukwekkend te noemen. Bovendien moet vermeld worden dat de CELEX databanken nog steeds verder ontwikkeld worden, en dat in toekomstige versies de meeste van de boven gesignaleerde onnauwkeurigheden verholpen zullen zijn. Ik waag me dan ook aan de stelling dat de Nederlandse taalkunde met CELEX een belangrijk hulpmiddel voor haar onderzoek rijker is.

Harald Baayen (Max-Planck-Instituut für Phycholinguistik, Nijmegen)

Bibliografie

Baayen, R.H. 1989: A Corpus-Based Approach to Morphological Productivity. Statistical Analysis and Psycholinguistic Interpretation. Diss. VU, Amsterdam.

Burnage, G. 1990: CELEX. A Guide for Users, CELEX, Nijmegen.

Sinclair, J.M. (ed.) 1987: Looking Up: An Account of the Cobuild Project in Lexical Computing, Collins.

Sterkenburg, P.G.J. & Pijnenburg, W.J.J. (ed.) 1984: Van Dale: Groot Woordenboek van Hedendaags Nederlands, Van Dale Lexicografie, Utrecht.

Uit den Boogaart, P.C. 1975: Woordfrekwenties in geschreven en gesproken Nederlands, Oosthoek, Scheltema & Holkema, Utrecht.

Van Dale 1961⁸: Groot Woordenboek der Nederlandse Taal (C. Kruyskamp), Nijhoff, Den Haag.

Vries, J.W. de 1975: Lexicale Morfologie van het Werkwoord in Modern Nederlands, Universitaire Pers, Leiden.

Vorige Volgende

Forum der Letteren. Jaargang 1991

De CELEX lexicale databank
Harald Baayen

CELEX

De gegevensbank en FLEX

Tabel 1: Overzicht van de lexicale informatie in CELEX

Tabel 2: Een eenvoudig voorbeeld van de rij- en kolomstructuur van een met FLEX opgebouwd lexicon.

Tabel 3: Voorbeelden van representaties van morfologische structuur. (1) volledige vlakke representatie. (2) onmiddellijke segmentatie. (3) volledige, hiërarchische segmentatie. (4) volledige benoemde segmentatie.

Tabel 4: Ortografische varianten: P/N: voorkeurspelling/alternatieve spelling; InlSpellF: INL-frekwentie van de spelling; Inl: INL-frekwentie; InlLemma: INL-frekwentie van het corresponderende lemma.

Tabel 5: Flectionele varianten in het woordvormen-lexicon; Inl: INL-frekwentie van de geflecteerde vorm; InlLemma: INL-frekwentie van het corresponderende lemma; i: infinitief; t: tegenwoordige tijd; m: meervoud.

Tabel 6: Alternatieve morfologische parseringen. Struc: parsering; Number: morfologische analyse nummer; InlLemma: INL-lemma frekwentie.

De verwerking van het corpus

De linguïstische analyse

Tabel 7: Voorbeelden van foutieve parseringen

Conclusies

Bibliografie

Over dit hoofdstuk/artikel

auteurs

taalkunde

De CELEX lexicale databank Harald Baayen

CELEX

De gegevensbank en FLEX

Tabel 1: Overzicht van de lexicale informatie in CELEX

Tabel 2: Een eenvoudig voorbeeld van de rij- en kolomstructuur van een met FLEX opgebouwd lexicon.

Tabel 3: Voorbeelden van representaties van morfologische structuur. (1) volledige vlakke representatie. (2) onmiddellijke segmentatie. (3) volledige, hiërarchische segmentatie. (4) volledige benoemde segmentatie.

Tabel 4: Ortografische varianten: P/N: voorkeurspelling/alternatieve spelling; InlSpellF: INL-frekwentie van de spelling; Inl: INL-frekwentie; InlLemma: INL-frekwentie van het corresponderende lemma.

Tabel 5: Flectionele varianten in het woordvormen-lexicon; Inl: INL-frekwentie van de geflecteerde vorm; InlLemma: INL-frekwentie van het corresponderende lemma; i: infinitief; t: tegenwoordige tijd; m: meervoud.

Tabel 6: Alternatieve morfologische parseringen. Struc: parsering; Number: morfologische analyse nummer; InlLemma: INL-lemma frekwentie.

De verwerking van het corpus

De linguïstische analyse

Tabel 7: Voorbeelden van foutieve parseringen

Conclusies

Bibliografie

Over dit hoofdstuk/artikel

auteurs

taalkunde

De CELEX lexicale databank
Harald Baayen