| |
| |
| |
Inleiding: over woordenboeken, lexica en computers
Willy Martin
In hun inleidende artikel verschenen in het aan het lexicon gewijde Jaarboek van het VWF-programma ‘Corpusgebaseerde woordanalyse’ (VU Letteren 88/9), maken Baayen en Booij [Baayen en Booij 1990] een drievoudig onderscheid in de notie ‘lexicon’, t.w.
- | het lexicon als woordvoorraad, |
- | het linguïstische lexicon (met een statische en een meer dynamische variant), |
- | en het mentale lexicon. |
In de eerste, traditionele opvatting: ‘het lexicon als woordvoorraad’, gaat het om de ‘woordvoorraad (mijn cursivering) van een taalgemeenschap’. Volgens die, ‘het meest bij de beleving van de niet taalkundig geschoolde taalgebruiker’ aansluitende interpretatie, staan woordenboeken en lexica heel dicht bij elkaar, c.q. vallen ze samen. Op die manier ‘kan men Van Dale's Woordenboek van het Hedendaags Nederlands beschouwen als een lexicon van het hedendaags Nederlands’. Aangezien ‘hedendaags Nederlands’ een rekbaar begrip is, spreken de auteurs niet over het maar over een lexicon. Dit hangt overigens samen met een wat engere definitie die we als een variant van de eerste kunnen beschouwen, nl. het lexicon als ‘de bestaande woordvoorraad van een taalgemeenschap’. Het woordenboek wordt dan met name ook geraadpleegd om te ‘controleren of het gezochte woord wel bestaat en of het dus wel gebruikt mag worden’. Afgezien van het problematische van de notie ‘bestaand woord’ (hoe maken we uit of een woord nog / al bestaat?), gaat het bij deze eerste definitie en haar variant om een statische interpretatie van het lexicon als een gesloten inventaris van woorden.
In het vervolg van hun artikel vermelden Baayen en Booij in eerste instantie Bloomfield in zijn poging tot een linguïstisch verantwoorde definitie van de notie ‘lexicon’. Het voornaamste verschilpunt met de voorafgaande, prelinguïstische, ‘naïeve’ opvatting is nu dat het lexicon niet meer als een losstaande gegevensverzameling wordt aangezien, maar wel als een component van een systeem: lexicon en grammatica vormen samen één geheel, één taalsysteem. Het gevolg is dat alleen die woorden en ‘die eigenschappen van woorden in een linguïstisch verantwoord lexicon moeten worden gespecificeerd die niet voorspelbaar zijn op basis van linguïstische regels’. In tegenstelling tot lexicon-1 (de woordenboek-interpretatie) zal men
| |
| |
in lexicon-2 (de linguïstische interpretatie à la Bloomfield) geen gelede woorden die volledig regelmatig zijn, aantreffen.
Bloomfields definitie van het lexicon heeft duidelijk doorgewerkt in het Chomskyaanse post-structuralisme van en na Chomsky. Daar waar voor laatstgenoemde het lexicon nog steeds een statische lijst betrof van ‘irregularities’ (zie Chomsky 1970), zal in later generatief werk de nadruk meer en meer komen te liggen op het dynamische van het lexicon: niet alleen ‘bestaande’, al of niet regelmatige, ook ‘bestaanbare’, ‘mogelijke’, regelmatige formaties moeten in een lexicon-model verantwoord kunnen worden (zie o.m. Aronoff 1976 en Booij 1977). De morfologische component, de verzameling woordvormingsregels, wordt deel van het lexicon. Baayen en Booij duiden deze interpretatie van ‘lexicon’ aan als lexicon-3.
Los van de vraag die tot nu toe centraal stond, nl. welke items in het lexicon dienen te worden opgenomen, en of er ook regels in staan, moet ook een antwoord komen op de vraag welke informatie over ieder item gegeven moet worden, welke kennis ieder item vooronderstelt. Het onderzoek naar het mentale lexicon spitst zich nu net toe ‘op de vragen welke informatie het lexicon in een taalgedragstheorie bevat, hoe deze informatie is gestructureerd, en hoe deze informatie voor de taalgebruiker beschikbaar komt’. Dit laatste soort lexicon legt dus zowel sterke nadruk op het statische aspect (de wijze waarop items liggen opgeslagen, hun zgn. representatie, b.v. met een scheiding tussen ‘vorm’ (fonologische, grafemische, morfologische eigenschappen) en ‘inhoud’ (syntactische, semantische, pragmatische eigenschappen) of zoals in de recente connectionistische aanpak, zonder aparte ingang voor items maar met een berekening ervan als knopen in een netwerk van gedistribueerde eigenschappen), als op het dynamische aspect (de wijze waarop toegang wordt verkregen tot deze representaties, b.v. door rekening te houden met frequentie van items, hun morfologische structuur e.d.).
Samenvattend, en enigszins simplificerend, zou men kunnen stellen dat in wat voorafgaat ‘lexicon’ op de volgende wijze wordt/werd geïnterpreteerd:
lexicon-1 = |
een verzameling bestaande woorden als in een woordenboek |
lexicon-2 = |
een verzameling idiosyncratische, bestaande, lexicale items (morfemen en morfeemcombinaties) |
lexicon-3 = |
een verzameling idiosyncratische bestaande lexicale items (morfemen en morfeemcombinaties) samen met een verzameling morfologische regels ter vorming van bestaanbare, mogelijke, niet-idiosyncratische morfeemcombinaties |
lexicon-4 = |
een georganiseerde lexicale kennisbank waarover taalgebruikers dienen te beschikken om taal te produceren en te verstaan |
| |
| |
Het zal de lezer niet ontgaan zijn dat de laatste definitie (lexicon-4) de meest algemene is en dat de eerste drie, hoe dan ook, op hun eigen wijze, een bepaalde vorm van (organisatie van) lexicale kennis en ‘know-how’ weergeven en dus, in feite, specificaties zijn van vier. Al bij al leek het mij, bij wijze van inleiding op een themanummer van Spektator ‘omtrent het lexicon’ - en dan nog wel een waarbij computationele aspecten aan bod dienden te komen -, niet onnuttig een aantal opvattingen mbt. het lexicon op een rijtje te zetten. Het is immers zo dat m.n. in de natuurlijke-taalverwerking, - zoals de computertaalkunde hedentendage vaak wordt genoemd -, het lexicon een cruciale rol speelt. Elk systeem dat op een robuuste wijze taal wil verwerken moet over een uitgebreide en diepe lexicale kennis beschikken, zoniet blijft men steken bij ‘toy systems’, speelgoed- of demosystemen, die wel in staat zijn enkele zinnen te begrijpen, te parafraseren, te vertalen, aan te vullen , te veranderen, te corrigeren, etc., maar die allerminst het predikaat ‘robuustheid’ verdienen. Het computerlexicon, - lexicon-5 zo men wil -, de lexicale component van een natuurlijke-taalverwerkend systeem, zou dus in principe veel gelijkenis moeten vertonen met lexicon-4. Hierbij dienen de volgende kanttekeningen gemaakt:
a. | geïmplementeerde computerlexica munten niet direct uit door uitgebreidheid. In een overzichtsartikel mbt. computerlexica in 1988 gepubliceerd kwam McNaught [McNaught 1988] tot de bevinding dat het gemiddelde aantal lexicale items in geïmplementeerde lexica 25 bedroeg. |
| |
b. | geïmplementeerde computerlexica munten niet direct uit door ‘intelligentie’. Met intelligentie bedoel ik hier zowel de graad van abstractheid van de gerepresenteerde kennis, als de wijze van representatie zelf. Computerlexica m.a.w., bevatten wel vaak kennis mbt. ‘concrete’ verschijnselen als spelling en uitspraak maar minder vaak mbt. morfologie, syntaxis en semantiek / pragmatiek. Anderzijds vindt men in de meeste traditionele, woordenboeken wel b.v. semantische kennis (b.v. in de vorm van definities of betekenisomschrijvingen), alleen de wijze van weergeven van dergelijke kennis is niet zo bijster inzichtelijk (b.v. betekenissen worden vaak louter opgesomd, niet met elkaar in verband gebracht). |
Tegen de achtergrond van groeiende theoretische interesse in het (mentale) lexicon enerzijds, en, anderzijds, de praktische noodzaak om tot robuuste, kwantitatief en kwalitatief interessante, intelligente, lexicale kennisbanken te komen begint zich de laatste jaren een nieuwe subdiscipline te profileren: de computationele lexicologie / lexicografie. De in dit nummer samengebrachte bijdragen belichten enkele facetten van deze nieuwe richting.
Computationele lexicologie heeft als studie-object het systeemkarakter, de organisatie en de exploitatie van lexicale kennisbanken t.b.v natuurlijke-taalverwerking (aan welke criteria moeten dergelijke lexicale componenten voldoen, welke kennis in welke vorm moet waar worden opgeslagen etc.).
| |
| |
Hoewel computationele lexicografie zich in eerste instantie bezig houdt met de descriptie van de lexemen zelf, gaat het niet louter om een vorm van traditionele lexicografie met nieuwe middelen (computers). Veeleer onderscheidt zich de computationele lexicografie van de traditionele door het feit dat het centrale studie-object niet langer en alleen het traditionele, gedrukte woordenboek is, maar tevens objecten omvat als:
- | computer-ondersteunde woordenboeken |
- | machine-leesbare woordenboeken |
- | lexicale en termenbanken |
- | machinewoordenboeken |
- | en lexicale kennisbanken |
(zie Martin en Woltering 1989 voor een gedetailleerde bespreking van deze objecten). Naarmate de computationele lexicografie zich meer met lexicale kennisbanken inlaat dan met computer-ondersteunde woordenboeken (in de zin van ‘met computer vervaardigde woordenboeken’) is de grens tussen computationele lexicologie en computationele lexicografie uiteraard minder scherp. In de volgende bijdragen worden beide disciplines dan ook niet strikt van elkaar onderscheiden, maar wordt het gemeenschappelijke object ‘het computationele lexicon’ als bindteken tussen de verschillende artikels gebruikt.
In de bijdrage van Meijs staat de empirische dimensie van de computationele lexicografie centraal. Vragen als
- | wat zijn empirische lexicale data? |
- | hoe komt de lexicograaf hieraan? |
- | welke rol spelen deze data bij selectie, ordening en representatie van lexemen? |
- | hoe dragen computationele middelen bij tot de verbreding / versteviging van de empirische basis? |
komen hierbij aan bod. Met name op de relatie corpus (als kennisbank) en lexicon (als kennisbank) wordt door Meijs nader ingegaan. Dit laatste is overigens op dit ogenblik een van de centrale thema's binnen de computationele lexicologie / lexicografie. In de door de EG gesponsorde linguïstische projecten wordt alvast een voorname plaats ingeruimd voor het onderzoek naar de opbouw en structuur van corpora, de exploitatie ervan ten dienste van computerlexica en hun onderlinge relatie (import / export van de ene kennisbron naar de andere en omgekeerd, zo kan een lexicon ‘verrijkt’ worden door een corpus maar het omgekeerde is eveneens mogelijk).
Naar mijn bescheiden mening maakt het tweede aspect, de exploitatie van computercorpora t.b.v. de lexicografie ofwel het ontwikkelen van algoritmiseerbare en dus (semi-)automatiseerbare empirische descriptie- en analysetechnieken, in feite de kern uit van de computationele lexicografie, en is er daaraan, tot nu toe, relatief weinig aandacht besteed.
| |
| |
Zowel door computationele lexicologen als door computationele lexicografen is er daarentegen wel veel aandacht besteed aan de zg. ‘re-usability’- problematiek. Twee bijdragen, die van Al enerzijds en die van Schnelle en Hellwig anderzijds, gaan hierop nader in.
Al heeft ongetwijfeld gelijk wanneer hij schrijft dat het (o.m.) economische overwegingen geweest zijn die de EG er toe hebben doen besluiten om een hele reeks van onderzoeksprojecten te financieren die deze re-usability-problematiek als min of meer centraal thema hebben. Maar waar gaat het hem eigenlijk om?
Re-usability - herbruikbaarheid - heeft in het ‘Eurolingo’ een tweevoudige betekenis gekregen. Ik citeer uit Calzolari 1991:
‘Reusable must be interpreted in two main senses:
- | reusable 1: to exploit and reuse lexical information implicitly or explicitly present in preexisting lexical resources (Machine Readable Dictionaries, terminological databases, textual corpora, etc.) as an aid to construct large computational lexicons of the type reusable 2 (see below); |
- | reusable 2: to construct computational lexicons in such a way that various users (different NLP systems - in different theoretical frameworks and for different applications - but also human users such as lexicographers, linguists, common users) can extract - with appropriate interfaces relevant lexical information.’ |
Herbruikbaarheid 1 dus in de zin van iets bestaands opnieuw en voor andere doeleinden / gebruikers gebruiken enerzijds (wat men zowel in de bijdrage van Al als in die van Schnelle en Hellwig terugvindt), en herbruikbaarheid 2 in de zin van de constructie van een polyfunctionele bron (wat men ook in de bijdrage van Al terugvindt).
Al bespreekt het hergebruik van woordenboekinformatie vanuit een zeer concrete invalshoek: gegeven specifieke toepassingen op het gebied van de natuurlijke-taalverwerking enerzijds en een Van Dale-woordenboek anderzijds, wat moet er aan de Van Dale-gegevens veranderd worden om ze te hergebruiken, om ze voor deze toepassingen geschikt te maken. Merk op dat we van de notie lexicon weer naar de notie woordenboek zijn overgestapt: woordenboeken worden weliswaar niet gelijkgesteld met computerlexica maar de informatie die ze bevatten kan - al of niet getransformeerd - voor deze laatste vaak (her)bruikbaar zijn.
In zijn bijdrage maakt Al verder duidelijk dat de lexicale data uit de Van Dale-woordenboeken wel relatief eenvoudig tot een relationele database te converteren zijn maar dat daarmee het ideaal van het polyfunctionele hergebruik nog niet gerealiseerd is.
| |
| |
De bijdrage van Schnelle en Hellwig is een vertaling van een rapport geschreven in het kader van het Eurotra-7 project. Eurotra-7 is een door de EG gesubsidieerde haalbaarheids- en definitiestudie mbt. de herbruikbaarheid van lexicale en terminologische bronnen bij toepassingen op het terrein van de natuurlijke-taalverwerking. Een achterliggende gedachte hierbij is dat optimale herbruikbaarheid pas zal worden bereikt als er standaarden kunnen worden gedefinieerd: standaarden voor lexicale descriptie.
In deze bijdrage staat het ontwerp van een gestandaardiseerd representatieschema centraal en het is duidelijk dat hierbij - zoveel mogelijk - gestreefd wordt naar het hergebruik van informatie uit bestaande woordenboeken.
In een vierde en laatste bijdrage tenslotte, belichten Martin en Ten Pas een ander aspect van de computationele lexicologie. Na de relatie corpus-lexicon en de herbruikbaarheid van lexicale informatie komt nu het sublexicon ter sprake: de lexicale component van een subtaalverwerkend systeem.
Zowel vanuit een praktisch (op resultaat gericht) als vanuit een theoretisch standpunt (op inzicht gericht) kan het interessant zijn te weten hoe lexicologie en terminologie, algemene en subtaal zich verhouden en wat daarvan de consequenties zijn bij natuurlijke-taalverwerking. Verder staan in deze bijdrage lexicale kenmerken en hun interactie centraal waardoor we, in tegenstelling tot de twee vorige bijdragen, weer verder van lexicon-1 en dichter bij lexicon-4 zijn aanbeland.
De tijd dat het lexicon als een appendix bij de grammatica fungeerde is lang voorbij, Het lexicon heeft niet langer een perifere, maar een centrale plaats binnen de taalkunde. Juist daardoor ontstaan er allerlei (nieuwe) benaderingen van en zienswijzen op het lexicon. Enkele aspecten van wat er binnen een jonge subdiscipline als de computationele lexicologie / lexicografie leeft, zijn dan ook hier samengebracht in de hoop dat zij mede een bijdrage leveren tot inzicht in / gebruik van het lexicon als component van een geïntegreerd competentie / performantiemodel.
| |
Bibliografie
Aronoff, M., 1976. Word Formation in Generative Grammar. Cambridge, Mass., MIT press. |
Baayen, H., Booij, G., 1990. ‘Inleiding: de notie “lexicon”.’ In: Jaarboek Corpusgebaseerde Woordanalyse 1990. Vrije Universiteit Amsterdam, 1-17. |
Booij, G., 1977. Dutch Morphology. A study of Word Formation in Generative Grammar. Dordrecht, Foris. |
Calzolari, N. 1991. ‘Representation of semantic information in ACQUILEX.’ In: Feasibility of standards for semantic description of lexical items. Report Eurotra-7 Study, 31-42. |
Chomsky, N., 1970. ‘Remarks on Nominalization’. In: R.A. Jacobs and P.S. Rosenbaum (Eds.) Readings in English Transformational Grammar. Waltham Mass.: Xerox Cy., 184-221. |
Martin, W., Woltering, M., 1989. Basic issues in computational lexicography. Utrecht: Van Dale Lexicografie bv. |
McNaught, J., 1988. ‘Computational Lexicography and Computational Linguistics’. In: Lexicographica. International Annual for Lexicography 4. Tübingen, Niemeyer, 19-33. |
|
|