Spektator. Jaargang 18
(1988-1989)– [tijdschrift] Spektator. Tijdschrift voor Neerlandistiek– Auteursrechtelijk beschermd
[pagina 6]
| |||||||||||||||||||||||||
Corpustaalkunde
| |||||||||||||||||||||||||
[pagina 7]
| |||||||||||||||||||||||||
de start van zijn project ‘The Survey of Educated English Usage’ drukte Quirk dit als volgt uit, en wat hij toen zei kan nog steeds grotendeels beschouwd worden als een programma voor de corpustaalkunde: The basis [for the Survey] must be copious materials, made up of continuous stretches or ‘texts’ taken from the full range of co-existing varieties and strata of educated English, spoken as well as written, at the present time. For each stretch of material, account must be taken of all the grammatical data, distinguishing between the normal and the variant forms of each constructional type, and observing which constructions occur with which other constructions. Through the plotting of variables, full information will be sought on the factors which tend to prompt or even demand a given variant. Each text, moreover, must be seen in relation to the situational matrix which can therefore - along with other contextual variables, linguistic and otherwise - be called to account, where necessary, for whatever restrictions upon constructions appear to emerge. De zestiger en zeventiger jaren zagen ook het tot stand komen van een aantal belangrijke corpora. Als we ons tot het Engels beperken, kunnen bijvoorbeeld genoemd worden: het corpus van het al genoemde Survey, het corpus Amerikaans Engels dat in het begin van de jaren '60 door Nelson Francis en Henry Kucera werd samengesteld (het ‘Brown Corpus’) en de Brits-Engelse tegenhanger van het Brown Corpus, het Lancaster-Oslo-Bergen (LOB) Corpus dat aan het eind van de jaren '70 tot stand kwam. Intussen zijn ook binnen de meer theoretisch georiënteerde taalkunde, in gelijke tred met de vervaging van het onderscheid tussen competence en performance, ook de inzichten m.b.t. het gebruik van corpusdata aan het verschuiven. Zo beweert Newmeyer in zijn enigszins apologetisch getoonzette boek Grammatical Theory (1983) dat, naarmate er meer objectieve taaldata beschikbaar komen, deze onze inzichten in de structuur van natuurlijke taal zullen kunnen doen veranderen: Improvements in ‘data collecting’, made possible by twentieth-century developments in physics and chemistry, have led to revised theories of the history of the earth - in some ways drastically revised. So it is and will be with linguistics. As more reliable data become available that do not have their basis in introspection, we may find that our views about the structure of human language change accordingly. Maar het gaat bij de aanduiding corpustaalkunde niet alleen om een hernieuwd gebruik van een bepaald type data. De corpustaalkunde van nu onderscheidt zich tevens in methodologisch opzicht in sterke mate van andere taalkundige activiteiten. We komen daarop hieronder nog uitvoeriger terug, maar willen er nu op wijzen dat de rol die het corpus speelt in de hedendaagse corpustaalkunde, drastisch verschilt van de rol die Harris er in zijn structuralisme aan toekende. In feite zijn er slechts twee overeenkomsten tussen de taalkunde van Harris en de corpustaalkunde: het gebruik van corpusdata en de aandacht voor de formalisering van grammaticale regels. | |||||||||||||||||||||||||
[pagina 8]
| |||||||||||||||||||||||||
We gaan in de rest van dit artikel eerst wat nader in op de kenmerken van de corpustaalkunde, haar doel en haar methode. Daarna bespreken we de ‘state of the art’ in Nederland. | |||||||||||||||||||||||||
1. Doel van de corpustaalkundeHet doel van de corpustaalkunde verschilt nauwelijks van dat van vele andere taalkundige subdisciplines. De corpustaalkunde wil, door de bestudering van specifieke talen en met name van het gebruik van die talen, komen tot een dieper inzicht in taal en taalgebruik in het algemeen. Zij doet dit door lopende teksten, in geschreven of gesproken vorm, te bestuderen. Daarmee wordt ook gezegd dat er teksten onderzocht moeten worden die geproduceerd zijn door individuele gebruikers, in een bepaalde sociale situatie, met een bepaald doel. Met andere woorden, de corpustaalkunde houdt zich tevens bezig - moet zich bezig houden - met alle aspecten van taalvariëteit, zowel de individuele als de maatschappelijke en regionale. Dat er lopende teksten bestudeerd worden, impliceert nog iets anders. Een lopende tekst is meer dan een verzameling losse zinnen, en men heeft nog geen tekst beschreven als men de zinnen van die tekst beschreven heeft. De corpustaalkunde moet zich derhalve tot doel stellen niet alleen de structuur van de zinnen te beschrijven (zoals thans het geval is) maar ook de structuur van teksten. Wat de corpustaalkunde in haar doelstelling onderscheidt van de meeste andere vormen van taalkunde, is het feit dat zij tevens een hulpdiscipline wil zijn voor andere taalkundige subdisciplines en voor de toepassingen daarvan. Zij doet dit door het creëren van tekstbestanden die een uitvoerige morfologische en syntactische, en waar mogelijk, fonologische en semantische verrijking hebben ondergaan - door het aanmaken van databanken dus, die een grote variëteit aan gedetailleerde informatie bevatten. Binnen niet al te lange tijd zal dan ook voor de theoretisch georiënteerde taalkundige het gebruik van feitelijke taaldata even gemakkelijk zijn als het gebruik van introspectieve data; het enige dat daarvoor nodig is, is een corpus dat (tenminste) een volledige syntactische analyse heeft ondergaan en een p.c. met een harde schijf. Terzelfdertijd komen, met syntactisch verrijkte corpora, voor afzonderlijke talen numerieke gegevens beschikbaar omtrent het gebruik van constructies en zinspatronen, realisatie van grammaticale functies, enz. Dergelijke gegevens kunnen een belangrijke rol gaan spelen bij taalonderwijs op alle niveaus. Op dezelfde wijze kan numerieke informatie over taalvariëteiten niet alleen ons inzicht in taalvariëteit en teksttypologie vergroten, maar tevens benut worden in op ‘special purposes’ gericht taalonderwijs. | |||||||||||||||||||||||||
2. MethodologieWe hebben al gezegd dat de corpustaalkunde als zelfstandige taalkundige discipline gezien kan worden, omdat zij zich vooral in methodologisch opzicht onderscheidt van andere taalkundige disciplines. Twee zaken zijn bepalend voor de wijze waarop die tak van de taalkunde wordt bedreven: de gebruikte data en de instrumenten die nodig zijn om met die data om te gaan. We gaan op beide aspecten wat nader in. | |||||||||||||||||||||||||
[pagina 9]
| |||||||||||||||||||||||||
2.1 DataOm maar meteen een mogelijk misverstand uit de weg te ruimen: een corpustaalkundige is niet iemand die weigert andere data te gebruiken dan die welke zijn corpus hem verschaft. Nog minder waar is het dat hij zijn corpus zou gebruiken om daaruit een grammatica van de corpustaal af te leiden. De veronderstelling dat dit zo zou zijn is wellicht geïnspireerd door uitspraken als die van Harris (hierboven aangehaald) en heeft wel geleid tot het verwijt dat corpustaalkundigen alleen de zinnen in een corpus beschrijven en niets daarbuiten. Als dat soms ooit de bedoeling van de corpustaalkunde is geweest, dan is dat thans zeker niet meer het geval. Hoe wordt een corpus dan wel gebruikt? We hebben al gezegd dat de corpustaalkunde vanuit zijn functie als hulpwetenschap, taaldatabanken wil vervaardigen. Een databank moet dan verstaan worden als een omvangrijk tekstbestand waaraan zo veel mogelijk taalkundige informatie is toegevoegd. Maar voor de corpustaalkundige zelf dient het corpus nog een ander, veel essentiëler doel. Voor hem is het corpus de toetssteen voor zijn hypothesen. Een gangbare werkprocedure binnen de corpustaalkunde is die waarbij de taalkundige eerst een formele grammatica schrijft van (een deel van) de corpustaal. Deze grammatica komt tot stand op basis van de intuïtieve kennis die hij heeft van die taal en van de structuurbeschrijvingen die in de literatuur voorhanden zijn. Meestal wordt deze eerste versie van de grammatica getest aan de hand van een set door de taalkundige gemaakte testzinnen, dan bijgesteld, vervolgens weer getest, enz. Wanneer de schrijver van de grammatica de overtuiging - of althans de illusie - heeft dat zijn grammatica redelijk betrouwbaar en volledig is, gaat hij hem vervolgens testen op de zinnen van een corpus, en dat kan nogal eens een onthutsende ervaring zijn. Iedere keer opnieuw blijkt weer dat het corpus een veel grotere variëteit aan constructies oplevert dan men in de literatuur kan vinden of zelf kan bedenken - een reden te meer om er naar te streven dat in de naaste toekomst iedere taalkundige toegang heeft tot een (verrijkt) corpus. Samenvattende: het corpus dient een dubbel doel. Enerzijds dient het, in verrijkte vorm, als taalkundige databank, anderzijds is het voor de corpustaalkundige het toetsingsinstrument voor zijn hypothesen omtrent de structuur van de corpustaal, die hij in een formele grammatica heeft vastgelegd. We hebben al enkele malen gezegd dat een corpus een verzameling is van lopende teksten. Wat we nog niet expliciet hebben gezegd, maar wat eigenlijk vanzelf spreekt, is dat die teksten machine-leesbaar moeten zijn; zonder de snelheid maar vooral de consistentie die het gebruik van een machine garandeert, zou het onmogelijk zijn om corpora van enige redelijke omvang te verwerken, op welk niveau van analyse dan ook. Met de eis van machine-leesbaarheid wordt een kostenfactor geïntroduceerd die de meeste andere vormen van taalkundig onderzoek niet kennen.Ga naar eind1 Een manier om deze te vermijden is natuurlijk corpora samen te stellen die bestaan uit teksten die al in machine-leesbare vorm voorhanden zijn. Het is echter duidelijk dat dit aanzienlijke beperkingen oplegt aan de samenstelling van een corpus. Dat is niet zo bezwaarlijk als men corpora vooral op lexicaal niveau wil onderzoeken. Dan is het namelijk zinnig om te streven naar corpora van een zo groot mogelijke omvang. Dit geschiedt bijvoorbeeld aan de Universiteit van Birmingham, waar men | |||||||||||||||||||||||||
[pagina 10]
| |||||||||||||||||||||||||
thans beschikt over corpora met een totale omvang van bijna 20 miljoen woorden (zie Renouf(1984) voor wat betreft een beschrijving van de opzet en samenstelling van zulke corpora). Deze corpora worden vooral gebruikt voor lexicografische doeleinden. Indien men echter corpora op meerdere niveaus wil onderzoeken - en derhalve ook aandacht moet besteden aan taalvariëteiten - dan is een uiterst zorgvuldige samenstelling van een corpus noodzakelijk. En aangezien de taalkunde op dit moment nog geen inzicht heeft in alle factoren die bepalend zijn voor het onderscheid tussen taalvariëteiten of teksttypen, dient men bij de selectie van teksten met een zeer groot aantal variabelen rekening te houden, die deels te maken hebben met de tekst zelf(ruwweg, de variabelen die het genre bepalen) als met de persoon die de tekst heeft geproduceerd (leeftijd, ethnische groep, sekse, geografische herkomst, e.d.). Het zal duidelijk zijn dat de selectie van teksten voor een corpus een moeilijke en tijdrovende taak is, vooral ook omdat het allerminst eenvoudig en soms onmogelijk is alle variabelen onder controle te houden. Voor een uitvoerige bespreking van de problematiek van het samenstellen van een corpus zij hier verwezen naar Oostdijk (1988a en 1988b). Over het algemeen is tot dusver bij het samenstellen van corpora getracht een soort ‘dwarsdoorsnede’ van de corpustaal tot stand te brengen door een zo groot mogelijk aantal genres en subgenres in het corpus op te nemen. Bij een gemiddelde corpusomvang van 1 miljoen woorden betekent dit echter dat het aantal woorden per tekst noodzakelijkerwijs vrij klein is (2.000 woorden in de Brown en LOB corpora). Dit moge de ‘dwarsdoorsnede’ van de corpustaal homogener maken, het betekent tevens dat onderzoek naar taalvariëteit en teksttypologie wordt bemoeilijkt door te kleine samples. Om een hechtere basis te geven aan kwantitatieve studies naar taalvariëteit is het daarom raadzaam om de geselecteerde samples aanzienlijk omvangrijker te maken. Dit impliceert dan wel dat men de gedachte dat het corpus representatief zou moeten zijn voor de hele taal, moet laten varen. Deze weg is onlangs in Nijmegen gevolgd bij de samenstelling van een corpus hedendaags Engels van 1,5 miljoen woorden. De samples in dit corpus hebben een lengte van 20.000 woorden. Nu de corpustaalkunde het stadium heeft bereikt waarin gedetailleerde lexicale, morfologische, syntactische en (in vooralsnog beperkte mate) semantische analyse mogelijk is, kan tevens een begin worden gemaakt met een grootschalige bestudering van taalvariëteit. Het gaat daarbij in de eerste plaats om de identificatie van verzamelingen van tekst-interne (taalkundige) kenmerken die tezamen een tekst-type bepalen en van tekst-externe kenmerken die bepalend zijn voor een genre; vervolgens dienen de relaties tussen tekst-interne en tekst-externe kenmerken gespecificeerd te worden. Hiertoe moet nog veel werk gedaan worden op taalstatistisch gebied, allereerst om de geëigende statistische instrumenten te ontwerpen. Een belangrijke stap naar dit doel is gezet door Biber en Finegan (1986) met hun Multi-Feature/Multi-Dimensional benadering van tekst-typologie. | |||||||||||||||||||||||||
2.2 InstrumentenZoals we hebben gezien, rekent de corpustaalkunde het tot haar taken taaldata- | |||||||||||||||||||||||||
[pagina 11]
| |||||||||||||||||||||||||
banken te produceren. Zulke databanken moeten zonder hindernis door iedere taalkundige gebruikt kunnen worden. Ze moeten gemakkelijk toegankelijk zijn, dat wil zeggen, ze mogen van de gebruiker geen kennis van de computer eisen en moeten hem desalniettemin de mogelijkheid bieden complexe en gedetailleerde vragen te stellen. Een dergelijke databank, die de syntactische boomstructuren van de zinnen uit een corpus kan bevatten, is onlangs in Nijmegen ontwikkeld en geïmplementeerd, en staat bekend onder de naam LDB (Linguistic Database).Ga naar eind2 Niet alleen de analyseresultaten echter, maar ook het analyseproces zelf moet inzichtelijk zijn voor andere taalkundigen. Dit betekent allereerst dat het startpunt van het analyseproces moet liggen bij een voor iedere taalkundige inzichtelijk formalisme waarin vastgelegd kan worden wat de eenheden van beschrijving zijn en de relaties tussen die eenheden kunnen worden gespecificeerd - een grammatica dus. Dat het een formele grammatica moet zijn spreekt vanzelf. Dat het geen computerprogramma mag zijn is eveneens een klare zaak. Een computerprogramma is immers een set instructies aan een machine, is notoir oninzichtelijk voor anderen dan de schrijver van het programma en kan alleen beoordeeld worden aan de hand van de resultaten die het levert. Bovendien kan niet van de taalkundige geëist worden dat hij bedreven is in het programmeren - hoe handig dat ook soms kan zijn. De grammatica die ten grondslag ligt aan het analyseproces moet kunnen worden veranderd en aangevuld, en ook de keuze van het grammaticaal formalisme moet kunnen worden gewijzigd. In een corpustaalkundige omgeving is het noodzakelijk dat er middelen voorhanden zijn waarmee de door taalkundige geschreven grammatica automatisch kan worden omgezet in een computerprogramma dat de feitelijke analyse verricht. Of, om het in jargon te zeggen: er moeten parser generatoren aanwezig zijn die formele grammatica's omzetten in parsers. Naast de grammatica moet de corpustaalkundige ook een computerlexicon ter beschikking staan dat aansluit op de door hem geschreven grammatica, met dien verstande dat de entries in het lexicon in ieder geval de informatie bevatten die door de terminalen van de grammatica wordt vereist. Aan de Universiteit van Amsterdam is onlangs een dergelijk computerlexicon tot stand gekomen, dat nagenoeg aansluit op de grammatica's die aan de Universiteit van Nijmegen zijn geschreven.Ga naar eind3 De keuze van het grammaticaal formalisme dat voor het analyseproces wordt gebruikt, dient, zoals gezegd, in principe vrij te zijn, maar wordt wel beperkt door de eis dat het automatisch omzetbaar moet zijn in een parser. Verder kan hierover nog worden opgemerkt dat het formalisme van context-vrije grammatica's weliswaar aan de laatste eis voldoet, maar om een andere, practische reden ongeschikt is. Een context-vrije grammatica is namelijk erg oneconomisch in het aantal regels dat zo'n grammatica moet bevatten. Het gevolg hiervan is dat dit type grammatica al gauw onhandelbaar groot wordt - niet alleen wordt de grammatica wanneer ingezet voor de analyse van een omvangrijk corpus, onoverzichtelijk voor de taalkundige, maar de omvang van de resulterende parser wordt ook onhanteerbaar voor de machine. Wanneer een grammatica, een corpus en een lexicon voor een gegeven taal voorhanden zijn, is daarmee voorzien in de hoofdingrediënten voor het analyseproces. Wat dan uiteraard nog nodig is, is een systeem dat de relatie tussen de ingrediënten regelt en hun interactie verzorgt. Idealiter zou het analyseproces | |||||||||||||||||||||||||
[pagina 12]
| |||||||||||||||||||||||||
met behulp van zo'n systeem autonoom moeten verlopen. In feite is het echter zo dat zich, vooral in het eerste stadium van de analyse van een corpus nog veel onvolkomenheden voordoen, zowel in de grammatica als in het lexicon. Bovendien zijn de mogelijkheden om semantische en pragmatische informatie te formaliseren nog dusdanig beperkt, dat voor sommige zinnen een onaanvaardbaar groot aantal ambiguë analyses wordt opgeleverd. Om fouten te kunnen herstellen, lacunes te vullen, en waar nodig aanvullende informatie op semantisch of pragmatisch vlak toe te voegen, is het nodig dat de taalkundige het analyseproces kan bewaken. Dat betekent dat hij op ieder moment inzicht moet hebben in de stand van het analyseproces en de mogelijkheid om in dat proces in te grijpen. Kortom, het analysesysteem moet een interactief systeem zijn, dat de taalkundige steeds in staat stelt te reageren op wat de machine hem voorschotelt. Samenvattend kunnen we zeggen dat in een corpustaalkundige omgeving de volgende elementen nodig zijn:
| |||||||||||||||||||||||||
3 Corpustaalkunde in NederlandDe corpustaalkunde heeft de laatste tien jaar in Nederland met name voor het Engels een hoge vlucht genomen. Men zou kunnen zeggen dat deze ontwikkeling in het verlengde ligt van de Nederlandse Anglistische traditie. Internationaal bekende en geroemde Anglisten als Poutsma en Kruisinga bouwden tijdens de eerste helft van deze eeuw met hun monumentale grammaticale bouwwerken een fundament van grote hoeveelheden door henzelf vergaard taalmateriaal. Hierbij moeten wij ons natuurlijk wel realizeren dat deze traditionele ‘corpora’ bestonden uit verzamelingen losse zinnen. Hoewel de meeste taalkundige energie ook nu nog wordt besteed aan modellen op zinsniveau, biedt de moderne corpustaalkunde in ieder geval een kader dat het mogelijk maakt de zinsgrenzen te overstijgen, omdat de nu gebruikte en in ontwikkeling zijnde computer-corpora bestaan uit aaneengesloten (stukken) tekst. | |||||||||||||||||||||||||
3.1 Het Computer Corpus Pilot ProjectZo ook het computer-corpus voortgekomen uit het eerste grootschalige project op het vlak van de Engelstalige corpustaalkunde in Nederland, het CCPP. Dit corpus is weliswaar niet erg groot (ongeveer 130.000 woorden), maar wel uniek, omdat het hier een corpus betreft dat volledig syntactisch geanalyseerd is. Voordat het zover was moest er nogal het een en ander gebeuren. Het CCPP ging tegen het eind van de zeventiger jaren van start als een interuniversitair | |||||||||||||||||||||||||
[pagina 13]
| |||||||||||||||||||||||||
project waarin alle vakgroepen Engels in den lande, op een na, participeerden. De interuniversitaire werkgroep die regelmatig bijeenkwam ontwikkelde eerst een gedetailleerd grammaticaal codeer-systeem op woordniveau, alsmede een analyse-model op grond waarvan zinnen tot op woordniveau in constituenten konden worden opgedeeld, waarbij Quirk et al. (1972) als globaal grammaticaal kader diende. Dit werd neergelegd in een handleiding waarmee vervolgens student-assistenten in de verschillende instituten aan het werk togen om de hen toegewezen stukken tekst zin voor zin en woord voor woord met de hand te voorzien van deze woordsoort- en constituentniveau-aanduidingen. Wat het laatste soort codering betreft: de student-assistenten moesten alleen een gelaagdheid van de zin aangeven; ze hoefden de constituenten dus niet te benoemen. De grondgedachte bij de gekozen benadering was dat op deze manier bij de codeerders slechts een beroep gedaan hoefde te worden op vrij elementaire linguïstische intuïties. In de praktijk bleek de gekozen benadering uiterst arbeidsintensief en bewerkelijk, terwijl bovendien ook veel fouten en inconsequenties optraden, waardoor voortdurend nieuwe rondes correcties en aanpassingen nodig waren. Ondanks of misschien wel dankzij de boven geschetste louterende ervaringen leverde het CCPP toch het beoogde resultaat op: een corpus waarin alle woorden waren voorzien van woordsoortcoderingen en waarin alle constituent-grenzen waren gemarkeerd. Op de aldus verrijkte zinnen werd vervolgens een formele, context-vrije grammatica losgelaten die de twee soorten informatie - uiteraard weer na de nodige bewerkingen en aanpassingen - automatisch omzette in een volledige syntactische analyse, waarbij de constituenten op alle niveaus voorzien werden van functie- en categorie-aanduidingen. Figuur 1 geeft een voorbeeld van een op deze manier volledig syntactisch geanalyseerde zin uit het CCPP-corpus.
Figuur 1. GRASPING THIS EARLY, MRS. WARREN HAS RISEN RAPIDLY IN HER PROFESSION.
Toch leverde deze exercitie in het handmatig coderen van teksten zeer waardevolle inzichten op, die hun uitwerking op de verdere ontwikkeling van de corpustaalkunde niet hebben gemist. Keulen (1986) gaat uitgebreid in op het ‘leerproces’ dat zich binnen het CCPP voltrok. Enerzijds toonden de CCPP-ervaringen aan hoe gevarieerd - en daardoor onbetrouwbaar - individuele lin- | |||||||||||||||||||||||||
[pagina 14]
| |||||||||||||||||||||||||
guïstische intuïties kunnen zijn, en hoe belangrijk het is te proberen ook het coderen op woordniveau zoveel mogelijk te automatiseren. Het ASCOT-project (waarover straks meer) werd specifiek opgezet om dit te concretiseren. Anderzijds leidden ze tot allerlei verfijningen in codering en analyse (Keulen geeft o.a. verscheidene soorten appositie en VP-coordinatie als voorbeelden) en tot een verdiept inzicht in geschikte formalismen voor automatische syntactische analyse. In het aan de Universiteit van Nijmegen opgezette TOSCA-project werd ernaar gestreefd dit verdiepte inzicht nader gestalte te geven. | |||||||||||||||||||||||||
3.2 Tools for Syntactic Corpus Analysis (TOSCA)Hoewel TOSCA van start ging vanuit een Anglistische setting, heeft het zich middels verschillende vervolgprojecten uitgebreid tot een veel breder kader dat het oorspronkelijke TOSCA-project verre overstijgt. Dit TOSCA-kader wordt gekenmerkt door een koppeling van context-vrije grammatica's op twee niveaus, waarbij elementen die op het tweede niveau worden geïntroduceerd fungeren als parameters (‘affixen’) bij regels op het eerste niveau. Het affix-niveau fungeert daarbij als een soort ‘feature-percolation’ mechanisme, waardoor bijvoorbeeld zaken als overeenstemming (agreement) in getal en persoon tussen onderwerp en persoonsvorm geregeld kunnen worden. Binnen de TOSCA-omgeving is gekozen voor het in de informatica ontwikkelde formalisme van de Extended Affix Grammatica (EAG). Dit heeft o.a. het voordeel dat automatische omzetting door een ‘parser generator’ kan plaatsvinden. Bovendien is het formalisme als zodanig taal-onafhankelijk. Zo zijn naast een vrijwel volledige EAG voor het hedendaags Engels EAG's in ontwikkeling voor het hedendaags Spaans en het hedendaags Arabisch. Voor een gedetailleerder uiteenzetting over het gebruik van een EAG voor taalkundige toepassingen zie Oostdijk (1984). Wij volstaan hier met een voorbeeld ontleend aan Aarts en van den Heuvel (1985): een grammatica-fragment dat aangeeft hoe subject-verb concord in het Engels in een EAG kan worden beregeld: SENTENCE: De regels zijn vergelijkbaar met herschrijfregels, waarbij de dubbele punt (in regels op het eerste niveau en de dubbele dubbele punt in regels op het tweede niveau) het bij linguïsten gebruikelijke pijltje vervangt. De komma fungeert als concatenatie-symbool, de punt-komma betekent ‘of’ (d.w.z. hij scheidt alternatieven), en de punt is een verplicht symbool om het einde van een regel aan te geven. Eindsymbolen staan tussen dubbele aanhalingstekens. In de bovenstaande voorbeeldgrammatica stipuleren de affixen ‘number’ en ‘person’ gehecht aan NP en VP dat het getal en de persoon van beide constituenten gelijk moeten zijn, d.w.z. daar waar de NP een bepaalde invulling van getal en persoon krijgt (bijv. ‘SING’ en ‘1ST’ indien de NP gerealiseerd wordt door | |||||||||||||||||||||||||
[pagina 15]
| |||||||||||||||||||||||||
het persoonlijk voornaamwoord ‘ik’) wordt een zelfde invulling van de affixen verondersteld bij de VP. De ontwikkeling van de grammatica's in de TOSCA-omgeving verloopt modulair en stapsgewijs, middels deelgrammatica's voor de verschillende soorten constituenten die, na herhaalde toetsing en aanpassing per module, in elkaar geschoven worden. Juist in dit voortdurende proces van ontwikkeling en aanpassing komt het unieke van de corpustaalkunde tot uiting: het ‘testbed’ (‘proefbank’) karakter zoals het genoemd is. Een belangrijk hulpmiddel bij deze procesgang vormt de ‘Linguist's Workbench’. | |||||||||||||||||||||||||
3.3 The Linguist's WorkbenchDe Workbench vormt als het ware een schakelpaneel tussen parsers, corpusteksten, lexicon(s) en andere gegevensbestanden. De linguist die het schakelpaneel bedient kan naar believen in- en output van en naar de verschillende componenten regelen en variëren, ze op elkaar betrekken, editen, enz., en hij kan daarbij tevens de mate bepalen waarin een en ander automatisch danwel via eigen inbreng (interactief) plaatsvindt. Zo kan hij b.v. een parser zin voor zin laten werken op een corpustekst naar keuze en de analyseresultaten eveneens zin voor zin op het scherm inspecteren. Of hij kan ervoor kiezen alleen de niet-geslaagde analyses op zijn scherm voorgeschoteld te krijgen (of opgeslagen in een apart bestand voor inspectie achteraf), of alleen die gevallen waarin een zin meer dan een analyse heeft. Hij kan een bestaand lexicon bij het proces betrekken, danwel een nieuw lexicon gaandeweg automatisch of interactief (laten) opbouwen enz., enz. Figuur 2 geeft een schematisch overzicht van de opzet van de Workbench. Een nog niet genoemde, maar uiterst belangrijke component in het geheel is het logboek. Van elke sessie met de Workbench wordt een logboekbestand opgebouwd waarin de resultaten worden bijgehouden. Dit maakt het mogelijk de resultaten van zo'n sessie achteraf nog eens rustig te bekijken, hetgeen dan weer bijvoorbeeld aanleiding kan geven tot veranderingen in de grammatica. Kortom, de Workbench is opgezet als echte ‘werkbank’ voor corpustaalkundigen die hiermee het toetsings- en aanpassings-proces kunnen registreren en optimalizeren. De Linguistische DataBase (LDB), eveneens voortgekomen uit de TOSCA-omgeving, is niet zozeer opgezet ten behoeve van corpustaalkundig ontwikkelingswerk, maar meer als een hulpmiddel om de resultaten van corpustaalkundig onderzoek optimaal toegankelijk te maken voor de linguïstische gemeenschap in het algemeen. | |||||||||||||||||||||||||
3.4 The Linguistic DataBase (LDB)De LDB is een zgn. ‘shell’-systeem, een overkoepelend programma bestaande uit een opslag-component voor geanalyseerd corpusmateriaal en een exploratie-component die de gebruiker in staat stelt het geanalyseerde materiaal gericht te doorzoeken en te ordenen. Het systeem als zodanig is taal-onafhankelijk. In feite is de enige eis (geen geringe overigens) die de opslag-component aan het materiaal stelt dat het bestaat uit welgevormde boomstructuren - welgevormd in die zin dat de vertakkingen en daarmee de | |||||||||||||||||||||||||
[pagina 16]
| |||||||||||||||||||||||||
Figuur 2.
dominantie-relaties op elk niveau eenduidig zijn. Figuur 3 geeft als voorbeeld een boom uit het geanalyseerde Nijmegen Corpus zoals die door de exploratiecomponent op het scherm getoverd kan worden: Per constituent-knoop is er ruimte voor drie soorten informatie, terwijl de woorden (en eventueel ook leestekens), al dan niet voorzien van woordsoortaanduidingen, de ‘blaadjes’ van de boom (kunnen) vormen. De feitelijke invulling op elk niveau is dus afhankelijk van het aanwezige taalmateriaal en het analysesysteem waarvoor gekozen is. Zo benutten de grammatica's die binnen de TOSCA-omgeving ontwikkeld worden de drie formatieposities voor de aanduiding van functies (‘FUN’), categorieën (‘CAT’), en (feature) affixen (‘AFF’), terwijl het CCPP-systeem volstond met de eerste twee, zoals we zien als we in Figuur 4 ‘inzoomen’ op een deel van de boom uit Figuur 3, waarbij elke constituent nu voorzien is van een functie categorie paar. De twee manieren om een boom te inspecteren zijn standaardvoorzieningen in het exploratie-schema, evenals een aantal commando's om snel en gericht door de boom te ‘navigeren’. Het (menu-gestuurde) exploratie-systeem kan echter nog veel meer. De gebruiker kan elk verschijnsel dat hem interesseert nader onderzoeken door zelf (deel)structuren op te bouwen en die door het systeem te laten vergelijken met | |||||||||||||||||||||||||
[pagina 17]
| |||||||||||||||||||||||||
Figuur 3. ON THE FAR SIDE OF THE LITTLE SQUARE THERE WAS A WALL WITH A PIERCED
Figuur 4. ON THE FAR SIDE OF THE LITTLE SQUARE THERE WAS A WALL WITH A PIERCED
| |||||||||||||||||||||||||
[pagina 18]
| |||||||||||||||||||||||||
de in het corpus aanwezige structuren. Figuur 5 geeft een voorbeeld van een dergelijk zogeheten ‘exploratieschema’:
Figuur 5.
Dit schema zoekt naar finiete zinnen (‘SF’) die als directe constituent een indirect en een direct object (resp. ‘OI’ en ‘OD’) bevatten in willekeurige volgorde (‘ANYORDER’). De ‘Tree intro’ creëert een tellertje dat de stand van het zoekproces aangeeft door het volgnummer van de in behandeling zijnde zin (‘CTN’ = ‘current tree number’) op het scherm te projecteren, terwijl het ‘Match effect’ ‘USER’ ervoor zorgt dat het zoekproces wordt onderbroken telkens wanneer een zin gevonden wordt die aan het opgegeven patroon voldoet. De gebruiker heeft dan bijvoorbeeld de gelegenheid om de zin te inspecteren en vervolgens het zoeken te hervatten of helemaal stop te zetten, enz. Een zeer nuttige mogelijkheid is ook de gevonden zinnen (automatisch of na inspectie) in een apart deelcorpus op te slaan dat dan later op dezelfde manier weer kan worden onderzocht op nog weer specifiekere verschijnselen. Zo kan men bijvoorbeeld eerst via het patroon van Fig. 5 een deelcorpus afsplitsen van zinnen met twee objecten en dan in een volgende ronde kijken naar de gebezigde werkwoorden, de lengte van de object-constituenten, het voorkomen van voornaamwoorden als indirect object, enz. De LDB biedt een scala van mogelijkheden om allerlei gegevens in lijsten of tabellen op te slaan, tellingen te verrichten, enz. Het zou echter te ver voeren deze mogelijkheden hier in detail te bespreken. Voor nadere gegevens verwijzen wij naar van Halteren en van den Heuvel (1988). | |||||||||||||||||||||||||
3.5 Automatic Scanning System for Corpus Oriented Tasks (ASCOT)Zoals boven aangegeven (par. 3.1) werd het ASCOT-project, op grond van de nogal frustrerende ervaringen met handmatig coderen in het CCPP, opgezet om | |||||||||||||||||||||||||
[pagina 19]
| |||||||||||||||||||||||||
te komen tot een zoveel mogelijk geautomatiseerde grammaticale codering van Engelstalige teksten op woordniveau. Basismateriaal hiervoor vormde de computertape van de Longman Dictionary of Contemporary English (LDOCE). De grammaticale gegevens in LDOCE beperken zich niet alleen tot woordsoortaanduidingen maar omvatten ook zaken als werkwoord-patronen (ongeveer overeenkomend met subcategorisatie-aanduidingen), onderverdeling van nomina in telbaar, niet telbaar, collectief, enz., gebruiksmogelijkheden (attributief en/of predicatief) van adjectiva, etc. Alle voor syntactische analyse van belang geachte gegevens werden in het ASCOT-project uit de LDOCE-tape geëxtraheerd en optimaal gestructureerd ondergebracht in de zgn. ‘first ASCOT intermediary file’. Daarbij werden ook alle in LDOCE verkort aangegeven afleidingen (bijv. -derer onder philander, -diness onder tidy, enz.) automatisch omgezet in hun volledige vormen (philanderer en tidiness in de genoemde gevallen) en voorzien van de bijbehorende grammaticale informatie. Aan de hand van een gedetailleerde analyse van het LDOCE codeer-systeem (vgl. Akkerman et al., 1988) werden de gegevens in deze file op consistentie onderzocht en waar nodig gecorrigeerd, aangepast of uitgebreid. Zo werd o.a. een uitgebreide codering ter vervanging van de nogal mager uitgevallen LDOCE-notatie voor bijvoeglijke en zelfstandige naamwoorden aangebracht. Dit resulteerde in de zgn. ‘second ASCOT intermediary file’, welke de basis vormde voor het uiteindelijke ASCOT-lexicon, ‘Aslex’. Aslex is opgeslagen in de vorm van een zogeheten ‘L-tree’ (Skolnik, 1980), een bestandstructuur die zeer snelle toegangstijden mogelijk maakt. Om de bruikbaarheid van het systeem te vergroten is ASCOT voorts uitgerust met een morfologische component, ‘Reroute’, die flexie-vormen alsmede enkelvoudige afleidingen relateert aan de in Aslex opgenomen stamvormen. Het geheel wordt gecompleteerd met een (optionele) ‘multi-word’ component die woorden welke samen een (veelal idiomatische) combinatie vormen, herkent en van de specifiek voor die combinatie geldende grammaticale informatie voorziet. Figuur 6 laat zien hoe de zin ‘His old man looked after our babies yesterday.’ door het ASCOT-systeem (inclusief de multi-word optie) wordt gecodeerd: De via een liggend streepje (‘underscore’) met het woord verbonden eerste code geeft de woordsoort aan (P = pronoun, D = determiner, A = adjective, enz.) Als een woord meer dan een woordsoort kan zijn worden alternatieven onder elkaar geplaatst. Zo kan man zowel noun (N), verb (V) als interjection (I) zijn. Na de woordsoort en een spatie volgen, tussen asterisken, de verdere grammaticale gegevens (voorzover van toepassing). De asterisken fungeren als scheiders, inclusief begin- en eind-aanduiding, voor de verschillende informatieposities, waarbij de betekenis van de gebezigde symbolen per woordsoort en per positie gedefinieerd is. Neem bijvoorbeeld de codering van his als ‘pronoun’ (P): hier betekent het dollarteken ‘$’ in de eerste positie ‘possessive’, de ‘3’ in de tweede positie ‘third person’, en de ‘S’ in de vierde positie ‘singular’. Bij de ‘determiner’ codering (D) van his betekent het dollarteken in de eerste positie wederom ‘possessive’, de ‘C’ in de tweede positie geeft aan dat his als ‘central determiner’ fungeert en ‘C,U’ in de derde positie | |||||||||||||||||||||||||
[pagina 20]
| |||||||||||||||||||||||||
Figuur 6.
betekent dat het woord zowel met telbare (C) als met niet-telbare (U) hoofdwoorden kan worden gebruikt (de komma scheidt alternatieven binnen infoposities). De codering laat verder zien dat er mogelijk sprake is van twee ‘multi-words’ in dit zinnetje, ieder met hun eigen combinaties van codes, nl. old man en looked after. Merk op dat de samenstellende delen toch ook apart hun eigen coderingen krijgen. Voor details over ASCOT en het daarin gehanteerde codeersysteem zie Akkerman, Voogt-van Zutphen & Meijs (1988). Het ASCOT-systeem is nadrukkelijk opgezet als een context-vrij codeersysteem (met multi-word optie als kleine maar naar verwachting nuttige context-gevoelige concessie): zonder dat naar de directe zinsomgeving wordt gekeken, projecteert het systeem de in Aslex gevonden, c.q. de door de gebruikers opgevraagde, gegevens op de afzonderlijk woorden. | |||||||||||||||||||||||||
3.6 Half Automatische Tekst Analyse (HATA)Ook het aan de Katholieke Universiteit Brabant ontwikkelde HATA-systeem richt zich op de grammaticale codering van woorden in teksten - Nederlandstalige teksten ditmaal. Het compacte codeersysteem is ontleend aan dat van het zogenaamde ‘Eindhoven Corpus’ (Uit den Bogaart, 1975). Anders dan het ASCOT-systeem, beoogt HATA niet alleen een context-vrije woordsoorttoekenning maar ook zo veel mogelijk context-gevoelige disambiguering. Er wordt uitgegaan van een beperkt lexicon bestaande uit basisvormen, gekoppeld aan een uitgebreide morfologische component die derivaties en flexievormen kan ontleden en van de juiste woordsoortinformatie kan voorzien. Op de voorlopige (veelal meervoudige) woordsoorttoekenning volgt een disambigueerfase, waarbij getracht wordt meervoudige coderingen zoveel mo- | |||||||||||||||||||||||||
[pagina 21]
| |||||||||||||||||||||||||
gelijk tot enkelvoudige terug te brengen. De hiervoor gekozen benadering, die sterk geënt is op die welke aan de Universiteit van Lancaster werd ontwikkeld in het kader van het LOB-project (vgl. Marshall, 1982), is in essentie probabilistisch van aard en maakt gebruik van zogenaamde ‘context-frame rules’. Context-frame regels doen uitspraken over de waarschijnlijkheid van de opeenvolging van een aantal (meestal twee) woordsoortcodes. Deze waarschijnlijkheidsuitspraken zijn op hun beurt weer ontleend aan het voorkomen van de betrokken sequenties in een omvangrijk corpus (voor het HATA-project is dat wederom het Eindhoven Corpus). | |||||||||||||||||||||||||
3.7 Zoekprogramma'sHet boven als ‘exploratie-systeem’ omschreven LDB-pakket zou men ook kunnen beschouwen als een geavanceerd zoekprogramma, waarmee corpora gericht op allerlei veschijnselen kunnen worden doorzocht. Zoals daar al aangegeven richt de LDB zich echter speciaal op corpora die volledig syntactisch geanalyseerd zijn. Dergelijk volledig geanalyseerd corpusmateriaal is op dit moment echter nog maar in zeer beperkte mate voorhanden. Bij de meeste grote computercorpora (LOB, Brown, Eindhoven Corpus), beperkt de verrijking zich, zoals al vermeld, tot toegevoegde codering op woordniveau. Voor het doorzoeken van dergelijke corpora kan worden volstaan met een minder gecompliceerd zoekprogramma. In feite kan men daarvoor met standaard-programmatuur zoals Sort/Merge of de Unix-faciliteiten al een heel eind komen. Met een programma als ‘WordCruncher’ (Ontwikkeld door de producenten van het veelgebruikte tekstverwerkingsprogramma ‘Wordperfect’) kan men daarnaast ook gemakkelijk indexen, concordanties opbouwen etc. Een speciaal op gecodeerde corpora toegesneden zoeksysteem is het door van der Steen aan de Universiteit van Amsterdam ontwikkelde programma ‘Query’. Om voor Query geschikt te zijn moet een corpus eerst worden omgezet naar een speciale hierarchische structuur in de vorm van een zogeheten ‘TAALOK-file’. Daarna kan de gebruiker het corpus m.b.v. het QUERY-formalisme, dat in essentie gebaseerd is op effectieve patroon-herkenning in combinatie met een aantal logische operatoren, snel en systematisch op allerlei lexicale en grammaticale verschijnselen doorzoeken. Twee voorbeelden: de Query-formule TO * R * [£VB, £BE, £HV, £DO]levert in een paar minuten een lijst op van alle zinnen in het Brown-corpus met een zogenaamde ‘split-infinitive’ waarbij to en het werkwoord door een bijwoord worden gescheiden. (‘to easily determine’, ‘to accurately portray’, etc.). De formule [ING£] JJproduceert een overzicht van alle woorden uitgaand op -ing met de code JJ (adjectief), etc. De afdeling Alfa-Informatica in Amsterdam beschikt thans over TAALOK-versies van het Brown, LOB, en London-Lund Corpus, een Latijns corpus en het Eindhoven Corpus. Voor nadere bijzonderheden zie Meijs (1982) en van der Steen (1982). | |||||||||||||||||||||||||
[pagina 22]
| |||||||||||||||||||||||||
3.8 Tot besluitIn ons overzicht van de corpustaalkunde in Nederland hebben we ons voornamelijk beperkt tot projecten en programmatuur die naar ons gevoel wezenlijk hebben bijgedragen tot de ontwikkeling van een verfijnder instrumentarium voor verrijking, exploratie en exploitatie van computer-corpora. Tot besluit noemen wij kort een paar voorbeelden van het toenemend gebruik dat in een aantal onderzoeks- en toepassingsverbanden van corpusgegevens wordt gemaakt. Een voor de hand liggend gebruik van corpusgegevens ligt op het vlak van de lexicografie. Een recent voorbeeld van een woordenboek dat vrijwel geheel op basis van corpus-gegevens tot stand is gekomen is het Engelse Collins/Cobuild woordenboek. Het grootste Nederlandstalige corpus is dat van het INL in Leiden, dat het basismateriaal voor het woordenboek van de Nederlandse taal moest leveren, en waarbij gestreefd wordt naar een omvang van uiteindelijk 100 miljoen woorden. Ook Celex maakt voor het Nederlands gebruik van dit materiaal. Op het ogenblik is ruim een kwart daarvan verwerkt. Een hulpmiddel bij de opbouw van dit corpus - en in feite onmisbaar bij een project van deze omvang - is een ‘optical scanner’, een apparaat dat gedrukte teksten voor de computer ‘leesbaar’ kan maken, d.w.z. omzetten in het voor computers voor tekstopslag gebruikelijke formaat (ASCII, tekstverwerker). Aan de Fryske Akademie wordt gewerkt aan de opbouw van een corpus dat materiaal moet leveren voor een Fries woordenboek. Ook op het gebied van de filologie en de historische taalkunde neemt het gebruik van computercorpora in Nederland toe. We noemen het corpus van Hettitische teksten ontleend aan kleitabletten, opgebouwd o.l.v. Ph.H.J. Houwink ten Cate, van ‘Schweizer Minnesaenger’ en andere middeleeuwse Duitse teksten opgebouwd o.l.v. A.H. Touber, en voor het Oud-Frans het corpus fabliaux opgebouwd door H.J. van den Boogaard, en het corpus van 3300 originele oorkonden uit de 13e eeuw opgebouwd door A. Dees en P.Th. van Reenen. Het gaat hierbij steeds om corpora die op verschillende manieren zijn verrijkt (met woordsoort aanduidingen, alternanties, commentaren, etc.). Als een heel specifieke toepassing noemen wij tenslotte nog het gebruik dat binnen het bij BSO in ontwikkeling zijnde DLT vertaalsysteem van corpusgegevens wordt gemaakt. Het gaat daarbij om teksten in het Esperanto (dat in de DLT benadering als tussentaal fungeert) die gebruikt worden als basismateriaal voor de zogenaamde ‘knowledge-bank’. Deze kennisbank speelt in het DLT-systeem een cruciale rol in het disambigueringsproces. Als in een ter vertaling aangeboden tekst ambiguë woorden voorkomen worden de Esperanto-equivalenten van de verschillende betekenissen razendsnel met elkaar vergeleken aan de hand van collocatie-paren ontleend aan het corpusmateriaal, met als uitkomst een indicatie t.a.v. welke betekenis in de gegeven context de meest waarschijnlijke moet worden geacht. | |||||||||||||||||||||||||
[pagina 23]
| |||||||||||||||||||||||||
Bibliografie
|
|