Forum der Letteren. Jaargang 1995
(1995)– [tijdschrift] Forum der Letteren– Auteursrechtelijk beschermd
[pagina 47]
| ||||||||||||||||||||||
Nationale tekstcorpora in internationaal perspectief
| ||||||||||||||||||||||
1. Belang van tekstcorporaVakgebieden waarin vanouds gebruik gemaakt wordt van tekstcorpora als onderzoeksinstrument, zijn de corpuslinguïstiek en de lexicografie. Onder een tekstcorpus verstaan we een collectie van tekstgedeelten of -nu meer gebruikelijkeen collectie van complete teksten die is aangelegd volgens weloverwogen selectiecriteria. Vroege voorbeelden van woordenboeken waarin de beschrijving van de taalgegevens is gebaseerd op een groot corpus van citaten, zijn het Woordenboek der Nederlandsche Taal WNT, de Oxford English Dictionary OED en het Deutsches Wörterbuch. Recente op corpora gebaseerde woordenboeken zijn Collins Cobuild English Language Dictionary (1987) en Longman Language Activator (1993). Deze woordenboeken zijn tot stand gekomen op basis van electronische tekstcorpora, corpora die in de computer zijn opgeslagen en met behulp van programmatuur raadpleegbaar zijn (Sinclair 1987; Summers 1993). Voor veel Europese talen bestaan er grote electronische tekstcorpora die primair voor lexicografische doeleinden zijn aangelegd (Zampolli & Cappelli 1983). Daartoe behoort ook het Nederlandse tekstcorpus dat bekend staat als de ‘Taalbank’ van het Instituut voor Nederlandse Lexicologie INL in Leiden. Van de bekende electronische tekstcorpora die primair voor linguïstisch onderzoek zijn bedoeld, noemen we hier het nederlandstalige Eindhoven Corpus (Uit den Boogaart 1975) en het engelstalige TOSCA corpus (De Haan 1991). De mogelijkheden om een electronisch tekstcorpus te raadplegen zijn sterk toegenomen door de vooruitgang in de computertechnologie. Toepassing van de computer voor lexicografisch, lexicologisch, dialectologisch, historisch, stilistisch, syntactisch en semantisch onderzoek, zoals reeds voorzien in het begin van de zeventiger jaren (Zampolli 1973), is nu op veel grotere schaal mogelijk. Maar het haalbaarheidsaspect of de wetenschappelijke uitdaging om een computer in staat te stellen linguïstische analyses uit te voeren, is niet de verklaring voor het feit dat er in de afgelopen jaren een veel bredere interesse in electronische tekstcorpora gekomen is. Tekstcorpora, met name grote electronische tekstcorpora | ||||||||||||||||||||||
[pagina 48]
| ||||||||||||||||||||||
(20-200 miljoen woorden) bestaande uit volledige teksten, worden beschouwd als bronnen voor kennis over taal en taalgebruik waarvan we onvoldoende weet hebben, die niet adequaat verantwoord is in woordenboeken en grammatica's. Dit gebrek aan kennis werd onder meer duidelijk bij de ontwikkeling van ‘natuurlijke-taal-verwerkende systemen’, computersystemen die tot op zekere hoogte in staat zijn met de menselijke taal om te gaan, die te ‘begrijpen’ en te ‘produceren’. Veel van die systemen bevatten, naast een lexiconcomponent, ook een stelsel van taalkundige regels. Toen de grenzen van op regels gebaseerde systemen in zicht kwamen, werden tekstcorpora gezien als een middel om ontbrekende kennis over taal te detecteren, alsmede om een beter inzicht te verkrijgen in de frequentie en statistische relevantie van talige verschijnselen in het taalgebruik (Church & Liberman 1991; Armstrong-Warwick 1993). Van electronische tekstcorpora wordt nu ook gebruik gemaakt voor doeleinden in de taal- en spraaktechnologie, de informatietechnologie en bij de ontwikkeling van programmatuur. De kennis die met behulp van empirische en statistische methoden onttrokken wordt aan corpora van geschreven en gesproken taal, wordt gebruikt ter verbetering van systemen voor automatisch vertalen, automatische spraaksynthese en spraakherkenning, mens-machine-communicatie (dialoogsystemen), optische lezers, spellingcorrectors, systemen voor het selectief vinden van documenten uit een grote database van documenten etc. (cf. Church & Liberman 1991). Met deze toepassingen zijn grote maatschappelijke en economische belangen gediend. Tegen deze achtergrond moet de interesse van de Europese Commisie worden gezien in een netwerk van electronische tekstcorpora van de verschillende talen in Europa. | ||||||||||||||||||||||
2. Naar een Europese infrastruktuur voor taaltechnologieEuropa wordt gekenmerkt door een grote verscheidenheid aan talen binnen een geografisch betrekkelijk klein gebied. In de opvatting van de Europese Commissie zou iedere Europese burger in zijn eigen taal moeten kunnen communiceren met personen uit andere lidstaten van de Europese Gemeenschap en met natuurlijke-taal-verwerkende informatiesystemen (cf. Danzin 1992; Language and technology 1992). In het streven hiernaar wordt een ondersteunende rol gezien voor de taalen spraaktechnologie, de terminologie en allerlei soorten van linguïstische bronnen (electronische woordenboeken, corpora, lexicale databanken, termenbanken). Ter voorbereiding van een Europese infrastruktuur voor taaltechnologie, is subsidie verleend aan projecten die betrekking hebben op de ontwikkeling van een netwerk van multifunctionele electronische tekstcorpora van de Europese talen en op een efficiënte ontsluiting daarvan. De functie van een Europees netwerk van tekstcorpora moet zijn dat diverse gebruikersgroepen (wetenschappelijke, maar ook commerciële) gebruik kunnen maken van corpusgegevens voor de verschillende Europese talen. Dit heeft implicaties voor de inhoudelijke samenstelling van de corpora, de verrijking van die corpora met taalkundige informatie en de ontsluiting van informatie uit die corpora: aan welke eisen moet worden voldaan om faciliteiten te kunnen bieden aan een breed scala | ||||||||||||||||||||||
[pagina 49]
| ||||||||||||||||||||||
van gebruikersgroepen. Voor de onderlinge vergelijkbaarheid van taalkundige gegevens voor de verschillende Europese talen en voor de fysieke uitwisseling van gegevens is het tevens van belang dat een zo hoog mogelijke graad van harmonisatie en standaardisatie bereikt wordt. In het project Network of European Reference Corpora NERC (1991-1993) zijn haalbaarheidsaspecten van zo'n corporanetwerk verkend door een zestal Europese instituten met relatief ruime ervaring op het gebied van de ontwikkeling en exploitatie van grote electronische tekstcorpora vanuit lexicografisch perspectief. Het Nederlandse taalgebied werd vertegenwoordigd door het Instituut voor Nederlandse Lexicologie. Kernvragen waren wie de huidige en toekomstige gebruikers van een Europees netwerk van tekstcorpora zijn, welke behoeften die gebruikers hebben en welke vormgeving van zo'n netwerk haalbaar is in het licht van de huidige stand van zaken. Het uitgangspunt was om, gegeven de gebruikersprofielen, minimale randvoorwaarden te formuleren voor een zo theorie-neutraal mogelijke basisvoorziening, waarop verschillende academische en commerciële gebruikersgroepen een beroep zouden kunnen doen voor verdere ontwikkeling ten behoeve van hun onderzoek of van specifieke applicaties. De kernvragen hadden betrekking op vele facetten van corpusontwikkeling en -exploitatie: de inhoudelijke samenstelling van de tekstcorpora, praktische en juridische aspecten van de verwerving van tekstmateriaal, de keuze en wijze van representatie in het bestand van tekstuele kenmerken, de keuze van annotatieschema's voor de verschillende linguïstische niveau's en de representatie daarvan, de programmatuur om de tekstcorpora te verrijken met die linguïstische informatie, de programmatuur om informatie uit de tekstcorpora te extraheren en allerlei meer technische aspecten van opslag en toegankelijkheid van de gegevens. Bij het bepalen van de haalbaarheid van de te maken keuzes werd aansluiting gezocht bij andere Europese en mondiale ontwikkelingen en werd rekening gehouden met de stand van zaken voor de verschillende Europese talen. Voor de resultaten van het NERC-project zij verwezen naar het eindrapport (NERC-1 1994). Hier wordt nader ingegaan op een van de effecten van deze politieke beslissingen: de ontwikkeling van de van oorsprong lexicografische corpora tot multifunctionele corpora. Vervolgens wordt de verdere ontwikkeling van de INL Taalbank in dit licht gesteld. | ||||||||||||||||||||||
3. Nationale corpora in Europees perspectiefDe samenstelling van een corpus wordt in principe bepaald door het doel waarvoor het wordt gebruikt. Lexicografen hebben veelal behoefte aan een weloverwogen, divers samengesteld en goed geproportioneerd corpus dat een min of meer getrouwe, ‘representatieve’ afspiegeling is van de te beschrijven taal in haar gevarieerdheid. De ontwikkelaars van op taalkundige regels gebaseerde natuurlijke-taal-verwerkende systemen maken gebruik van corpora die juist een heel beperkt inhoudsdomein bestrijken. Geïnteresseerden in statistische gegevens over taal hebben meer baat bij ‘zeer veel (van hetzelfde)’, waarbij impliciet tevens als voorwaarde geldt ‘vrij verkrijgbaar en bruikbaar’ (Church & Liberman 1991). | ||||||||||||||||||||||
[pagina 50]
| ||||||||||||||||||||||
De laatste opvatting lijkt op grond van computationeel taalkundig onderzoek te worden genuanceerd tot ‘zeer veel van zo veel mogelijk taalvarianten’ (Biber 1993), een combinatie van kwantiteit en diversiteit. Gebruikersbehoeften kunnen zeer uiteenlopen. Bij het streven naar een corporanetwerk van Europese talen dat als basisvoorziening moet kunnen fungeren voor zo verschillende gebruikersgroepen, doet zich onder meer de vraag voor aan welke minimale randvoorwaarden de samenstelling van die corpora moet voldoen. Welke typen van teksten moeten de corpora bevatten en in welke onderlinge hiërarchische relaties en kwantitatieve verhoudingen. De haalbaarheid van het antwoord op die vraag hangt samen met praktische overwegingen als: welke electronische corpora zijn voorhanden, welk tekstmateriaal is tegen welke prijs verkrijgbaar en in hoeverre wordt het gebruik van dat materiaal beperkt door juridische factoren. Om hierin meer inzicht te krijgen voor de verschillende taalgebieden is in het kader van het NERC-project onderzoek gedaan naar de gebruikerswensen (Liebert 1992; Endres & Wagner 1992; Rettig 1992), naar de criteria voor de samenstelling van bestaande en toekomstige corpora (Kruyt 1992a) en naar aspecten betreffende de beschikbaarheid van tekstmateriaal dat in corpora kan worden opgenomen (Kruyt 1992b). De resultaten van dit onderzoek hebben geleid tot de voorlopige conclusies dat er een divers gebruikerspubliek is voor een corporanetwerk, dat een corpus bestaande uit volledige teksten (in plaats van samples) die gezamenlijk een zeer groot aantal inhoudsdomeinen bestrijken, het meest geschikt lijkt als basisvoorziening voor verschillende gebruikersgroepen en dat het een haalbare optie is bestaande grote corpora, die veelal voor lexicografische doeleinden zijn geconstrueerd, in die richting uit te bouwen. Met het oog op multilinguale toepassingen houdt dit in, dat voor de verschillende talen een groot (ca. 60 miljoen woorden), open en steeds geactualiseerd kerncorpus volgens dezelfde criteria en standaarden wordt samengesteld. In NERC-1 (1994) is een aanzet gegeven tot de specificatie van de inhoud. Naast een geschreven-taalcomponent (ca. 49 miljoen woorden), worden een getranscribeerde gesproken-taalcomponent (ca. 1 miljoen woorden) en een multilinguale component van parallelle teksten (10 miljoen) voorzien. ‘Onderwerp’ is het selectiecriterium voor de te onderscheiden teksttypen; de teksten zullen worden ontleend aan verschillende publikatiemedia (geschreven taal) resp. communicatievormen (gesproken taal). In het momenteel lopende PAROLE-project wordt dit nader uitgewerkt, op basis van de resultaten van verschillende Europese projecten. Naast het kerncorpus, dat met name vanuit multilinguaal perspectief wordt beoogd, wordt ander tekstmateriaal, waaronder grote domeinspecifieke tekstenverzamelingen, van belang geacht voor monolinguaal onderzoek. De gedachte is, dat een zeer grote, zeer gevarieerde en actueel gehouden tekstenverzameling, bestaande uit een kerncorpus en ander tekstmateriaal, een basis vormt voor de selectie van subcorpora voor bepaald onderzoek of specifieke toepassingen. Van wezenlijk belang voor een multifunctioneel gebruik van de Europese tekstenverzamelingen (kerncorpus en ander tekstmateriaal) is classificatie van de teksten volgens parameters die het de gebruikers mogelijk maken dàt subcorpus te definiëren en uit de grote hoeveelheden tekstmateriaal te selecteren dat voor een | ||||||||||||||||||||||
[pagina 51]
| ||||||||||||||||||||||
bepaald onderzoek of voor een bepaalde toepassing gewenst is. ‘Genre/onderwerp’ is het criterium voor (sub)corpussamenstelling dat het meest is toegepast (Kruyt 1992a) en waaraan de grootste behoefte bij de gebruikers van een corpusnetwerk bestaat (Rettig 1992). Naast externe parameters, als bibliografische gegevens, publikatiemedium (boek vs. krant e.d.) en genre/onderwerp, worden in de toekomst interne parameters, te weten linguïstisch karakteristieke eigenschappen van de tekst, van groot belang geacht voor de (automatische) classificatie van teksten (cf. Biber 1993). Lag voorheen het accent op een weloverwogen selectie van tekstmateriaal voor een gesloten, volgens bepaalde criteria samengesteld en geproportioneerd corpus, nu worden, in het kader van een verruimde dienstverlening, optimale mogelijkheden tot selectie van subcorpora uit open, volgens minder rigide principes samengestelde en uitgebreid gedocumenteerde tekstenverzamelingen van steeds groter belang. Voor een verdere uitwerking van dit alles zij verwezen naar NERC-1 (1994). | ||||||||||||||||||||||
4. De INL Taalbank in Europees perspectiefGenoemde ontwikkelingen hebben geleid tot een veranderde visie op de functie van het electronische tekstmateriaal dat verzameld wordt door het Instituut voor Nederlandse Lexicologie INL. De aanleg en exploitatie van tekstcorpora door het INL had tot voor kort een uitsluitend lexicografisch doel, geheel in overeenstemming met de aldaar gebruikelijke methode om de woordenschat van het Nederlands te beschrijven op basis van tekstueel bewijsmateriaal. Het bij het INL in bewerking zijnde Woordenboek der Nederlandsche Taal WNT kan, zoals gezegd, worden opgevat als een corpusgebaseerd woordenboek. Aan het Vroegmiddelnederlands Woordenboek, eveneens een INL-project, ligt een electronisch corpus van teksten ten grondslag dat in totaal ca. 1.6 miljoen woordvormen bevat (Pijnenburg 1991). In 1980 werd een begin gemaakt met de aanleg van een groot electronisch tekstcorpus dat de basis moest vormen voor een corpusgebaseerd woordenboek van hedendaags Nederlands, een project waarvan de start beoogd wordt na de voltooiing van het WNT (Van Sterkenburg 1983). De internationale erkenning van het belang van dergelijke tekstenverzamelingen voor verschillende gebruikersgroepen, heeft ertoe geleid dat bij de verdere ontwikkeling en ontsluiting van de INL-corpora meer rekening gehouden wordt met het gebruik door anderen dan lexicografen. Zoals hierboven aangeduid, is op Europees niveau de discussie over hoe dit optimaal vorm kan krijgen, nog in gang. Niettemin vormen de algemene uitgangspunten de basis voor een aanzet tot de verbetering van de toegankelijkheid van de INL-tekstenverzamelingen. Na een beknopt overzicht van het hedendaags electronisch tekstmateriaal bij het INL, wordt op deze ontwikkeling nader ingegaan. De langst bestaande en meest gevarieerde tekstenverzameling van hedendaags Nederlands bij het INL is de ‘Taalbank Hedendaags Nederlands’, een electronisch tekstcorpus dat ca. 1600 teksten (boeken) bevat met in totaal ca. 50 miljoen woorden (beter: woordvormen of ‘tokens’, waarvan ca. 700.000 van elkaar verschillende woordvormen, zogeheten ‘types’). Op enkele uitzonderingen na, | ||||||||||||||||||||||
[pagina 52]
| ||||||||||||||||||||||
dateren de teksten uit de periode 1970-1990. De hoofdgenres zijn fictie (ca. 30% van de teksten) en non-fictie (ca. 70%). In de categorie fictie (uitsluitend proza) zijn verschillende genres vertegenwoordigd, zoals romans, novellen, verhalen, thrillers, cursiefjes, jeugdboeken etc. De categorie non-fictie bestrijkt een breed scala van onderwerpen op velerlei gebied (politiek en bestuur, wet en regelgeving, sociale en maatschappelijke vraagstukken, natuur en milieu, opvoeding en onderwijs, sport, kunst, geestesleven, techniek, alfa-, bèta- en gammawetenschappen etc.). Vanuit het streven naar een corpus dat (zo) ‘representatief’ (mogelijk) is voor het hedendaagse (gedrukte) Nederlands, is de samenstelling van dit corpus geëvalueerd door Martin, Platteau & Heymans (1985) en vervolgens geoptimaliseerd. Dit corpus is primair voor lexicografische doeleinden samengesteld. Electronische tekstenverzamelingen betreffen verder onder meer een collectie van teksten die opgesteld zijn voor de nieuwsuitzendingen van het NOS 8-uurjournaal en het NOS-jeugdjournaal, voornamelijk uit de periode 1986-heden, en een collectie van ca. 51.000 citaten uit Nederlandse en Vlaamse kranten, periodieken en reclamedrukwerk, daterend van 1958-heden. Omdat tekstmateriaal pas sinds betrekkelijk recente datum in digitale, computerleesbare vorm voorhanden is (Kruyt 1992b), zijn de tot nu toe besproken electronische tekstenverzamelingen noodzakelijkerwijs tot stand gekomen door omzetting van de gedrukte tekst naar digitale vorm door middel van tekstverwerking of een optische lezer. Sinds 1992 verwerft het INL van verschillende leveranciers tekstmateriaal in digitale vorm, voornamelijk kranten en tijdschriften. Een deel van dit materiaal is opgenomen in het zogeheten 5 Miljoen Woorden Corpus '94. Dit corpus bevat 17 tekstbronnen, waarvan 15 dateren uit de periode 1989-1994. De teksten zijn geclassificeerd naar publikatiemedium (boek, tijdschrift, krant, voor te lezen tekst) en naar onderwerp (politiek, journalistiek, vrije tijd, milieu, linguïstiek, bedrijf). Niet alleen de omvang is er de reden van dat dit corpus minder gevarieerd is dan het hierbovengenoemde 50 miljoen woorden corpus. De samenstelling werd vooral bepaald door factoren als de beperkte beschikbaarheid van gevarieerd digitaal tekstmateriaal, de bereidwilligheid en het vermogen van de leveranciers om in hun strakke tijdschema's extra procedures in te bouwen om materiaal te leveren, auteursrechtelijke restricties en soms ook de mate waarin conversies en andere inspanningen nodig zijn om de storende effecten op de bestandsvorm, veroorzaakt door toepassing van verschillende apparatuur en programmatuur, te vereffenen. Dit 5 miljoen corpus is dus meer dan het 50 miljoen corpus gebaseerd op het principe van de ‘beschikbaarheid’, maar desondanks wordt het gekenmerkt door een diversiteit van bronnen. Verder beschikt het INL over enige domeinspecifieke corpora, waaronder een corpus van teksten op het gebied van wet en regelgeving ter grootte van ca. 40 miljoen woorden en een multilinguaal juridisch corpus, deels met parallelle teksten, ter grootte van ca. 70 miljoen woorden. Deze corpora zijn door incidentele overeenkomsten verworven. Op basis van dit materiaal kunnen, wanneer daaraan behoefte blijkt, ook andere corpora worden samengesteld. Zo zou ook een miljoenencorpus van bijv. | ||||||||||||||||||||||
[pagina 53]
| ||||||||||||||||||||||
krantetaal of juridische taal kunnen worden samengesteld. De regelmatige toelevering van tekstmateriaal leidt ertoe dat het INL over zeer veel en recent materiaal kan beschikken. Bij de selectie en verwerving van nieuw materiaal wordt, conform de Europese ontwikkelingen, gestreefd naar een zo groot mogelijke en zo gevarieerd mogelijke tekstenverzameling.
Grote tekstenverzamelingen opgeslagen als computerbestand hebben weinig nut wanneer zij niet raadpleegbaar zijn door middel van zoekprogrammatuur. Naast kwantitatieve gegevens zoals woordvormfrequenties en spreiding over de bronnen, behoren woordvormen in hun context (‘concordanties’) tot de basale resultaten van een zoekactie op een tekstcorpus. Ook het kunnen zoeken op trefwoord en op morfologische, syntactische, semantische en pragmatische strukturen is voor veel onderzoek en voor veel taaltechnologische toepassingen relevant. Om de computer dergelijke zoekacties te kunnen laten uitvoeren, is het noodzakelijk dat menselijke taalkundige kennis op de een of andere wijze in het bestand gerepresenteerd wordt. Tot op heden gebeurt het verrijken van corpora met taalkundige informatie vaak handmatig of interactief. Wanneer het gaat om zeer grote tekstcorpora, is het ontwikkelen van taalkundige programmatuur die vol-automatisch electronische tekst analyseert en codeert in termen van taalkundige eigenschappen (‘taggers’, ‘parsers’) de enig haalbare methode. Zeer veel onderzoek op dit gebied, met name voor het Engels, heeft tot nu toe als resultaat gehad, dat voor een aantal talen programmatuur bestaat voor automatische morfologische analyse en voor het automatisch toekennen van woordsoorten, dat er weinig automatische lemmatiseerders zijn, dat goede, op willekeurige tekst werkende automatische syntactische ontleders zelfs voor het Engels nog nauwelijks bestaan en dat automatische semantische en pragmatische analyse nog in de kinderschoenen staat (cf. Loeffen 1992; Computational Linguistics 19 (1993); NERC-1 1994; Oostdijk & De Haan 1994). Tegen deze achtergrond moeten de opvraagsystemen worden beschouwd die voor de INL-corpora ontwikkeld zijn. Het 50 miljoen woorden corpus is raadpleegbaar door middel van een on-line retrievalsysteem, waarmee woordvormen kunnen worden opgevraagd in hun context (concordanties). De grootte van de context kan door de gebruiker worden ingesteld (max. 50 woorden links en 50 woorden rechts van het zoekwoord). In de zoekvraag kunnen zogeheten ‘wildcards’ gebruikt worden, hetgeen impliceert dat gezocht kan worden naar groepen van woordvormen die bepaalde tekstgedeelten gemeen hebben (bijv. *heid, ver*, a*ig). Tussentijdse resultaten betreffen gegevens over frequentie en spreiding over de bronteksten. Diverse faciliteiten (zoals concordanties sorteren op bron, op alfabetische volgorde van het woord links cq. rechts van het zoekwoord) vergemakkelijken de analyse van het zoekresultaat. De zoekopdracht kan het hele corpus betreffen, danwel een subcorpus dat door de gebruiker kan worden gedefinieerd op basis van de bibliografische parameters ‘auteur’, ‘(woorden uit de) titel’ en -binnenkort- ‘tijdsperiode’. Een prototype van ca. 5 miljoen woorden uit dit corpus is automatisch van woordsoort en lemma voorzien; de opvraagmogelijkheden die | ||||||||||||||||||||||
[pagina 54]
| ||||||||||||||||||||||
hieronder beschreven worden zijn voor dit prototype ten dele nog in ontwikkeling. Het 5 Miljoen Woorden Corpus '94 is voor niet-commerciële doeleinden on-line raadpleegbaar door middel van een opvraagsysteem dat via het computernetwerk Internet toegankelijk is.Ga naar eind1. De tekstclassificaties ‘publikatiemedium’ en ‘onderwerp’ kunnen worden gebruikt als parameters voor de definitie en selectie van subcorpora. Voordat het corpus in het retrievalsysteem is geladen, is het, met een door het INL ontwikkeld taalkundig programma, automatisch geanalyseerd en gecodeerd in termen van trefwoord en woordsoort (Van der Voort van der Kleij et al. 1994). Hierdoor is retrieval mogelijk op de niveau's van woordvorm, trefwoord en woordsoort, ook gecombineerd in een zoekopdracht. Tevens kan, door middel van Booleaanse operatoren (‘and’, ‘or’, ‘not’), naar combinaties van woordvormen, trefwoorden en woordsoorten gezocht worden, al dan niet met opgave van een bepaalde afstand (in aantal woorden) daartussen (‘proximity searches’). De meer gevorderde gebruiker kan in zijn zoekopdrachten tevens bepaalde voorgedefinieerde klassen van woorden (bijv. voltooid en tegenwoordig deelwoord) en woordgroepen (bijv. NP en PP) opnemen. De gebruiker kan die voorgedefinieerde klassen wijzigen en ook zelf klassen definiëren. Ook in dit systeem zijn ‘wildcards’ te gebruiken. Een paar willekeurige voorbeelden van zoekvragen ter concretisering van de mogelijkheden met dit systeem zijn: (1) geef alle tekstgedeelten waarin het trefwoord ‘romantisch’ gevolgd wordt door een willekeurig zelfstandig naamwoord (het resultaat bevat ook ‘romantische’ en ‘romantischer’ gevolgd door een zelfstandig naamwoord) (2) geef alle tekstgedeelten waarin de trefwoorden ‘man’ en ‘vrouw’ op een afstand van maximaal vijf woorden van elkaar voorkomen (het resultaat bevat dus ook de woordvormen ‘mannen’ en ‘vrouwen’) (3) geef alle tekstgedeelten waarin de woordvorm ‘ten’ gevolgd wordt door een willekeurig trefwoord, dat weer gevolgd wordt door het voorzetsel ‘van’ (het resultaat levert een aantal vaste verbindingen op als ‘ten bate van’, ‘ten behoeve van’, ‘ten dienste van’, ‘ten tijde van’) (4) geef alle tekstgedeelten waarin een NP gevolgd wordt door een PP. Welke zoekvragen zinvol zijn wordt bepaald door de onderzoeksvraag waarvoor het corpus als onderzoeksinstrument wordt gebruikt. Ook in dit systeem wordt de analyse van de resultaten ondersteund door diverse sorteermogelijkheden van de getoonde concordanties. Bij de ontwikkeling van deze opvraagsystemen is vooralsnog uitgegaan van mogelijkheden die zinvol zijn voor lexicografen en intuïtief zinvol leken voor anderen. Uit het gebruik van het 50 miljoen woorden corpus en het 5 Miljoen Woorden Corpus '94 door onderzoekers, ook buiten het Nederlandse taalgebied (Duitsland, Engeland, Denemarken, USA), blijkt dat deze faciliteiten in een behoefte voorzien. Documentatie van het gebruik van de corpora dient als basis voor een beter inzicht in algemene gebruikersbehoeften, waardoor toekomstige systemen daarop beter kunnen worden afgestemd. Tevens voldoet het INL steeds vaker aan verzoeken van onderzoekers om corpusgegevens die niet via deze systemen maar met andere programmatuur opvraagbaar zijn. Om een idee te geven van de doeleinden waarvoor INL-materiaal recent geraadpleegd is, noemen we hier taalkundig georiënteerd onderzoek naar hapaxen, | ||||||||||||||||||||||
[pagina 55]
| ||||||||||||||||||||||
naar anagrammen, naar collocaties, naar betekenisaspecten van gegeneraliseerde kwantoren, naar voor een bepaald teksttype kenmerkende stijlkenmerken, naar de integratie van Anglicismen en andere leenwoorden in de Nederlandse woordenschat, naar de syntaxis van concessieve zinnen, naar spellingregelmatigheden, naar productiviteit van suffixen, naar de relatie tussen het gebruik van concurrerende suffixen en de factoren regio en teksttype, alsmede het testen cq. verbeteren van taalkundige regels en spellingcorrectors. Ook voor andere typen van onderzoek bleken corpusgegevens relevant. Zo werd voor een onderzoek naar de relatie tussen emoties en taal gebruik gemaakt van frequentiegegevens van specifieke werkwoorden en daaraan gerelateerde substantieven, adjectieven en bijwoorden. Kwantitatieve gegevens (zoals woordlengte, zinslengte, frequentie van woorden etc.) over ‘algemeen Nederlandse’ tekst dienden als referentiekader voor kwantitatieve kenmerken van vaktaalteksten, in het kader van onderzoek naar nieuwe technieken voor documentretrieval, het effectief zoeken naar specifieke documenten in een grote database van vaktaaldocumenten; de hypothese die hieraan ten grondslag ligt, is dat de vorm van documenten belangrijke aanwijzingen kan geven over de inhoud. In grote lijnen kan worden vastgesteld dat voor velerlei onderzoek kwantitatieve gegevens, beperkte contextgegevens, taalkundig verrijkte gegevens, chronologische gegevens en gegevens over teksttypen, danwel een combinatie van diverse typen gegevens relevant blijken te zijn. Dat het de onderzoekers gaat om niet-geconstrueerd, daadwerkelijk aangetroffen (schriftelijk) taalgebruik, is evident. In het kader van een vergroting van de gebruiksmogelijkheden van het electronisch tekstmateriaal, wordt momenteel gewerkt aan een naar Europese maatstaven ingericht systeem voor de classificatie van teksten naar genre/onderwerp waardoor systematischer selectie van subcorpora mogelijk wordt, en aan de verbetering, verfijning en uitbreiding van de taalkundige verrijking. In een wat verder verschiet ligt de classificatie van teksten volgens karakteristieke taalkundige eigenschappen. | ||||||||||||||||||||||
5. BesluitDe ontwikkeling van goed toegankelijke tekstcorpora, mits niet te beperkt in omvang of diversiteit, is arbeidsintensief en kostbaar. Dat computers steeds krachtiger worden en dat steeds meer tekstmateriaal in digitale vorm beschikbaar komt, verandert hier niet essentieel iets aan. Omdat een corpus meestal niet een doel op zichzelf is maar een instrument voor onderzoek, is het niet verwonderlijk dat bestaande corpora gebruikt worden voor andere doeleinden dan waarvoor ze zijn aangelegd. Het bezwaar dat zo'n corpus niet optimaal is ingericht voor de onderzoeksvraag, weegt vaak niet op tegen de moeite om zelf een corpus aan te leggen. Dit wordt bevestigd door het gebruik dat van bijv. het Eindhoven Corpus en de INL corpora gemaakt is en momenteel ook door de drang die, met name van taaltechnologische kant, wordt uitgeoefend op bezitters van corpora om die ter beschikking te stellen (cf. Church & Liberman 1991). Dat auteursrechtrestricties | ||||||||||||||||||||||
[pagina 56]
| ||||||||||||||||||||||
de technische gebruiksmogelijkheden beperken, wordt zowel door de bezitters van corpora als door de in corpora geïnteresseerde gebruikers als een probleem ervaren. Ook hieraan wordt in Europees verband aandacht besteed. Het Europese streven naar een netwerk van multifunctionele corpora kan worden beschouwd als een recente en grootschalige manifestatie van de aloude praktijk van het gebruik van bestaande corpora door anderen. Maar er is een verschil in benadering. Werden voorheen gesloten, statische corpora met een voor één bepaald doel optimale samenstelling opgebouwd, nu wordt gestreefd naar open, dynamische corpora die ‘slechts’ als basisvoorziening dienen voor een veelheid van onderzoek en toepassingen. Lag voorheen het accent op de selectie van tekstmateriaal voor een vastomlijnd corpus, nu wordt de mogelijkheid tot het selecteren van een specifiek subcorpus uit de totale tekstenverzameling steeds belangrijker. Dit impliceert dat de instellingen met grote, voor lexicografische doeleinden ontworpen tekstcorpora, niet meer uitsluitend anderen hun corpora laten gebruiken, maar ook bij de selectie, taalkundige verrijking en ontsluiting van de corpora meer rekening houden met de behoeften van anderen. Met andere woorden: een woordenboek is één van de toepassingen van de ontwikkelde corpora. Wat de Europese Commissie beoogt is ambitieus en vanuit een bepaald perspectief zinvol. Maar een realistische vraag is in hoeverre individuele onderzoekers baat hebben bij deze ontwikkelingen. Voor onderzoekers die gebruik willen of kunnen maken van bestaande corpora betekenen uitbreidingen van de selectieparameters voor de definitie van subcorpora een vooruitgang. Dat volledige teksten meer mogelijkheden tot onderzoek bieden dan tekstsamples, was juist een van de motieven voor de huidige gedragslijn om integrale teksten op te slaan. De belangen van onderzoekers uit verschillende disciplines lopen min of meer parallel waar het gaat om goede ontsluitingsmogelijkheden op taalkundige gronden. Het ontwikkelen van goed werkende taalkundige programmatuur ter ontsluiting van linguïstische informatie in corpora is dan ook een geheel andere vorm van corpuslinguïstiek dan het reeds langer gepraktizeerde toetsen van een linguïstische theorie door middel van een corpus (vgl. Moisl 1994). Loeffen (1992) heeft erop gewezen dat binnen het domein van het tekstgericht of -afhankelijk onderzoek in Nederland de taalkunde nog steeds een overheersende positie inneemt. Hij stelt tevens dat ook letterkundig onderzoek gebaat is bij taalkundige kennis: ‘slechts weinig aspecten van het computationeel letterkundig onderzoek kunnen buiten de taalkundige know-how afdoende bestudeerd worden’ (Loeffen 1992:24). Als redenen voor de nog geringe interactie tussen taal- en letterkunde noemt hij onder meer het nog onvoldoende voorhanden zijn van efficiënt werkende taalkundige analysesystemen, beperktheden op het gebruik van materiaal en het ontbreken van geld en mankracht om de organisatie van verspreiding of beschikbaarstelling van tekstmateriaal en programmatuur op zich te nemen. De bevordering van interactie tussen niet alleen de taal- en letterkunde maar ook andere disciplines waarin tekstcorpora een rol spelen, wordt gestimuleerd door de Stichting Tekstcorpora en Databanken in de Humaniora STDH, waarvan de doelstellingen frappante gelijkenissen vertonen met die in Europees verband (vgl. STDH Beleidsnota 1991). Kennelijk is de behoefte aan het doorbreken van ‘steeds opnieuw beginnen en | ||||||||||||||||||||||
[pagina 57]
| ||||||||||||||||||||||
het wiel uitvinden’ en die aan ‘het optimaal benutten van inspanningen’ van algemene aard. Maar zelfs indien het komt tot een aantal centra met basisvoorzieningen waarvan anderen gebruik kunnen maken, betekent dit niet dat iedere onderzoeker die corpora nodig heeft voor zijn onderzoek, hiervan zinvol gebruik kan maken. Daar kunnen verschillende redenen voor zijn: er is een zo kleinschalig corpus nodig dat handwerk efficiënter is dan inzet van de computer; het benodigde corpus is zo specifiek van aard dat daarin onmogelijk door anderen voorzien kan worden; het corpus bestaat uit een teksttype dat zeer gemakkelijk en zonder restricties verkrijgbaar is; etc. Niettemin hebben de nationale en Europese ontwikkelingen als positief resultaat voor het ‘corpora gebruikende veld’ als geheel, dat corpora die voor interne doeleinden ontwikkeld werden, extern op grotere schaal gebruikt kunnen worden. Met corpora zal het mogelijk net zo vergaan als met andere hulpmiddelen, zoals de telefoon(lijn), kunststof, de computer: als ze eenmaal voor een groter publiek beschikbaar zijn, worden ze voor steeds meer doeleinden gebruikt.
J.G. Kruyt, Instituut voor Nederlandse Lexicologie INL, Leiden. | ||||||||||||||||||||||
Bibliografie
| ||||||||||||||||||||||
[pagina 58]
| ||||||||||||||||||||||
|
|