Forum der Letteren. Jaargang 1978
(1978)– [tijdschrift] Forum der Letteren– Auteursrechtelijk beschermd
[pagina 118]
| |||||||||||||||||||||||||||||||||||||||||||
Thesaurus en taalkundig onderzoek B.P.F. Al1. InleidingIn meer dan één opzicht is het Centre de recherche pour un Trésor de la langue françaiseGa naar voetnoot(1) te Nancy vergelijkbaar met het Instituut voor Nederlandse Lexicologie. Beide instituten hebben een tweeledige taak: het zelfvervaardigen van één of meerdere woordenboeken en het als databank fungeren voor anderen. In beide gevallen wordt de lexicografische activiteit als een zware last ervaren waar men zo snel mogelijk vanaf wil om meer tijd te kunnen besteden aan het andere taakbestanddeel. Toch is de situatie in Frankrijk duidelijk gunstiger dan in Nederland al was het alleen maar omdat binnen het 1NL de afdeling Thesaurus naast het WNT functioneert, terwijl het 19e en 20e eeuwse Franse woordenboek het eerste en belangrijkst geachte produkt van de thesaurus is. Er is, mede daardoor, in Nancy al een grote ervaring opgedaan voor wat betreft de gebruiksmogelijkheden van een taalkundige databank. Het doel van deze bijdrage is enerzijds om aan de hand van materiaal van de Trésor aan taalkundigen te laten zien welk belang zij kunnen hebben bij een goed opgebouwd en gemakkelijk toegankelijk taaiarchief. Anderzijds kunnen de Nederlandse thesauriers er mogelijk uit afleiden aan welke eisen het databestand moet voldoen wil het optimaal bruikbaar zijn voor taalkundig onderzoek. | |||||||||||||||||||||||||||||||||||||||||||
2. De Trésor: primaire en afgeleide dataFeitelijk bestaat de Trésor uit een verzameling magneetbanden waarop met behulp van de computer enorme hoeveelheden gegevens zijn opgeslagen. Deze gegevens kunnen worden bewerkt: men kan ze anders rangschikken, onderling vergelijken, tellen, enz. In ieder stadium kunnen ze overgebracht worden op andere informatiedragers (papier, ponskaarten, b.v.). Gegevens die een bewerking hebben ondergaan noemen we afgeleide data. De op magneetband verzamelde originele (= primaire) data die momenteel de Trésor uitmaken zijn de volgende:
| |||||||||||||||||||||||||||||||||||||||||||
[pagina 119]
| |||||||||||||||||||||||||||||||||||||||||||
Als bijzonderheid moet worden vermeld dat de verzamelingen (C) en (D) onderverdeeld zijn in 15 elkaar opvolgende chronologische tranches, die elk als een onafhankelijk subcorpus behandeld kunnen worden en die in omvang variëren van 5,1 tot 6,8 miljoen tokens. De eerste tranche loopt van 1946 tot 1964, de laatste van 1789 tot 1815. Ik ga hier niet in op de vraag of de Trésor wel representatief is voor het Frans, maar constateer slechts dat de gesproken taal ontbreektGa naar voetnoot(3), terwijl ook ‘krantentaal’ niet vertegenwoordigd isGa naar voetnoot(4). Op de hierboven opgesomde primaire data zijn een aantal standaardbewerkingen uitgevoerd, die geleid hebben tot de volgende soorten afgeleide gegevens:
Over het taalkundig belang van deze laatste categorie gegevens gaat de volgende para- | |||||||||||||||||||||||||||||||||||||||||||
[pagina 120]
| |||||||||||||||||||||||||||||||||||||||||||
graaf terwijl in paragraaf 4 de bruikbaarheid van de relatieve frequentie data voor het morfologisch onderzoek ter sprake komt. | |||||||||||||||||||||||||||||||||||||||||||
3. Binaire groepen3.1. UiteenzettingGa naar voetnoot(6)Binaire groepen (voortaan BG) zijn ontwikkeld om de taak van de lexicograaf te vereenvoudigen. Hij diende immers de beschrijving van de hem toegewezen lemmata te baseren op het materiaal dat hem in de vorm van concordanties was aangereikt. Voor de frequente woorden was dit materiaal echter veel te omvangrijk om er zinvol mee te kunnen werken. Ondanks de intuïtie van de lexicograaf bleek de vraag of een voorbeeld, waarmee hij zijn beschrijving wilde staven, significant was of, integendeel, marginaal, steeds moeilijker te beantwoorden naarmate de hoeveelheid materiaal waaruit gekozen moest worden groeide. Het binaire groepen programma stelt te computer in staat te berekenen welke combinaties van twee woorden significant zijn. Alleen deze collocaties worden afgedrukt, met een beperkte kontekst (maximaal 12 woorden, de beide termen van de BG inbegrepen). Wat is nu precies een BG? Een BG wordt gevormd door twee ‘semantisch volle woorden’, al dan niet van elkaar gescheiden door ten hoogste vijf ‘functionele woorden’. Hierbij gelden de volgende definities:
Zo kunnen in de volgende zin 6 BG worden onderscheiden: On conviendra aisément qu'il importait de maîtriser au plus vite une documentation aussi volumineuse.
Voor ieder semantisch vol woord kunnen nu twee verzamelingen BG worden aangelegd: die waarin het woord eerste term is en die waarin het woord als tweede term fungeert. Binnen beide verzamelingen worden de termen waarmee het woord in kwestie in collocatie treedt naar woordklasse geordend, en daarbinnen alfabetisch. De kontekst die voor iedere BG wordt genoteerd bestaat uit de twee woorden die aan de eerste term voorafgaan, de eventueel tussen de beide termen staande functionele woorden en de | |||||||||||||||||||||||||||||||||||||||||||
[pagina 121]
| |||||||||||||||||||||||||||||||||||||||||||
drie op de tweede term volgende woorden. Zie het bijgevoegde schema voor een concreet voorbeeld.
Hoe kleiner Q. hoe groter de kans dat de vorming van de BG in kwestie niet aan het toeval te wijten is. Vgl. b.v. de theoretische frequenties van de volgende BG die allen twee | |||||||||||||||||||||||||||||||||||||||||||
[pagina 122]
| |||||||||||||||||||||||||||||||||||||||||||
maal daadwerkelijk voorkomen in de eerste chronologische tranche van het literaire corpus:
Men kan nu uitrekenen hoe groot Q maximaal mag zijn om een BG die n maal daadwerkelijk voorkomt als significant te kunnen noteren (significantiegrens 0,01):
Concurrence déloyale komt twee keer voor; de theoretische frequentie van deze BG is aanzienlijk kleiner dan 0,148; dus wordt deze BG als significant genoteerd. Daarentegen had partie courage minstens drie maal moeten voorkomen om voor vastlegging in aanmerking te komen. Gorcy e.a. (1970: 25) hebben geconstateerd d.m.v. een steekproef dat op deze manier 75% van alle intuïtief interessante BG geselecteerd worden terwijl 62% van de niet interessante BG worden geëlimineerd. | |||||||||||||||||||||||||||||||||||||||||||
3.2. Taalkundige gebruiksmogelijkhedenEen verzameling woorden waarvan elk element in collocatie treedt met een bepaalde term, vertoont vaak een interne semantische coherentie. Vgl. b.v. de volgende woorden die als tweede term gevonden worden bij administrer (in de zin van ‘toedienen’): opium, paroles, piqûres, poison, purgation(s) en sacrement(s) of de volgende woorden die als tweede term bij courir optreden: agences, bibliothèques, salons, dancings, boutiques, parcs, ville en aventure, danger(s), risque(s), péril(s)Ga naar voetnoot(7). Dergelijke verzamelingen kunnen grafisch gerepresenteerd worden als netwerken waarin woorden de knopen vormen en de georiënteerde takken een significante collocatie aanduiden. B.v.:ledere tak kan voorzien worden van een getal dat de relatiesterkte tussen de twee betrokken woorden aangeeft. De knopen péril, risque, danger, enz. kunnen onderling eveneens verbonden worden door takken die men van een naam kan voorzien, afhankelijk van de paradigmatische relatie die tussen de woorden bestaat (synonymie, hyponynie, antonymie, enz.) en van een getal (gradaties binnen deze relaties). Van hieruit generaliserend kan men het lexicon zien als een immens multi-dimensioneel netwerk | |||||||||||||||||||||||||||||||||||||||||||
[pagina 123]
| |||||||||||||||||||||||||||||||||||||||||||
van n knopen die door maximaal
benoembare takken onderling verbonden worden. Dat een dergelijke conceptie ook enige psychologische waarde heeft moge blijken uit paragraaf 2.5. van de bijdrage van Schreuder & Levelt aan deze bundel. Hoe dan ook, BG kunnen van grote betekenis zijn voor het onderzoek naar de syntagmatische relaties binnen het lexicon. Dit terrein ligt nog vrijwel braak.
Meer in het bijzonder stelt het BG-programma de taalkundige in staat idiomatische uitdrukkingen grondig Ie bestuderen, in de eerste plaats diachroon omdat het ontstaan en het verdwijnen van vaste uitdrukingen onmiddellijk is af te lezen uit de BG-staten dankzij het feit dat het Nancy-corpus is onderverdeeld in chronologische tranches. Maar ook synchroon zijn er interessante mogelijkheden. Zoals bekend bestaat er geen absolute tegenstelling tussen idiomatische verbindingen enerzijds en niet idiomatische uitdrukkingen anderzijds. Doordat voor iedere significante BG de verhouding tussen theoretische en daadwerkelijke frequentie kan worden vastgesteld, hoeft men niet met deze vage constatering te volstaan, maar kunnen falsifieerbare voorspellingen worden gedaan omtrent de relatieve sterkte van verbindingen tussen twee woorden. Falsificatie kan plaats vinden d.m.v. psycholinguïstische experimenten: rangordening van woordparen, toekenning van schaalwaarden aan woordparen of woordsortering (cf. Levelt 1973, III: 25-30). Het principe van de BG kan ook gebruikt worden om anomalieën op te sporen. In paragraaf 3.1. is gesteld dat BG slechts worden geregistreerd als hun reële frequentie significant hoger is dan hun theoretische frequentie (Q). De overige BG blijven momenteel buiten beschouwing. Indien Q echter ⩾ 2 en de reële frequentie van een BG is signifïcant lager dan Q. in dat geval zou men kunnen spreken van een syntagmatische anomalie. Niet alle woorden van de Tresor lenen zich voor een dergelijke berekening. Aangezien en N ⩾ 2.106, moet het produkt ab ⩾ 4.106. We weten dat zowel a als b ⩽ 7000. zodat alleen woorden in aanmerking komen die in een bepaalde chronologische tranche een reële frequentie hebben ⩾ 572 (een noodzakelijke, maar geen voldoende voorwaarde). Dit is slechts het geval voor de ± 720 meest frequente woorden in iedere tranche.Het valentie-onderzoek (= studie naar de syntactische en semantische verbindbaarheid van woorden met andere woorden), dat behalve in de DDR en de USSR nu ook in Frankrijk weer volop in de belangstelling staatGa naar voetnoot(8), kan aanzienlijk aan belang winnen als de in dit geval vaak zeer aanvechtbare intuïtieve oordelen vervangen worden door BG-data. Wel zou het in dit verband wenselijk zijn het BG-programma op twee punten te herzien: ook de zgn. functionele woorden zouden op hun collocationele eigenschappen bekeken moeten worden, aangezien hun collocationeel gedrag, in tegenstelling tot wat wel is gedacht, geenszins als neutraal kan worden aangemerkt. Bovendien zou meer aandacht besteed dienen te worden aan de factor afstand tussen de twee termen van een BG. Voor de meeste woorden kan nl. worden voorspeld op welke afstand wat voor woordklassen zullen worden aangetroffen. Cf. voor beide punten Jones & Sinclair (1974). Tenslotte kan ook het stylistisch onderzoek dankzij de BG-data een nieuwe impuls | |||||||||||||||||||||||||||||||||||||||||||
[pagina 124]
| |||||||||||||||||||||||||||||||||||||||||||
krijgen. Vaak kan men immers constateren dat collocaties alleen significant zijn bij een bepaalde auteur. De bijdrage van de quantitatieve taalkunde aan de stylistiek hoeft dus niet beperkt te blijven tot zulke betrekkelijk elementaire feiten als gemiddelde zinslengte, relatieve verdeling van woordklassen en vocabulaire-rijkdom (type/token ratio). | |||||||||||||||||||||||||||||||||||||||||||
4. Relatieve frequentie en productiviteitIn veel morfologische studies wordt een absoluut onderscheid gemaakt tussen productieve en improductieve regels. Productiviteit zou geen kwestie van graad zijn (Cf. b.v. Schultink 1961, Corbin 1976 en Booij 1977). Weliswaar zijn er beperkingen op productieve regels (‘dammen in stromend water’), maar deze zijn wederom absoluut. Zo vindt, b.v., in het Frans geen prefixering met RE- plaats indien de stam met een r- begint (Mok 1964: 111). M.i. moeten deze beperkingen echter slechts worden opgevat als uitersten op een glijdende schaal, die men het beste met behulp van variabele, d.w.z. probabilistische regels kan verantwoorden. De morfologie zou op dat punt dan volledig vergelijkbaar zijn met de syntaxis, waar b.v. door vele grammatici is opgemerkt dat WH-movement in Franse vraagzinnen niet kan worden toegepast indien de WH-constituent door que/quoi wordt gevuld, maar daarentegen verplicht is bij gebruik van het vraagwoord pourquoi. Vgl.: Pierre a fait quoi? *Que Pierre a fait? *Pierre est parti pourquoi? Pourquoi Pierre est parti? In werkelijkheid kan men echter alle vraagwoorden onderling rangschikken, afhankelijk van de vraag in hoeverre zij zich lenen voor WH-movement. Que/quoi en pourquoi vormen daarbij slechts de uiteinden van de volgende serie:
Het bestaan van dergelijke series rechtvaardigt de toepassing van probabilistische i.p.v. deterministische regels. Naast onbekendheid met de werking van variabele regelsGa naar voetnoot(9), is wellicht gebrek aan geschikt materiaal één van de redenen dat dit soort regels op het terrein van de morfologie nog geen ingang heeft gevonden. Zo zijn de mij bekende recente studies oversuffixatie in het Frans allemaal gebaseerd op materiaal dat deels uit woordenboeken, deels uit werken van andere taalkundigen afkomstig is (Dubois 1962, Guillet 1971, Zwanenburg 1975 en Corbin 1976). Maar een woordenboek is, zoals bekend, niet per se een getrouwe afspiegeling van de talige werkelijkheid. Met name blijken lexicografen vaak sterker te zijn in het opnemen van neologismen dan in het afstoten van verouderd mate- | |||||||||||||||||||||||||||||||||||||||||||
[pagina 125]
| |||||||||||||||||||||||||||||||||||||||||||
riaal (Zie de opmerkingen die Van Sterkenburg in deze bundel maakt). De waarde van b.v. de studie van Dubois 1962, die de uitgaven 1906 en 1961 van de Petit Larousse met elkaar vergelijkt, is daarom dubieus. Het verdient zeker de voorkeur om in dit geval de taalkundige beschrijving rechtstreeks te baseren op corpusgegevens zoals ze in een thesaurus gevonden kunnen worden, te meer omdat dan tevens iets gezegd kan worden over het aantal tokens van ieder bestudeerd type. Het belang van deze factor voor een productiviteitsonderzoek mag in verband met wat is opgemerkt over probabilistische regels niet worden onderschat. Helemaal mooi is het als het corpus, zoals bij de Trésor, onderverdeeld is in chronologische tranches. Dan kunnen overzichten worden opgesteld waarin voor ieder type de relatieve frequentie in iedere tranche wordt gegeven. Op basis daarvan kunnen dan voor de verschillende affixen expansie- en regressiecoëfficiënten berekend worden. Op verzoek heeft de Trésor onlangs een dergelijk overzicht vervaardigd voor de volgende suffixen van nomina actionis in het Frans: -age, -aison, -ment, -tion en -ing. Dit jaar zal een poging ondernomen worden om met behulp van dit materiaal de factoren op te sporen die het vóórkomen van elk van deze suffixen beïnvloeden en om vervolgens probabilistische woordvormingsregels te formuleren waarmee de geconstateerde productiviteitsverschillen kunnen worden verantwoord. | |||||||||||||||||||||||||||||||||||||||||||
5. BesluitMet de in het voorafgaande opgesomde toepassingen zijn de gebruiksmogelijkheden van een thesaurus door taalkundigen natuurlijk niet uitgeput. Wel is, naar ik hoop, duidelijk geworden dat, in tegenstelling tot wat velen nog schijnen te denken, indices en concordanties niet de enige produkten zijn die op basis van een geautomatiseerd databestand geleverd kunnen wordenGa naar voetnoot(10). De meest interessante gegevens zijn m.i. die welke voortvloeien uit een vergelijking van meerdere gelijkwaardige deelverzamelingen. Een goede thesaurier zou er dus voor moeten zorgen dat zijn corpus op een zodanige wijze is gestructureerd en van een zodanige omvang is dat het in verschillende subcorpora kan worden opgesplitst, en wel op meer dan één manier: niet alleen in functie van de tijd, maar ook naar type spreker/schrijver en naar tekstsoortGa naar voetnoot(11).
Vakgroep Franse taalkunde Vrije Universiteit Amsterdam | |||||||||||||||||||||||||||||||||||||||||||
[pagina 126]
| |||||||||||||||||||||||||||||||||||||||||||
Bibliografie
|
|