Raster. Jaargang 3
(1969-1970)– [tijdschrift] Raster– Auteursrechtelijk beschermd
[pagina 153]
| |
Frits Kortlandt | Exacte methoden in de linguïstiekIn de laatste twintig jaar heeft de taalwetenschap zich zeer snel ontwikkeld. Daarbij is het karakter van het vak enigszins veranderd. Vanouds werd de linguïstiek beschouwd als een A-wetenschap, d.w.z. een wetenschap waarin geen duidelijke axiomatiek aanwezig is, modellering van verschijnselen impliciet gegeven is en niet expliciet wordt gesteld, weinig of geen gebruik gemaakt wordt van formalisatietechnieken, elke informatie in verbale vorm wordt gegeven, en waarnemingen (voorzover die gedaan worden) een partieel en niet-kwantitatief karakter hebben. Met de opkomst van het structuralisme is hierin verandering gekomen. De probleemstelling werd i.h.a. wat exacter en de axiomatiek kreeg langzamerhand enige vorm. Zo is er op het ogenblik bijvoorbeeld nauwelijks meer iemand te vinden die het discrete karakter van linguïstische eenheden ontkent. Maar het op grote schaal doordringen van exacte methoden in de taalwetenschap is een verschijnsel dat zich pas in de jaren '50 heeft voorgedaan. Die methoden vallen in twee groepen uiteen. In de eerste plaats kan men in sommige deelgebieden van de taalwetenschap met vrucht statistische technieken gebruiken.Ga naar voetnoot1 Zo heeft men geconstateerd dat de frequentie van sommige linguïstische eenheden aan bepaalde wetten onderhevig is: het blijkt bijvoorbeeld dat stemloze consonanten (p, t, k, s) ongeveer tweemaal zo vaak voorkomen als de corresponderende stemhebbende (b, d, g, z) in bijna alle talen waarin stemloze en stemhebbende klanken worden onderscheiden, en dat dentalen (t, d) in het algemeen tweemaal zo vaak voorkomen als labialen (p, b) of velaren (k, g). Op grond van deze en dergelijke resultaten is de stelling geformuleerd dat de frequentie van een foneem omgekeerd evenredig is aan de inspanning die de realisatie ervan vereist, behoudens een zekere afwijking die van taal | |
[pagina 154]
| |
tot taal verschilt. Nu kan men voor elke taal met een gegeven fonologisch, systeem een ‘normaal’ frequentiepatroon van de fonemen vaststellen. Wanneer een bepaalde klank ten opzichte van dit patroon relatief vaak voorkomt, zal die klank geneigd zijn in sommige posities te verdwijnen. Zo had de /m/ in het Latijn een abnormaal hoge frequentie, vooral aan het eind van een woord. In die positie is deze klank dan ook in alle Romaanse talen verdwenen. Op dezelfde manier kan men ‘verklaren’ dat stemloze consonanten in intervocalische positie stemhebbend werden toen het Latijn zich tot Romaans ontwikkelde:Ga naar voetnoot2 de frequentie van die klanken in die positie was abnormaal hoog, en de frequentie van stemhebbende klanken in die positie was abnormaal laag. Er is nog een interessante consequentie verbonden aan het feit dat de frequentie van een gegeven klank in een gegeven taal slechts binnen bepaalde grenzen varieert: n.l. met betrekking tot het ontcijferen van gecodeerde teksten (z.g.n. kryptografie). Men heeft op deze manier geprobeerd de inhoud van oude teksten vast te stellen (Etruskisch, mexicaanse indianentalen), maar de resultaten hiervan zijn niet erg bemoedigend. Ook in de lexicologie zijn al statistische methoden toegepast, o.a. voor het samenstellen van frequentiewoordenboeken en basisvocabularia voor het onderwijs in vreemde talen. Interessanter zijn de toepassingen in de stilistiek: indien men het Russisch van Tolstoj als norm beschouwt, blijkt dat in het werk van Puskin de relatieve frequentie van werkwoorden hoger is, terwijl Goncarov een voorkeur voor substantieven en Turgenev voor adjectieven schijnt te hebben. Binnen het werk van eenzelfde schrijver vertonen dergelijke verhoudingen dikwijls een geleidelijke evolutie. Men heeft wel geprobeerd op grond hiervan de relatieve chronologie van een niet of verkeerd gedateerd werk van een schrijver vast te stellen (b.v. Rimbaud, Les Illuminations). Wellicht zal men in de toekomst, wanneer de semantiek wat verder ontwikkeld is, statistische methoden kunnen gebruiken bij het zoeken naar een antwoord op de oude, intrigerende vraag: wat is origineel, wat is poëtisch in een nieuwe taaluiting? Het is duidelijk dat de banaliteit van een uitdrukking in directe relatie staat tot de frequentie waarmee hij voorkomt. De meest interessante toepassingen van de statistiek in de taalweten- | |
[pagina 155]
| |
schap vindt men tot nog toe echter in vergelijkende en historische studies. In 1950 heeft de Amerikaanse linguïst Morris Swadesh een nieuwe methode voorgesteld om de graad van verwantschap tussen verschillende talen vast te stellen en op grond van een vergelijking van het lexicale materiaal in genetisch verwante talen een schatting te geven van de tijd die verlopen is sinds die talen zich van een gemeenschappelijke moedertaal hebben afgesplitst. Men gaat er bij een dergelijk onderzoek van uit dat alle talen een basiswoordenschat hebben die betrekking heeft op fundamentele categorieën van de gedachtenwereld van de mens in elke cultuur. Dergelijke woorden hebben i.h.a. een grote frequentie in het dagelijks taalgebruik en zijn meestal weinig ontvankelijk voor externe invloeden (verdringing door leenwoorden b.v.). Het aantal woorden dat twee talen gemeen hebben in verhouding tot het totale aantal woorden van het basisvocabularium wordt nu beschouwd als een maat voor de verwantschap tussen die talen. Jammer genoeg zijn de resultaten van zo'n glotto chronologische (lexicostatistische) analyse sterk afhankelijk van de gemaakte veronderstellingen: hoe groot kies ik het basisvocabularium? welke woorden neem ik op? zijn al die woorden even belangrijk? zijn ze alle even ontvankelijk voor externe invloeden? waren die externe invloeden in verschillende perioden ongeveer even belangrijk? is het aantal ontleningen in een periode niet sterk afhankelijk van allerlei culturele factoren die op verschillende talen een radicaal verschillende uitwerking kunnen hebben, ook al gaat het dan om (min of meer) universele begrippen? enz.Ga naar voetnoot3 Toepassing van statistische methoden heeft in sommige linguïstische onderzoekingen dus tot interessante resultaten geleid. Bovendien is er een groot aantal problemen dat men met statistische technieken waarschijnlijk met succes te lijf zou kunnen gaan. Ik denk hier bijvoorbeeld aan: (a) het meten van de dispersievelden van fonemen (d.w.z. het bepalen van de grenzen die aan de realisatie van een foneem gesteld moeten worden om de verstaanbaarheid te garanderen); (b) het meten van de dispersiegebieden van semantische eenheden (door gebruik te maken van enquêtetechnieken: om een eenvoudig voorbeeld te noemen, men kan van een aantal objecten vragen of | |
[pagina 156]
| |
ze ‘blauw’ of ‘groen’ zijn en zo de grens tussen die twee begrippen trachten te bepalen); (c) het meten van de entropie en de redundantie in taalbouwsels (dat is respectievelijk de hoeveelheid informatie die in een taalbouwsel bevat is en de aanwezigheid van elementen die ‘eigenlijk overbodig’ zijn voor het verstaan van hetgeen gezegd wordt). De entropie is afhankelijk van de voorspelbaarheid van de betrokken informatie. De informatie die bevat is in een woord is groter naarmate er meer woorden zijn die in plaats van dat woord hadden kunnen worden gebruikt. Wanneer iemand een kamer binnenrent en uitroept: ‘Stel je voor, Jan is...’, dan is de entropie van het volgende woord (‘dood’, ‘ziek’, ‘getrouwd’) bijzonder groot: het bevat immers de belangrijkste informatie die in deze zin gegeven wordt. Omgekeerd is de entropie van de letter u na de letter q in West-Europese talen bijzonder klein: een q wordt immers (bijna) nooit door een andere letter gevolgd. In sommige gevallen kan één enkele spraakklank essentieel zijn voor de juiste overdracht van informatie, vgl. Wat zijn deze druiven duur! versus Wat zijn deze druiven zuur! Het lijkt mij dat zulke begrippen uit de informatietheorie van groot belang kunnen zijn bij de analyse van een literair werk.Ga naar voetnoot4 Al zijn statistische methoden een belangrijk hulpmiddel aan het worden in de taalwetenschap, het gebruik ervan zal beperkt blijven tot de vakgebieden waar kwantitatieve waarnemingen gedaan kunnen worden. De meest fundamentele problemen van de hedendaagse linguïstiek liggen echter op een terrein waar dat onmogelijk is, niet omdat de meettechnieken onvoldoende ontwikkeld zijn, maar omdat de onmeetbaarheid inherent is aan de probleemstelling. Dat betekent niet dat er geen waarnemingen gedaan hoeven worden; in- | |
[pagina 157]
| |
tegendeel, het doen van correcte waarnemingen is een van de moeilijkste en meest kritieke punten in de moderne taalkunde, en de meeste nieuwe taaltheorieën lijden aan de gevolgen van onvolledige en soms zelfs uitgesproken slechte observatie. Maar het gaat hier om verschijnselen waarvan de essentiële aspecten niet kwantitatief zijn. De exacte methoden die voor deze problemen in de laatste tien, vijftien jaar hun intrede hebben gedaan zijn dan ook niet ontleend aan de statistiek, maar aan zulke ‘abstracte’ vakgebieden als verzamelingenleer, topologie en mathematische logica. Moderne linguïsten kunnen niet meer zonder functies, relaties, operatoren, implicaties. Het toverwoord is formalisatie, en elke techniek die zich daarvoor leent, wordt met beide handen aangegrepen. Dit heeft geleid tot een snel groeiende kloof tussen de ‘ingewijden’ en de ‘buitenstaanders’. Toch is het bepaald onjuist te menen dat de wiskundige technieken die tegenwoordig worden toegepast in de taalwetenschap dermate geavanceerd zijn dat het voor buitenstaanders onbegonnen werk is zich ermee vertrouwd te maken: het gaat om in wezen zeer eenvoudige methoden.Ga naar voetnoot5 Dat het zo ingewikkeld lijkt, is veelal slechts te wijten aan het steeds algemener wordende gebruik van symbolen: dit verschijnsel is de A-wetenschappen historisch gezien vreemd, omdat het gebruikelijk was alle uiteenzettingen in verbale vorm te geven. De zin van symbolisatie is gelegen in de mogelijkheid om de dingen in korte en compacte vorm weer te geven. Zo kan men de zin Jan slaat Piet symbolisch voorstellen door n1 v n2. Men kan ook zeggen dat Jan en Piet namen van personen zijn en slaat een geflecteerde vorm van een werkwoord is. Ik kan mij voorstellen dat iemand die voor het eerst de ‘formule’ n1 v n2 ziet, wordt afgeschrikt door deze ‘wiskundige’ aanpak. Maar wanneer men eenmaal aan het gebruik van de symbolen n en v gewend is geraakt, lijkt de omschrijving in woorden nog slechts een omslachtige manier om dezelfde informatie te verschaffen: het is gewoon veel makkelijker om ‘v’ te schrijven in plaats van ‘geflecteerde vorm van een werkwoord’. Bovendien kan aan de gebruikte symbolen steeds de betekenis worden toegekend die men in een individueel onderzoek meent nodig te hebben. Zo zal het hier gebruikte symbool n wellicht | |
[pagina 158]
| |
niet alleen namen van personen of, algemener, substantieven met of zonder lidwoord representeren, maar bijvoorbeeld ook sommige voornaamwoorden (in dat geval kan Hij vroeg dat ook door n1 v n2 worden voorgesteld) of zelfs hele woordgroepen (indien men bijvoorbeeld Een mij onbekende man sloeg de hond van de buren door dezelfde combinatie van symbolen wenst weer te geven). Of dit in een bepaald geval zo is, hangt steeds af van het onderzoek waarin de symbolen gebruikt worden. Het gebruik van symbolen, waarmee formalisatie in het algemeen gepaard gaat, kan zeer nuttig zijn voor een nauwkeurige formulering van de beweringen die men wil doen. Die beweringen zelf zijn echter, indien de formalisering tenminste op correcte wijze wordt toegepast, onafhankelijk van de manier waarop ze geformaliseerd worden. Formalisatie heeft derhalve steeds betrekking op de vorm van een bewering, niet op de inhoud ervan. Het is wel zo, dat men veelal juist door te formaliseren de onnauwkeurigheid van bepaalde beweringen inziet en daardoor tot betere ideeën komt, maar dan is de juistheid van die ideeën weer onafhankelijk van de (al of niet geformaliseerde) manier waarop ze tot uitdrukking worden gebracht. Het is daarom van het grootste belang door de formele inkleding van een bewering heen te zien om de betekenis ervan te begrijpen. Het in gebruik raken van formalisatietechnieken in de linguïstiek is ten nauwste verbonden met de opkomst van de informatietheorie en de ontwikkeling van programmeertalen. Wanneer men een bewerking door een computer wil laten uitvoeren, moet de opdracht daartoe geformuleerd worden in een vorm die door de computer kan worden ‘begrepen’, d.w.z. in de vorm van een programma. Dit programma is een ‘string of symbols’ waaraan binnen de gebruikte programmeertaal een interpretatie is toegekend. Als er bijvoorbeeld in een algol-programma staat: ‘if x ≠ O then z: = x + y;’ dan luidt de opdracht aan de machine: controleer of de bewering ‘x ≠ O’ juist is; zo ja, tel dan x en y op en stel z gelijk aan het resultaat. Niet elke ‘string of symbols’ heeft een interpretatie in de programmeertaal; zo moet het symbool if in algol steeds gevolgd worden door het symbool then. Tot zover is het geheel analoog aan de gang van zaken in een natuurlijke taal: een zin in het Nederlands kan immers ook beschouwd worden als een ‘string of symbols’ (woorden) waaraan een interpretatie is verbonden. En ook hier zijn er beperkingen waaraan zo'n string moet voldoen om correct Nederlands te | |
[pagina 159]
| |
zijn: Hij verzette veronderstelt dat er iets volgt (zich, de lamp, heel wat werk), en datgene wat volgt is ook weer aan bepaalde beperkingen onderhevig. De doelstelling van de moderne generatieve grammatika is nu een verzameling regels te geven waaruit op eenduidige wijze blijkt of een willekeurige ‘string of symbols’ in de betreffende taal ‘correct’ is, d.w.z. een interpretatie heeft, en welke interpretatie dat is indien de betekenis van de afzonderlijke symbolen (woorden, morfemen) gegeven is. Men zegt dan dat de taal door de grammatika wordt ‘gegenereerd’. De belangrijkste discussies in de hedendaagse taalwetenschap hebben betrekking op de vraag, wat voor soort regels in een dergelijke grammatika gebruikt kunnen worden. Het gaat daarbij in het bijzonder om het gebruik van transformationele regels, dat door sommigen als een noodzakelijke en door anderen als een overbodige techniek wordt beschouwd.Ga naar voetnoot6 Het is niet mijn bedoeling hier een overzicht te geven van de mogelijkheden die door de transformationele methode worden geschapen en de bezwaren die tegen de toepassing ervan bestaan. Het lijkt mij echter zinvol iets te zeggen over de veronderstellingen die ten grondslag liggen aan het model waarbinnen men al of niet transformationele regels wenst toe te passen. Elke analyse veronderstelt een model. Wanneer men beweert dat ‘a = b’ wáár is, dan veronderstelt men dat de lezer of verstaander enig idee heeft over de aard van de objecten waarnaar door a en b verwezen wordt, dat hij in staat is a en b met die objecten te associëren, dat de relatie ‘=’ gedefinieerd is en een betekenis heeft indien toegepast op de elementen a en b (d.w.z. dat met de relatie ‘=’, toegepast op a en b, enige zinvolle en eenduidig bepaalde relatie correspondeert tussen de objecten waarnaar door a en b verwezen wordt), en dat er een (eenduidig bepaald) criterium is op grond waarvan de uitdrukking ‘a = b’ al of niet ‘waar’ genoemd kan worden. Het toekennen van een betekenis aan de elementen a en b dient vooraf te gaan aan het stellen van de relatie ‘a = b’ en deze relatie moet gedefinieerd worden vóórdat aan een dergelijke bewering het etiket ‘waar’ kan worden toegevoegd. Dit alles lijkt volkomen vanzelfsprekend, maar het is juist in dergelijke fundamentele zaken als het postuleren van de basisveronderstellingen van een mo- | |
[pagina 160]
| |
del en de volgorde waarin beweringen gedaan en veronderstellingen gemaakt worden dat de taalkunde nog zo'n ontzettend inexacte wetenschap is. Het studie-object van de linguïstiek is de taal, d.w.z. het systeem dat ten grondslag ligt aan het taalgebruik. De taal leent zich niet voor directe observatie: waarneembaar is slechts het taalgebruik, en het is steeds op grond van waargenomen taaluitingen en reacties op taaluitingen dat conclusies worden getrokken ten aanzien van het systeem dat er aan ten grondslag ligt. Die waarnemingen en het trekken van die conclusies gaan dus onvermijdelijk vooraf aan enige bewering die over het systeem zelf gedaan kan worden. Nu is een van de meest verrassende trekken van de moderne taalkunde dat men zich enerzijds alle moeite geeft om de beweringen die uiteindelijk gedaan worden met betrekking tot het taalsysteem te formaliseren, of althans te gieten in de vorm van een geordende verzameling min of meer exacte regels, terwijl men anderzijds in de fase die hieraan voorafgaat, bij de detectie van die regels, volledig vertrouwt op de intuïtie van de taalbeschrijver. Laat ik dit iets anders zeggen. Een grammatika is een model van een taalsysteem. Een regel in een grammatika is een afbeelding van een geconstateerde wetmatigheid in het taalgebruik waarvan men aanneemt dat er een eigenschap van het taalsysteem aan ten grondslag ligt. Het object dat gemodelleerd wordt in de vorm van een grammatika is dus het taalsysteem waarvan het bestaan verondersteld wordt op grond van dergelijke geconstateerde wetmatigheden. Wanneer we nu lezen: ‘de zin De brief werd door hem geschreven wordt uit de zin Hij schreef de brief verkregen door toepassing van de passieve transformatie’,Ga naar voetnoot7 wat betekent dit dan? Het betekent niet dat een spreker van de taal eerst de zin Hij schreef de brief bedenkt en deze in gedachten transformeert tot het passieve equivalent alvorens zijn mond te openen en te spreken. Het is immers niet de activiteit van de spreker die in de grammatika gemodelleerd wordt, maar het systeem van de taal, onafhankelijk van de manier waarop een spreker van het systeem gebruik maakt. Maar ook de manier waarop het systeem op basis van (welke?) waarnemingen is vastgesteld, d.w.z. de activiteit van de taalbeschrijver, wordt binnen dit raam niet gemodelleerd. Wanneer de zojuist aangehaalde zin deel | |
[pagina 161]
| |
uitmaakt van een taalbeschrijving, dan kan men niet zonder meer zeggen of de bewering ‘waar’ is of niet, want hiervoor is geen criterium aanwezig: de gesignaleerde transformatie is een eigenschap van de beschrijving, waarvan het beschreven object (het taalsysteem) onafhankelijk is. Wil men toch een criterium vinden op grond waarvan de genoemde transformeerbaarheid kan worden bevestigd of ontkend, dan moet men (althans impliciet) de aanwezigheid van een model voor een voorafgaande fase in de analyse veronderstellen, n.l. met betrekking tot de activiteit van de taalbeschrijver. (Ik spreek hier over transformaties, maar hetzelfde kan natuurlijk gezegd worden van naamvallen, werkwoorden, en alle andere meta-talige begrippen.)Ga naar voetnoot8 Maar dié fase is nog nooit geformaliseerd! Sterker nog, er bestaat niet eens een algemene theorie over linguïstische waarnemingen (hoewel er met veldwerk genoeg ervaring is opgedaan om interessante uitspraken te doen over de aanvaardbaarheid van alternatieve observatietechnieken). De analogie tussen het wiskundige probleem van een zinvolle en consistente definitie van een programmeertaal enerzijds en het linguïstische probleem van een volledige en adequate taalbeschrijving anderzijds heeft geleid tot het zoeken naar analoge oplossingen voor beide problemen. Wanneer het gaat om de formulering van reeds bekende grammatikaregels, is het zeer goed mogelijk dat een methode gevonden wordt die in beide gevallen bevredigende resultaten oplevert. Maar wanneer het er om gaat een dergelijke grammatika uit waarnemingen af te leiden of de overeenkomst tussen een eenmaal geformuleerde grammatika en het systeem van een natuurlijke taal te onderzoeken, dan valt de vergelijkingsbasis weg. Dit probleem bestaat immers niet met betrekking tot een programmeertaal: er zijn geen waarnemingen, want de eigenschappen van de taal worden geheel bepaald door de manier waarop de grammatika is gedefinieerd. In de linguïstiek daarentegen is het nu juist van essentieel belang een gepostuleerde grammatikaregel op correcte wijze te kunnen toetsen aan waargenomen taalgebruik. Ik beschouw het als de belangrijkste taak van de hedendaagse taalwetenschap de procedures die daarvoor in de praktijk in feite gebruikt worden te formaliseren. |
|