Nieuw Vlaams Tijdschrift. Jaargang 24

(1971)– [tijdschrift] Nieuw Vlaams Tijdschrift– rechtenstatus

zoek de mens

Stijlonderzoek per computer: enkele beschouwingen

0. Woord vooraf

Deze tekst is een licht gewijzigde versie van een lezing gehouden op 27 november 1970 voor de staf der letterenfaculteit van de V.U. te Amsterdam.

Dit gebeurde in het kader van enkele voorlichtende avonden over toepassingen van de computer binnen de diverse vakgebieden van deze faculteit. Er werd ons gevraagd te spreken over ons werk ‘Analyse van een vocabularium met behulp van een computer’ Dit werd de aanleiding om dit werk, dat poogt het vocabularium van een tekst, i.c. twee romans van I. Michiels, op exacte wijze te analyseren, te situeren in het stijlonderzoek in het algemeen en het computationeel stijlonderzoek in het bijzonder.

Aan de perspectieven die dit laatste onderzoek opent wordt speciale aandacht gewijd. Er werd ook, zonder expliciete vermelding, gebruik gemaakt van ideeën die wij reeds elders naar voren brachten, o.m. in de artikels ‘Het gebruik van de computer bij taalonderzoek’ [Levende Talen, nr. 274, Groningen] en De distributie van ‘nieuwe woorden’ in Mei van Gorter [verschijnt in De nieuwe Taalgids, Groningen].

1. Inleidende beschouwingen

Het kan de literaire criticus wie de werking van een computer minder bekend is, schokkend lijken de stijl van een auteur via computer ontleed te zien.

De analyse van een literaire tekst d.m.v. een computer komt hem wellicht even bevreemdend, ontluisterend en misplaatst voor als de dissectie van de geur van rozen of de ontleding van de smaak van perziken. Als estheticus heeft hij meer oog voor het globale, voor het geheel. Nochtans, hoe vreemd de computer-

ontleding van een tekst ook lijken mag, stijlstudie, of die nu met of zonder computer gebeurt, impliceert een aantal discrete, niet-continue, stappen die afzonderlijk onderscheiden kunnen worden, zelfs wanneer wij ze als intuïtief en ondeelbaar aanvoelen. M.a.w. het globale oordeel van de onderzoeker over b.v. een literair werk kan verdeeld worden in verscheidene onderdelen. Het zou o.i. trouwens een winstpunt zijn voor de literaire kritiek deze delen aan te geven.

Het impressionistische maar vaak oncontroleerbare beoordelen van een tekst zou aldus open staan voor verificatie en onderzoek. Dit betekent niet dat tekstkritiek zonder computer waardeloos is, maar wel dat stijlonderzoek objectief en controleerbaar moet zijn.

Laten wij dit aan de hand van een paar concrete voorbeelden illustreren. Wij vinden de taal van Ivo Michiels' Boek Alfa gekarakteriseerd als ‘eenvoudig, onopgesierd’Ga naar eind1. en ‘op sommige plaatsen lyrisch’Ga naar eind2..

Daartegenover staat een van onze conclusies i.v.m. de evolutie van Michiels van Het Afscheid naar Het Boek AlfaGa naar eind3.:

‘1. Het vocabularium in Afscheid is uitgebreider dan in Alfa.

2. Daar dit voor het lexicon eveneens het geval is kunnen wij hier van een bewuste inkrimpingstendens bij Michiels gewagen’.

Hoewel wij er ons bewust van zijn deze drie uitspraken uit hun verband te rukken kunnen wij ze toch als karakteristiek beschouwen voor de soort van dingen die gewoonlijk door critici over stijl gezegd worden.

In het geval Dinaux en De Wispelaere staan wij voor de toepassing van wat de Nederlandse statisticus Van Dantzig eens de hm-methode heeft genoemd. Hij schrijftGa naar eind4.: ‘De hm-methode bestaat daarin, dat men de rechterhand aan de kin brengt, de duim rechts, de andere vingers links, dan de lippen opeenperst en de wenkbrauwen samentrekt, vervolgens “hm” zegt en ten slotte een oordeel ten

beste geeft’. Het ligt zeker niet in onze bedoeling een karikaturale voorstelling te geven van de stijlbeoordeling bij de twee bovengenoemde critici.

Wel zal het iedereen duidelijk zijn dat uitspraken over een vocabularium als ‘eenvoudig en onopgesierd’ en ‘op sommige plaatsen lyrisch’ niet per se verkeerd zijn, maar dan toch een zeer beperkte waarde hebben. Van Dantzig zelf geeft trouwens duidelijk de mogelijkheden en limieten van een dergelijke methode op: ‘... toegepast door iemand met een grondige kennis en uitgebreide ervaring omtrent het te beoordelen object, kan de bedoelde keelklank een snelle innerlijke samenvatting van deze kennis en ervaring tot uitdrukking brengen en tot goede resultaten leiden. [...]. Als methode heeft zij het bezwaar, dat zij bij haar beste beoefenaren een onfeilbaarheid van oordeel suggereert, dat zij geen garantie biedt tegen stemmings- en aandachtfluctuaties bij degenen die haar toepassen, en dat haar betrouwbaarheid in hoge mate afhangt van de qualiteiten der beoordelaars, en sterk afneemt naarmate hun aantal toeneemt, dus hun selectie vermindert’.

Om terug te keren op onze twee voorbeelden, concreet gezien wordt de waarde van de beide uitspraken geminimaliseerd in de eerste plaats omdat zij subjectief en impressionistisch zijn: er wordt niet met klare, wel-omlijnde definities gewerkt [wat is ‘eenvoudig’?, wat betekent ‘lyrisch’?, wat staat voor ‘sommige plaatsen’?] en vervolgens omdat er niet wordt naar gestreefd objectiviteit te verwerven, d.i. ‘Mitteilbarkeit mit Zustimmungszwang’Ga naar eind5. of wat we zouden kunnen noemen: ondubbelzinnige, niet-ambigue informatie. M.a.w. dergelijke beoordelingen zijn niet controleerbaar, verificeerbaar of falsificeerbaar.

Wij hebben dan ook geprobeerd dit euvel te verhelpen: wanneer wij spreken over een uitgebreid vocabularium of lexicon, dan beantwoordt dit aan een precieze, nauwkeurig afgebakende definitie [resp. het aantal types [= verschillende woorden] en het aantal hapax legomena [= woorden met

f = 1] in teksten tot een zelfde aantal tokens [= totaal aantal woorden] gereduceerd]. Al is deze definitie aanvechtbaar, - we komen er verder op terug -, ze is tenminste controleerbaar. Er bestaat dus niet langer onzekerheid nopens de juistheid van de getrokken conclusies, tenminste indien de premissen waarvan wordt uitgegaan exact zijn. Welke zijn deze premissen? Of anders geformuleerd: welk is het theoretisch kader waarin onze methode moet geplaatst worden?

Een natuurlijke taal is in feite een, wat de mensen uit de informatietheorie genoemd hebben, redundant systeem.

Dit wil o.m. zeggen dat er in de taal verschillende manieren mogelijk zijn om hetzelfde te zeggen: flexie, woordorde, synonymie, het gebruik van functiewoorden zijn vaak zoveel keuzemogelijkheden in onze taal. Er verandert niets aan de informatie als ik spreek over ‘de auto van vader’ of over ‘vaders auto’, over ‘het gebruik van woorden als substantieven’ of ‘het substantivische gebruik van woorden’...

Door deze keuze is fluctuatie van de norm, de background tegenover dewelke de gemiddelde lezer het taalprodukt in kwestie afweegt, zeer goed mogelijk.

Theoretisch gezien is deze norm het gemiddelde taalgebruik van alle sprekers van die taal. Deze norm kan op haar beurt onderverdeeld en verder genuanceerd worden in sub-normen die rekening houden met tijd, genre, situatie, enz. Dit betekent dus dat wij de auteur of de taalgebruiker zien als enerzijds onderworpen aan bepaalde normen of conventies, anderzijds ervan bevrijd, omdat zovele regels optioneel zijn. Juist door deze keuzemogelijkheid is er afwijking van de norm mogelijk en kan de auteur een bepaald effect nastreven.

Is deze fluctuatie [statistisch]-significant, dan kunnen wij spreken van een stijlverschil, tenminste indien wij van een [stilistisch] representatieve norm kunnen uitgaan. Meestal ligt precies hier de grote moeilijkheid: genuanceerde frequentietellingen

waarbij o.m. rekening wordt gehouden met onderwerp, situatie [dialoog of monoloog b.v.], structuur [proza, poëzie, genres], gesproken of geschreven taal, milieu of streek van de auteur [b.v. Zuid t.o. Noord-Nederland], enz., en die de probabiliteit van diverse linguïstische objecten als fonemen, morfemen, woorden, woordgroepen en zinnen weergeven, bestaan immers vrijwel nog niet. Daarbij laten wij in het midden of deze probabiliteit of relatieve frequentie overal een even grote waarde moet toegekend worden. In elk geval zolang die tellingen er niet zijn zal het moeilijk blijven de literatuur- en stijlstudie exacter en objectiever te maken.

Samengevat betekent dit alles dat wij stijl zien als de som van de individuele opties die de auteur maakt van de lexicale, morfologische en syntactische keuzemogelijkheden in de taal. Een typerend stijlkenmerk voor een auteur sluit dan in dat een of andere optie significant afwijkt van de verwachting die wij ons op basis van de norm daaromtrent hebben gemaakt.

Wij hebben ons, wat ons onderzoek naar de taal van Ivo Michiels betreft, beperkt tot het vocabularium en vooral de evolutie van dit vocabularium gebrobeerd te capteren. Daarmee omzeilden wij de niet te onderschatten opgave een algemene norm te moeten opstellen, omdat wij bij dit onderzoek van de hypothese konden uitgaan dat indien er geen evolutie, op lexicologisch vlak, tussen de twee betrokken werken - Het Afscheid en Het boek Alfa - zou te bespeuren vallen, deze werken ook volledig homogeen zouden zijn. De norm waartegen wij mogelijke afwijkingen moesten evalueren zou dus niet hoeven ‘hét Nederlands’ te zijn.

Alvorens op dit eigenlijke onderzoek in te gaan dunkt het ons goed de rol en de betekenis van de computer bij een dergelijke onderneming te belichten en het werk te situeren in het geheel van wat ‘computational stylistics’ wordt genoemd.

Zeer algemeen zouden wij de computer kunnen voorstellen als een systeem of een geheel van

machine-onderdelen die samenwerken om materiaal automatisch te verwerken. Deze verwerking, die neerkomt op een vergelijking, optelling, aftrekking, vermenigvuldiging, en/of deling van gegevens [= data], gebeurt via een programma d.i. een aaneenschakeling van instructies die de mens aan de computer geeft.

M.a.w. zodra een tekst in een voor de machine leesbare vorm voorhanden is [b.v. op ponskaart, op ponsband, op magnetische tape, of op schijf] kunnen wij aan automering beginnen denken, die, zoals gezegd, d.m.v. een programma tot stand komt. In het besluit op het einde van ons werk [Analyse, pp. 195-196] wezen wij erop dat deze automerings-processen op grond van hun complexiteit als volgt gerangschikt kunnen worden:

a. - Het bewerken van een omvangrijk materiaal door eenvoudige classificatie. Hieronder valt b.v. het omwerken van een lopende tekst tot index of concordantie. Een index is de [meestal] alfabetische ordening van de woorden van een tekst voorzien van de plaats of plaatsen die ze in die tekst hebben. Een concordantie verschaft niet enkel vindplaatsen maar geeft ook een hoeveelheid context. Deze varieert naar gelang van het programma dat de computer instrueert. Een voorbeeld:

In de Woordindex op Mei van GorterGa naar eind6. vinden wij de woorden alfabetisch geordend met opgave van de bladzijde, de versregel en het nummer van het woord in de regel. Zo vinden wij koel aldus opgegeven:

Koel [freq. =8]

19 - 16 - 5; 33 - 30 - 5; 82 - 26 - 6;

101 - 22 - 1; 124 - 06 - 1; 155 - 07 - 2;

155 - 07 - 7; 156 - 09 - 9.

Bij een concordantie waarbij de lengte van de context zou begrensd worden door de twee meest nabije zintekens waartussen het woord staat, zouden wij verkrijgen:

19 - 16 - 5,	en laat zijn nog zijn voeten koel in dauw van wei.
33 - 30 - 6 -	en koel lag nog de wel -

82 - 26 - 6 -	een hinde gelijkend draafde ze uit een koel woud.
101 - 22 - 1	Koel is de maan, enz.

Door deze enkele voorbeelden zal het nut van indexen en concordanties wellicht duidelijk[er] geworden zijn: onderzoek naar de combinatie- en associatiemogelijkheden van een woord [zijn semantisch-stilistisch veld], naar themata, motieven en beeldspraak bij een auteur e.d. kunnen nu meer dan ooit op een betrouwbare, want exhaustieve wijze onderzocht worden. Ook andere bewerkingen ressorteren hieronder. Zo b.v. het opstellen van frequentielijsten van een tekst [hiervoor volstaat het dat de computer de woorden alfabetisch rangschikt en identieke woorden samentelt], en het vervaardigen van rijmwoordenboeken [b.v. bij een binair rijmend gedicht als Mei]. Dit alles blijven beginresultaten of werkinstrumenten m.a.w. van de onderzoeker wordt vereist dat hij de periferie van het classificeren en tellen doorbreekt om tot een diepere kennis van zijn studieobject te komen. [B.v. bij het bestuderen van affiniteits-problemen d.m.v. concordanties].

b. - Een verdere stap inzake automering is de z.g. simulatie van literaire analyse en synthese. Bij simulatie gaat het niet langer om een eenvoudige rangschikking van taaldata volgens elementaire, voor de computer direct waarneembare criteria, maar om het oplossen van taalkundige of literaire problemen aan de hand van een vooraf ontworpen model of verzameling regels [algoritmen]. Zo b.v. is het alfabetiseren van een tekst op zichzelf geen probleem, het is zoals hierboven aangeduid een gewone classificatie waarbij een numerieke hiërarchie tussen de letters wordt aanvaard [a = 1, b = 2, c = 3 enz.]. Als zodanig is zoiets vrij eenvoudig voor een computer. Komen we echter, zoals in het Arabisch, voor de moeilijkheid te staan dat in de schrijftaal de korte klinkers niet geschreven worden, dan is, vooraleer men aan automatische alfabetisatie kan denken, een grondig onderzoek

van de distributie der korte klinkers en hun combinaties noodzakelijk. Pas nadat wij over de nodige regels beschikken en de computer met deze grammatica hebben gevoed is de alfabetisatie-opdracht uitvoerbaar. In een dergelijk geval spreken wij van simulatie. De processen die wij hieronder rangschikken zullen uiteraard complexer zijn dan degene die onder punt a besproken werden.

Van de computer worden nu een groter aantal en meer ingewikkelde beslissingen vereist om de gewenste output te leveren.

Een voorbeeld van analyse vindt men in ons eigen werk waarover wij straks verder uitweiden. Wat het stimuleren van literaire synthese of m.a.w. de automatische produktie van literaire teksten aangaat, het nut van dergelijk onderzoek ligt meestal op het theoretische vlak: d.m.v. zgn. computerteksten kan men het model, het geheel van generatieve regels dat men de computer heeft gegeven, toetsen aan het taalgebruik en aldus tot een explicitering, eventuele correctie of evaluatie van die regels komen.

c. - Als derde fase onderscheiden wij de formalisering van semantische eigenschappen en relaties; hier zijn semantisch onderzoek [b.v. naar metaforisch woordgebruik], information retrieval [het opsporen en ter beschikking stellen van informatie] en content analysis, d.i. de techniek om inferenties te maken over de inhoud van een tekst steunend op objectieve tekstkarakteristieken, de voornaamste doelwitten.

Op dit domein echter heeft de computer tot op heden het minst de verwachtingen ingelost, immers hem ontbreekt de capaciteit die wij begrijpen noemen.

Hij is wel in staat woorden te tellen, te groeperen en te vergelijken maar dit impliceert niet dat hij ook de betekenis ervan vat. Zo kan de computer ons informeren over het aantal woorden, eventueel woordsoorten, dat Chomsky's zin ‘Colorless green ideas sleep furiously’ bevat, maar dat het hier om nonsens gaat, bepaalt hij er niet bij.

Ondanks die fundamentele handicap zijn er toch

zekere resultaten. Zo deed S. Sedelow onderzoekingen in deze zin o.m. i.v.m. themata en motieven in HamletGa naar eind7..

Het betreft hier een inhoudsanalyse die gebaseerd is op een thesaurussysteem: de computer speurt woorden die [volgens de thesaurus] samenhoren op, en op basis van deze groeperingen infereert hij over de inhoud van de tekst. Het onmiskenbare nadeel van deze methode is dat de associaties tussen de woorden a priori gegeven worden en niet a posteriori worden vastgesteld. Grosso modo mogen wij thans stellen dat de computer ons de litterae [de fysische of materiële structuur van het werk als een verzameling grafemen, woorden of zinnen] en de sensus [de oppervlaktestructuur of letterlijke betekenis] van het literaire werk beschrijft, doch dat de mens zelf via deze computer - informatie en na bewerking ervan de sententia [d.i. de ware zin] van het werk moet fixeren.

d. - Als laatste fase tenslotte zagen wij een permanente wisselwerking tussen computer en onderzoeker. De computer wordt een fundamenteel element in de research en wijst aan welke oplossingen het best aan de vragen voldoen.

Hij wordt dus van een nuttige werkslaaf in a, een intelligent en ideaal medewerker in d.

Voorlopig is dit echter nog verre toekomstmuziek. Zo beschouwd kunnen wij ons werk grotendeels in het tweede gebied situeren, ook al wordt vaak van eenvoudige classificaties uitgegaan [b.v. van frequentielijsten of indexen] [= eerste fase] en hebben wij ook gepoogd in het derde hoofdstuk een inhoudsanalyse te brengen [= derde fase].

Wij beperkten ons hierbij allereerst tot het vocabularium: daar immers waren reeds regels en modellen voorhanden die wij konden gebruiken.

Het stilistisch onderzoek kan pas verder verdiept worden als de grammatici ons exacte grammatica's hebben gegeven waarin de optionele regels de vrijheid van de schrijver aangeven. Pas dan zal men boven het woordniveau kunnen uitstijgen waarop onze studie zich beweegt. Verder hebben wij ons ook

gehouden aan wat formaliseerbaar en kwantitatief waarneembaar was.

Het spreekt vanzelf dat wanneer wij de problemen die wij wensen te onderzoeken kwantificeerbaar achten, zij meteen ook geschikt zijn voor computer-behandeling. Omdat wij menen dat de evolutie van een auteur, op lexicologisch vlak, althans gedeeltelijk, inderdaad in kwantitatieve, meetbare, grootheden uitdrukbaar is kozen wij als hulpmiddel een computer.

Dat die niet noodzakelijk was, spreekt vanzelf: men kan ook een telraam gebruiken i.p.v. een rekenmachine of zoals H. Brandt Corstius het formuleerde: ‘men kan ook naar Wladiwostok gaan lopen, maar meestal neemt men een voertuig’Ga naar eind8..

2. De evolutie van het vocabularium van Afscheid naar Alfa

Het onderzoek dat wij hebben verricht is zeker niet exhaustief. Allereerst betrokken wij slechts twee werken van de auteur bij de opzet. [Het ligt evenwel in onze bedoeling later nog andere werken hierbij te betrekken.]

Vervolgens bestudeerden wij enkel aspecten van de structuur en van de inhoud.

Onder structuur van een vocabularium begrepen wij het geheel van numerieke verhoudingen der frequenties onder elkaar dat men bekomt door een indeling van het vocabularium naar kwantitatieve normen van elementaire aard [zoals frequentieklasse of woordlengte b.v.] of van meer complexe aard [zoals b.v. grammaticale categorie].

Een tweede opzet was een onderzoek naar de inhoud, d.i. naar de samenstelling van de woordenschat.

Het woord werd niet langer als vorm opgenomen zoals bij het onderzoek naar de structuur maar als semantisch element, als signifié.

De basishypothese die aan het werk ten grondslag lag was: gesteld dat Michiels op lexicologisch vlak van Het Afscheid naar Het boek Alfa toe geen evolutie heeft doorgemaakt, dan zouden die aspecten

die wij willen onderzoeken homogeen over beide werken zijn verdeeld. M.a.w. er zou geen verschil zijn tussen de twee werken; of beter, als er verschil is dan zou dit enkel aan het toeval te wijten, dus niet-significant zijn. Degenen die ietwat vertrouwd zijn met statistiek weten dat het hier om de zo geheten nulhypothese gaat.

Aan deze basishypothese onderwierpen wij telkens een drietal aspecten van structuur en inhoud t.w. wij onderzochten in beide werken de omvang van het vocabularium [het aantal gebruikte woorden] en de omvang van het lexicon [d.i. de woordvoorraad of het aantal woorden die de auteur ter beschikking heeft], wij onderzochten de groei van het vocabularium en lexicon [d.i. de toename ervan b.v. per bladzijde, per hoofdstuk enz.], verder vroegen wij ons af hoe de grammaticale categorieën in beide werken waren verdeeld m.a.w. of het gebruik van een aantal grammaticale categorieën eigen was aan één enkel werk, aan één enkel auteur, of de relatieve grootte van de grammaticale klassen constant was voor elke taal afzonderlijk? Tot zover de vragen die wij ons stelden bij het onderzoek naar de structuur.

Wat de inhoud betrof: wij wilden te weten komen of het geheel van plus- en minuswoorden [dit zijn de woorden waarvan de frequentie afwijkt in positieve of negatieve zin van het gemiddelde roman-vocabulaire] dezelfde karakteristieken vertoonde in beide werken, wij spoorden de neologismen op in de twee romans en ten slotte bepaalden wij de excentriciteit d.i. de afwijkingsgraad ten aanzien van de Nederlandse basiswoordenschatGa naar eind9..

In wat nu volgt geven wij de voornaamste aspecten op in de evolutie Afscheid - Alfa die wij langs deze weg detecteerden. Bij wijze van voorbeeld gaan wij dan nader in op een van deze resultaten.

1^o - Er is een bewuste reductietendens bij de auteur aanwezig inzake vocabularium en lexicon.

2^o - Tussen de bouw van beide romans en de groei van hun vocabularium, m.m. spreiding van hun lexicon is er een onmiskenbaar verband: Alfa kent

een minder regelmatige maar verrassender structuur.

3^o - In beide werken maakt de auteur gebruik van herhalingen, in Alfa echter worden i.t.m. Het Afscheid meer woorden geconcentreerd in één bepaalde passage i.p.v. gespreid over het hele werk.

4^o - De distributie der grammaticale categorieën wijst uit dat de wijziging in opvatting omtrent zinsstructuur een significant surplus meebrengt aan voegwoorden in Alfa, aan werkwoorden in Afscheid. Daarenboven blijkt Michiels een grotere potentie te bezitten aan adjectieven in Afscheid, aan substantieven in Alfa. Het gaat hierbij om een vrije keuze van de auteur, hij verengt bewust zijn voorraad adjectieven ten gunste van substantieven.

5^o - Het boek Alfa is veel algemener en minder anekdotisch dan Het Afscheid [wat o.m. blijkt uit het meer-gebruik van de lidwoorden het en de in Alfa i.t.m. Afscheid, en het minder-gebruik van persoonsnamen in eerstgenoemd werk].

6^o - De functie van de adjectieven in Het Afscheid is specificerend [zij worden gebruikt om iets scherper te nuanceren vandaar hun concentratie bij de hapaxen], in Alfa daarentegen thematisch.

Wij geven geen verdere explicitering van al deze punten, daarvoor verwijzen wij naar onze ‘Analyse’, wel belichten wij, bij wijze van voorbeeld, het eerste punt nader.

Wil men twee of meer romans inzake uitgebreidheid van vocabularium [d.i. het aantal verschillende woorden uit de tekst of types = V] met elkaar vergelijken dan is de grote moeilijkheid meestal dat het gaat om teksten van verschillende lengte [= tokens, = N]. V is wel een functie van N maar niet zo dat er een vaste correlatie tussen die twee termen bestaat.

Wanneer wij dus vinden dat Alfa 3800 types [= verschillende woorden] bevat, en Afscheid 4641 dan zegt dit niets over de relatieve grootte van de gebruikte woordenschat: Alfa telt immers 33.489 tokens [= woorden lopende tekst], Afscheid daarentegen 42.865.

Er werd echter ontdekt dat, gegeven een tekst met lengte N en woordenschat V, en gegeven de spreiding van V over de f-klassen, het mogelijk is exact te bepalen hoe groot V' zal zijn als men N tot N' reduceert, hierbij steunden wij op de binomiale formule of de wet van NewtonGa naar eind10.. Aldus vonden wij dat Michiels indien hij voor Afscheid een tekst met dezelfde lengte als Alfa had geschreven [: een tekst van 33.489 tokens] hij niet 3800 [= Alfa] maar wel 4089 verschillende woorden zou gebruikt hebben. Er was dus een aanzienlijke inkrimping inzake gebruikte woorden merkbaar van Alfa t.o.v. Afscheid [Afscheid bevat ruim 7% meer types].

Wij vroegen ons dan ook af of ook het lexicon d.i. de potentiële woordvoorraad of anders geformuleerd de woordvoorraad die de auteur ter beschikking staat, die hij zou kunnen gebruiken, in Alfa geslonken was t.o.v. Het Afscheid. Indien dit het geval zou zijn zouden wij kunnen beweren dat het om een bewust-gewilde inkrimping ging. Immers, daar waar het vocabularium nog onder invloed van het verhaal zelf groter of kleiner kan zijn is het lexicon onafhankelijk van het verhaal: de lexicale elementen en bouwregels die een taalgebruiker ter beschikking staan nemen gewoonlijk niet af, wel integendeel, meestal zijn zij voor uitbreiding vatbaarGa naar eind11..

Via de hapaxen [d.i. woorden met f = 1] meenden wij een beeld te kunnen krijgen van het lexicon van de auteur in de twee werken. Hierbij steunden wij op de volgende overweging: in de aanvang is elk woord dat uitgesproken of neergeschreven wordt een woord met f = 1. Sommige woorden worden vrij vlug herhaald en krijgen dus een hogere frequentie. Andere blijven in de klasse f = 1. Welnu hoe groter de woordvoorraad is die een taalgebruiker ter beschikking staat, hoe meer woorden met f = 1 ook in de klasse der hapaxen blijven, m.a.w. hoe minder dikwijls hij een beroep dient te doen op door hem reeds gebruikte woorden. Op die manier konden wij gewagen van een grootheid die ons inzicht gaf in de potentiële woordvoorraad van de auteur op verschillende

tijdstippen. De verwachting was dus dat Michiels in Alfa over een groter of ten minste even groot lexicon zou beschikken als in Afscheid. In realiteit deed hij een beroep op een kleiner lexicon: voor Afscheid was het aantal hapaxen [na reductie] 2140, in Alfa 1943. Dit is een verschil van 197 types: er kan dus van een duidelijke, bewuste inkrimpings-tendens zowel van de actuele, als van de potentiële woordvoorraad van Michiels in Alfa t.o.v. Afscheid gesproken worden.

Toen Ivo Michiels achteraf in kennis gesteld werd van deze en andere resultaten schreef hij in een nawoord op ons werk o.m. het volgende [met betrekking tot een bewuste inkrimping van de woordenschat]: ‘Bewust’ op het scheppende vlak kan alleen maar betekenen: vanuit een globale creatieve opzet, d.w.z. dat ik noch tijdens het schrijven ben gaan tellen of elimineren, noch achteraf woorden ben gaan schrappen of vervangen door reeds aangewende synoniemen. De schrijver is, gelukkig maar, geen telmachine. De creatieve visie van waaruit Alfa - eerste boek van een vierdelige cyclus - werd geconcipieerd, was van meetaf een reducerende. Deze opzettelijke [zij het daarom nog niet geforceerde] reductietendens naar een ‘basic Dutch’ toe, voor een goed begrip van mijn werk en mijn evolutie zo belangrijk, is door de computer op ondubbelzinnige wijze aangetoond en zou, naar ik hoop, nog sterker aan het licht treden, mochten ook de volgende delen uit de Alfa-cyclus aan een zelfde kwantitatief onderzoek onderworpen worden’. Het is natuurlijk zo dat zelfs de meest gesofistikeerde schrijver slechts vaag weet welke zijn stijl is en vooral wat hij precies doet wanneer hij probeert die te veranderen. Dat een auteur echter een bepaald effect kan nastreven is een feit, hoe hij dit precies bereikt weet hij meestal niet. Het was in ons geval desniettemin treffend, meenden we, dat het door de auteur beoogde effect met kwantitatieve evidenties kon gestaafd, en door de computer achterhaald worden.

3. Slotbeschouwingen

Wij gaan niet voor elk resultaat afzonderlijk een gedetailleerde genese opgeven. Van meer algemeen belang achten wij echter de perspectieven die door zo'n onderzoek worden geopend. Wij menen inderdaad dat de werkwijze, de methode, die wij volgen nieuwe wegen opent voor het stijlonderzoek. Allereerst is onze stijlbenadering mathematisch-statistisch. Daar wij de statistiek als la science des écarts kunnen bestempelen, wordt stijl in deze optiek als écart par rapport à une norme begrepen. Dit is helemaal niet nieuw. P. Guiraud beweerde het reeds in 1954Ga naar eind12. en ondertussen is er door vele voor- en tegenstanders over gedebatteerd. Aanvaardt men echter deze opvatting, dan is er een grondige methodologische wijziging mogelijk in de stilistiek en wordt de computer niet een marginaal maar een basiselement bij dergelijk onderzoek.

Het is immers meestal zo dat men bij stilistisch onderzoek uitgaat van een op de tekst gebaseerde hypothese die men naderhand expliciteert en bewijst. In feite is een dergelijke werkwijze eerder tautologisch: men weet, men kent de oplossing voor zichzelf, men moet die echter bewijzen om ze ook voor anderen toegankelijk en aanvaardbaar te maken. Bij een statistisch stijlonderzoek worden de zaken in feite omgekeerd: het is niet langer noodzakelijk te vertrekken van een op de tekst gebaseerde hypothese, men kan ook een beroep doen op een ‘buitentekst’-hypothese, b.v. de zgn. nulhypothese die van de veronderstelling uitgaat dat geen andere factoren dan het toeval op het fenomeen dat men onderzoekt een rol uitoefenen. De verklaring komt dan niet meer a priori zoals bij de traditionele benadering, maar wel a posteriori.

Laten wij dit met een recent onderzoek illustreren. Onlangs onderzochten wij de distributie van nieuwe woorden in Mei van H. Gorter [verschijnt in een der volgende afleveringen van De nieuwe Taalgids]. Wij gingen daarbij niet van de tekst uit maar wel van de volgende vaststelling: de nieuwe woorden

die wij in Mei detecteerden kwamen op een paar uitzonderingen na alle met f = 1 voor. Welnu, de kans op voorkomen in een tekst van woorden met f = 1 is in tegenstelling met de woorden met f > 1, overal gelijk. Delen wij een tekst op in 10 delen, dan zal de probabiliteit van woorden met f = 10 om voor het eerst op te treden groter zijn in deel X, dan in deel X + 1, en die op haar beurt groter dan in deel X + 2, enz.

Gegeven het stijlcriterium nieuwe woorden ging het dus om volgende alternatieven:

- ofwel is hun aantal homogeen verdeeld over de hele tekst;

- ofwel is hun aantal niet homogeen verdeeld.

De vraag is dan hoe de verdeling is en waarom. Vertrekkend van deze [literair niet relevante] nulhypothese ontdekten wij dat

1. Balders' lied significant afweek van de rest van de tekst: per tekstsegment [3.000 woorden] verwachtten wij 45 nieuwe woorden, in Balders' lied [789 woorden] vonden wij er 42!

2. de distributie voor de rest de klassieke bouw van het gedicht volgde: stijgend voor Zang 1 naar Zang 2 die het hoogtepunt vormde en dalend van Zang 2 naar Zang 3.

M.a.w. dit onderzoek bracht ons tot nieuw inzicht in de werkwijze van de auteur, inzicht dat gewonnen werd vertrekkend van een statistische hypothese en verklaard door een teksthypothese. Het omgekeerde van wat bij stijlonderzoek gewoonlijk het geval is.

Om de zaken scherp te stellen moeten wij er nog het volgende aan toe voegen:

1. Het feit dat men b.v. ‘nieuwe woorden’ onderzoekt veronderstelt natuurlijk reeds een ‘stilistische’ hypothese deze nl. dat een nieuw woord, hoe dit dan ook gedefinieerd mag wordenGa naar eind13., een relevant stijlfenomeen kan zijn.

2. Het blijft echter waar dat het onderzoek niet noodzakelijk hoeft te stoelen op een uit de tekst gewonnen inzicht. M.a.w. het experiment op zich is helemaal niet zo gek als dit op het eerste gezicht

lijken mag. Columbus ‘wist’ dat de aarde rond was en daarom trok hij er op uit om Indië te bereiken en dit weten voor de andere mensen inzichtelijk te maken. Was hij zonder meer uitgevaren op ontdekkingsreis, dan zou hij wellicht evenzeer Amerika hebben ontdekt.

3. Het experimenteel onderzoek is thans echter een veel minder riskante en ‘uitzichtsloze’ onderneming omdat wij over veel betere hulpmiddelen beschikken dan vroeger. Dit geldt ook voor literair onderzoek: dank zij de computer kan een experiment snel en efficiënt uitgevoerd worden.

4. Het blijft waar dat het interpretatieprobleem daarmee niet is weggewerkt. M.a.w. de afstand tussen observatie en evaluatie blijft bestaan hoewel er o.i. toch een fundamenteel onderscheid bestaat tussen de traditionele stijlstudies en stijlstudies per computer: in het eerste geval begint men heel vaak met een conclusie die men bewijzen moet.

Computerstudies daarentegen genereren gewoonlijk deze bewijzen experimenteel zonder van een verdoorgedreven teksthypothese gebruik te moeten maken. Deze blijkt o.i. veel gemakkelijker achteraf, a posteriori uit de computerevidentie gehaald te kunnen worden.

Zo gezien openen kwantitatieve- en computer-benadering, naar onze mening, nieuwe horizonten voor het literaire onderzoek.

Willy MARTIN

eind1.: C. Dinaux, Weerklank, Heideland, Hasselt, 1965, p. 96.

eind2.: P. de Wispelaere, Het perzische tapijt, De Bezige Bij, A'dam, 1966, p. 57.

eind3.: W. Martin, Analyse van een vocabularium met behulp van een computer, AIMAV, Brussel, 1970, pp. 57-58.

eind4.: D. van Dantzig, Enkele historische betrekkingen tussen mathematische en verzamelende statistiek, in Statistica Neerlandia, 4, [1952], p. 233.

eind5.: W. Fucks en J. Lauter, Mathematische Analyse des literarischen Stils, in Mathematik und Dichtung, Nymphenburger Verlag, München, 1967², p. 107.

eind6.: R. Eeckhout en W. Martin, Woordindex op Mei van Gorter, Standaard Wetenschappelijke Uitgeverij, Antwerpen - Utrecht, 1969, 351 pp. Deze index is gebaseerd op de tekstuitgave van Garmt Stuiveling, Herman Gorter, Mei, een gedicht, Ooievaars-reeks, Den Haag-Bussum, 1965⁴, 160 pp.

eind7.: Cfr. Sally Y. Sedelow en Walter A. Sedelow jr., Stylistic Analysis in Automated language processing, ed. by Harold Borko, Wiley, New-York, 1967, p. 201 ss.

eind8.: W. Martin, Analyse....., p. 9.

eind9.: Hiervoor gebruiken wij het ‘Vocabulaire du Néerlandais de Base’ van G. Vannes (De Sikkel, Antwerpen, 1939).

eind10.: W. Martin, Analyse......, p. 38 ss. Zie ook Ch. Muller ‘Calcul des probabilités et calcul d'un vocabulaire’ in Travaux de linguistique et de littérature, Strasbourg, II, n^o 1 [1964], pp. 235-244 en E. Evrard ‘Deux programmes d'ordinateur pour l'étude quantitative du vocabulaire’ in Revue, 1967, n^o 3, pp. 81-95.

eind11.: Weliswaar gaat het hier om een situatielexicon, wat betekent dat er toch contextuele beperkingen mogelijk zijn. In een tekst van een zekere lengte [N > 25.000] achten wij de mogelijke inhoudsfluctuaties en -beperkingen van minder belang. Aldus worden de twee romans, na reductie, ook op het vlak van het lexicon vergelijkbaar.

eind12.: Cfr. Les caractères statistiques du vocabulaire, P.U.F., Paris, 1954.

eind13.: Als ‘nieuwe woorden’ beschouwden wij: niet-bestaande, hoewel misschien bestaanbare woorden uit de Nederlandse woordenschat. Als basis diende een thesaurus van 12 woordenboeken [waaronder het W.N.T.]. Van deze ‘nieuwe woorden’ zijn ‘neologismen’ onderscheiden wat al [vroeger] onbestaanbare woorden in het Nederlands zouden definiëren.

Vorige Volgende