Tijdschrift voor Nederlandse Taal- en Letterkunde. Jaargang 123

(2007)– [tijdschrift] Tijdschrift voor Nederlandse Taal- en Letterkunde– rechtenstatus

Frans Hinskens en Karina van Dalen-Oskam
Kwantitatieve benaderingen in het taal- en letterkundig onderzoek. Een ruwe schets

1 Inleidend

In deze thematische aflevering van het Tijdschrift voor Nederlandse Taal- en Letterkunde (tntl) richten we de schijnwerpers op kwantitatieve benaderingen in taal- en letterkundig onderzoek. Er zijn op zijn minst drie goede redenen om dat eens te doen. Ten eerste groeit het aandeel kwantitatief onderzoek in de taal- en letterkunde gestaag. Ten tweede zijn veel neerlandici nog niet vertrouwd met dergelijk onderzoek. In de derde plaats ontberen ook degenen die er wel vertrouwd mee zijn vaak weer het bredere overzicht over kwantitatieve benaderingen. Wij menen dat we (op bescheiden schaal) kunnen bijdragen aan de verbetering van de twee laatste punten.

Er is een duidelijk verschil tussen de taalkunde en de letterkunde in het aandeel kwantitatief onderzoek. In de letterkunde is dit type onderzoek nog beperkt, terwijl in de taalkunde de omvang en de diversiteit van de kwantitatieve benaderingen aanzienlijk groter zijn. Dit heeft tot gevolg dat de taalkunde in de onderstaande schets vaker en uitgebreider aan de orde komt dan de letterkunde. In het belichten van het kwantitatieve onderzoek uit beide gebieden zullen wij op een aantal punten wijzen op de bestaande en op de mogelijk nader te verkennen dwarsverbanden in de taalkunde en de letterkunde.

Om het bredere overzicht te vergemakkelijken, willen wij in deze inleiding enkele zaken toelichten, op een rijtje zetten en met elkaar in verband brengen.Ga naar voetnoot1 We beginnen met de centrale begrippen.

2 Enkele sleutelbegrippen

Onder letterkunde verstaan wij kort geformuleerd de studie van literaire teksten. Voor de oudere perioden van de Nederlandse letterkunde worden hier ook teksten toe gerekend die vanuit modern gezichtspunt niet literair genoemd worden, maar wel representanten zijn van de contemporaine cultuur (bijvoorbeeld middeleeuwse teksten over religieuze onderwerpen). Binnen de letterkunde zijn vele deeldisciplines te onderscheiden, waarvan wij er hier een aantal zullen noemen. Analyse van verhalende teksten gaat onder andere over vertelsituatie, perspectief, stilistische variatie, tijdpresentatie, motieven, ruimte en personages. Analyse van lyriek betreft zaken als metrum, klankherhaling en strofische vormen, stijlfiguren

en beeldspraak (vgl. voor deze onderverdelingen Van Boven en Dorleijn 2003). Dan zijn er ook nog aangrenzende disciplines, waarvan we willen noemen het receptie-onderzoek, onderzoek naar de productie-kant van literair werk (de rol van uitgevers bijvoorbeeld), onderzoek naar hoe de canon in verschillende perioden tot stand is gekomen en naar het proces van canonvorming in het algemeen, en boekhistorisch onderzoek. Al deze disciplines kennen hun eigenheden, maar overlappen ook gedeeltelijk in hun object van onderzoek. Overeenkomstig is dat ze alle het literaire werk in een bredere (culturele) context willen plaatsen. Het meeste onderzoek is beschrijvend georiënteerd.

Onder taalkunde of taalwetenschap verstaan wij, grof gezegd, het wetenschappelijk onderzoek van taal, meer in het bijzonder van taalsysteem en taalgebruik. Onder taalsysteem ressorteren, behalve het onderzoek van de woordenschat, deeldisciplines als

-	de fonologie, die zich bezighoudt met de organisatie van spraakklanken, zowel intern als in grotere eenheden als lettergreep, voet, woord en frase,
-	de morfologie, die zich bezighoudt met de grammatica op het niveau van het woord, zowel inherent (bijv. het grammaticaal geslacht van zelfstandige naamwoorden) als combinatorisch (afleiding, samenstelling en buiging),
-	de syntaxis, die zich bezighoudt met aspecten van de volgorde van woorden en woordgroepen in clause- en zinsverband,
-	de semantiek, die zich bezighoudt met betekenis op de verschillende niveaus van taaluitingen.

Veel van het onderzoek in deze onderdelen is theoretisch georiënteerd. Onderdelen van de opgesomde componenten van een taalsysteem kunnen zowel in de huidige als in enigerlei (gedocumenteerde of gereconstrueerde) historische toestand onder de loep genomen worden. In beide gevallen spreekt men van synchroon onderzoek, in het tweede geval van historisch taalkundig onderzoek. Daarnaast is er historisch taalkundig onderzoek dat zich richt op historische ontwikkelingen, dat wil zeggen op het complex van historische processen dat verschillende historische toestanden verbindt; dit is diachroon onderzoek.

Onder taalgebruik ressorteren deeldisciplines als

-	het onderzoek van eerste en tweede taalverwerving,
-	de psycholinguïstiek, die zich bezig houdt met cognitieve en andere psychologische aspecten van kennis en gebruik (actief en passief) van taal,
-	de patholinguïstiek, die zich richt op onder meer taalontwikkelingsstoornissen (die de eerste taalverwerving gedeeltelijk belemmeren), doofheid, slechthorendheid en gebarentaal, alsmede afasie (een verzamelnaam voor specifieke taalstoornissen in het individu die een gevolg zijn van de uitval van bepaalde gebieden in en functies van de hersenen),
-	de sociolinguïstiek, die zich bezig houdt met taalgebruik, en daarbij vooral betekenisloze verschillen (‘variatie’) in taalgebruik, in samenhang met sociale structuren (bijv. sociaal-economische klassen, sociale netwerken en culturele oftewel etnische groepen) en processen (zoals sociale mobiliteit, integratie en uitsluiting).Ga naar voetnoot2 Taalvariatie kan ook een gevolg zijn van langdurig en intensief contact met een andere taal (‘taalcontact’). Taalvariatie blijkt vaak een synchro-

ne momentopname te zijn van wat zich diachroon manifesteert als een proces van taalverandering; er is zodoende een nauw verband tussen het sociolinguïstische onderzoek van taalvariatie en de historische taalkunde.

De beide bovenstaande schetsjes maken geen enkele aanspraak op volledigheid - evenmin, overigens, als het in dit themanummer gepresenteerde overzicht van kwantitatief onderzoek, waarop we in paragraaf 5 hieronder nader ingaan.

Onder kwantitatief onderzoek, tenslotte, verstaan wij onderzoek waarbij tellen en het verder (veelal statistisch) bewerken van de daaruit resulterende getallen een belangrijke rol speelt. Aan taalsysteem, taalgebruik en daarmee dus aan taaluitingen, inclusief letterkundige werken, zit veel telbaars; wat de letterkunde betreft denke men bijvoorbeeld aan metaforengebruik, synoniemengebruik en de inzet van dialoog in een literaire tekst. De omvang en verscheidenheid van de woordenschat is ook voor de taalkunde van belang; in de toegepaste taalkunde, bijvoorbeeld, werkt men in dit verband met maten ter bepaling van onder meer de na te streven ‘basiswoordenschat’ voor tweede taalleerders (zie bijvoorbeeld Schils & Reelick 1985; van Hout & Kerkhoff 1985). Niet alles wat telbaar is is wetenschappelijk gezien interessant en, omgekeerd, niet alles wat interessant is is zonder meer telbaar. Maar een goed deel van de verschillende telbare onderdelen van taalsystemen, taalgebruik en, in die laatste samenhang, letterkundige werken bergt mogelijkheden in zich voor onderzoek dat in hoge mate relevant kan zijn voor onder meer theorieën over allerlei aspecten van de productie en verwerking van spraak, over de organisatie van en de samenwerking tussen verschillende componenten van een taalsysteem, over taalkundige overeenkomsten en verschillen tussen diverse teksttypen of talen, over de wijzen waarop talen kunnen veranderen en de talige en buitentalige krachten die daarbij een rol kunnen spelen, etc., en ook voor een diepgaander inzicht in de stijl van literaire werken, de eigenheden van bepaalde auteurs, genres, werken uit bepaalde tijdperioden, het belang van individuele stilistische aspecten zoals zinslengte, namengebruik, meer inzicht in de narratieve structuur en thematiek (dus de inhoud), met name door het contrasteren van verschillende werken en auteurs.

3 Kwantitatieve benaderingen in het algemeen en in de geesteswetenschappen in het bijzonder

Enkele van de centrale vragen in verband met kwantitatief onderzoek zijn:

a)	Wat wordt er geteld? Met andere woorden wat is de eenheid van kwantificatie? Veelal gaat het om iets variabels, zoals de ‘rode’ (... dat hij een som heeft gemaakt) versus ‘groene’ volgorde in de werkwoordelijke eindgroep in een ingebedde zin (... dat hij een som gemaakt heeft), de metaforendichtheid in een tekst of delen van een tekst, etc.
b)	Waartoe wordt er geteld? Ten behoeve van het verkennen van het object van onderzoek, om zodoende misschien tot theorievorming te komen? Of ten behoeve van het toetsen van een bestaande theorie?
c)	Wat wordt er vervolgens met de cijfers gedaan? Worden er statistische analyses op uitgevoerd? Er is, behalve beschrijvende statistiek (frequenties, typen gemiddelden, standaardafwijking, de range en vergelijkbare maten van een verde-

ling), verkennende en toetsende statistiek. Een voorbeeld van verkennende statistiek is de zogenaamde correspondentie-analyse, vooral bekend uit het werk van de Franse socioloog Pierre Bourdieu (1979); ook de principale componentenanalyse en de daaraan nauw verwante factoranalyse en de clusteranalyse moeten onder dit kopje geschaard worden. Het gaat hierbij om technieken die samenhangen tussen (veelal variabele) grootheden helpen opsporen. Toetsende statistiek, als onderdeel van de inferentiële statistiek, is vaak aan de orde in onderzoek waarin hypotheses worden getoetst die zijn afgeleid van een theorie; daarbij gaat het dan vaak over de beduidendheid (significantie) van verschillen en dus om effecten, zoals bijvoorbeeld: welke taalleermethode is effectiever? Of: is de Poldernederlandse uitspraak van /Ei/ als [ai] gevoelig voor het etymologische onderscheid tussen <ei> en <ij>? Deze effecten kunnen als zodanig onderzocht worden of als onderdeel van multivariate analyses met behulp van bijvoorbeeld variantie- en regressie-analyse.

Wat deze laatste terminologie betreft: gaat het bij univariate analyses om de cijfermatige verdeling van een enkele grootheid (bijvoorbeeld de proportie enkelvoudige en complexe zinnen in een tekst), bivariate analyses brengen twee verschillende variabele grootheden met elkaar in verband (de proportie enkelvoudige en complexe zinnen in schriftelijk en mondeling taalgebruik), terwijl multivariate analyses betrekking hebben op meerdere variabelen die met elkaar in verband lijken te staan (de proportie enkelvoudige en complexe zinnen in schriftelijk en mondeling taalgebruik gericht tot volwassenen dan wel tot kinderen).

Onafhankelijk van deze diverse verfijningen kan vastgesteld worden dat kwantitatieve benaderingen altijd slechts een middel zijn, een onderdeel van de werkwijze om het onderzoeksobject nader te verkennen of om een bepaalde onderzoeksvraag te beantwoorden.

Kwantitatief onderzoek wordt wel eens tegenover kwalitatief onderzoek geplaatst, waarschijnlijk in een algemene neiging tot het aanbrengen van analytische indelingen. Vaak wordt aan een dergelijk onderscheid de opvatting ten grondslag gelegd, dat sommige verschijnselen zich niet laten kwantificeren. Zo vormen de grammaticale klassen grootheden die, volgens de gangbare opvattingen, gewoonlijk - althans synchroon - geen gradualiteit toelaten; iets is een werkwoord of niet. Op een vergelijkbare manier worden letterkundige categorieën van allerlei aard (genres, stromingen, poëtica's en dergelijke) beschouwd als niet kwantificeerbare grootheden. Deze opvatting berust op twee misverstanden: ten eerste verdenkt men sommige kwantitatieve onderzoekers er blijkbaar van, dat ze ‘alles willen meten’. Ten tweede zijn ook feiten op dit niveau wel degelijk meetbaar - inderdaad op het niveau van: iets is een werkwoord (een waarneming die men zou kunnen beschrijven als x=1) of niet (y=0, waarbij ‘x’ en ‘y’ voor bepaalde afzonderlijke woorden staan en ‘1’ respectievelijk ‘0’ voor de status van de betreffende woorden als werkwoord of niet - of voor de vraag of een bepaald gedicht al dan niet een sonnet is). Dit alles in het verlengde van a) hierboven.

Voor bepaalde taal- respectievelijk letterkundige onderzoeksvragen kan een dergelijke benadering relevant en nuttig zijn, maar voor andere vragen weer helemaal niet. Voor taalkundig onderzoek kan het van belang zijn of een woord als werk of fiets in een gegeven zin of uiting fungeert als werkwoord (eerste persoon enkelvoud of - met inversie - tweede persoon enkelvoud tegenwoordige tijd indi-

catief of een imperatief) dan wel als zelfstandig naamwoord. Ook voor bijvoorbeeld taalkundig onderzoek van grammaticalisatieGa naar voetnoot3 kan een dergelijke kwantitatieve benadering interessant zijn. Eddington (2002) argumenteert dat het in een kwantitatieve vorm gieten van een onderzoeksvraag de onderzoeker er vaak toe dwingt, een veelheid aan relevante feiten te bestuderen, hetgeen de betrouwbaarheid van de analyses ten goede kan komen. Specifiek voor taalkundig onderzoek is Eddingtons argument dat kwantitatieve methodes beter recht kunnen doen aan feitelijk taalgebruik. Dit alles in het verlengde van b) hierboven.

In het algemeen kan men in de wetenschappen, en zeker in de geesteswetenschappen, een onderscheid maken tussen idiografische en nomothetische benaderingen, begrippen die door Van den Toorn (1978: 104) worden ‘vertaald’ als respectievelijk het eigene beschrijvend en wetten-stellend. Idiografische benaderingen richten zich op vragen als: wat maakt x (waarbij ‘x’ kan staan voor bijvoorbeeld een bepaalde literair werk, een bepaalde historische gebeurtenis, maar ook voor bijvoorbeeld het complex van historische klankveranderingen in het Nederlands dat bekend staat als de Hollandse Expansie) uniek en hoe is het verbonden met bredere tendensen, stromingen, historische toevalligheden en dergelijke. De nomothetische benadering is daarentegen gericht op het blootleggen, beschrijven en verklaren van algemene wetmatigheden in herhaalbare verschijnselen. De idiografische benadering is relatief sterk vertegenwoordigd in het letterkundig onderzoek, al is ze zeker ook vertegenwoordigd in de taalkunde. Zo pleit Fischer voor onderzoek van historische taalverandering ‘vanuit de data van de afzonderlijke talen, waarin taalspecifieke, contextgevoelige, pragmatische en “taalcontact”-factoren een grote rol spelen, naast culturele en antropologische factoren’ (Fischer 2004: 137), met andere woorden voor onderzoek dat recht doet aan de eenmalige constellatie van factoren die gezamenlijk een rol gespeeld hebben in specifieke processen van taalverandering.

Kwantitatieve methodes lijken beter te rijmen met de nomothetische benadering, onder meer omdat veel herhaalbare verschijnselen (zoals bijvoorbeeld de uitspraak van de standaardnederlandse tweeklanken /ɛi/, /oey/ en /αu/) in beginsel niet uitputtend onderzocht kunnen worden, waardoor men zich zal moeten beperken tot een steekproef ervan. Ook uitspraken die in principe moeten gelden voor alle leden van een taalgemeenschap laten zich om praktische redenen meestal niet uitputtend onderzoeken, wat onderzoekers dwingt zich te beperken tot een steekproef van de sprekers. Om de uitkomsten van dergelijk onderzoek in elk geval voorwaardelijk te kunnen generaliseren zijn er, behalve bepaalde methodologische voorzorgsmaatregelen, geëigende inferentiële statistische bewerkingen nodig. Ook idiografisch onderzoek kan zeer wel gebaat zijn bij kwantitatieve benaderingen, zoals een statistische verkenning of beschrijving van het object van onderzoek. Van Dalen-Oskams bijdrage over het kwantificeren van stijl in deze aflevering laat hier een voorbeeld van zien.

Een andere en even gangbare tweedeling van wetenschappelijke benaderingen, een tweedeling die deels in verband staat met die tussen idiografisch en nomothetisch, heeft betrekking op de lijn van de argumentatie en wordt vaak aangeduid als

inductief versus deductief (oftewel deductief-nomologisch). In de eerste benadering tracht men door de systematische observatie van feiten tot meer algemene uitspraken (zoals wetmatigheden of universalia) te komen; voorbeelden hiervan zijn de Wet van Grimm en, voor de schijnbare uitzonderingen daarop, de Wet van Verner uit de historische taalkunde van de Continentaal Westgermaanse tak van de Germaanse taalfamilie. Een ander voorbeeld (vrij naar Van den Toorn 1978: 128) is de door taalkundigen gehanteerde ‘commutatieproef’, waarbij men elementen uit een syntagma, bijvoorbeeld de individuele spraakklanken in een lettergreep, paradigmatisch uitwisselt om een beeld te krijgen van structurele mogelijkheden van en beperkingen op - in dit geval - de bouw van lettergrepen in een bepaalde taal. In de tweede benadering worden waarnemingen uit algemene wetmatigheden verklaard; zo kan bijvoorbeeld epenthese (meld, maar mel[ə]k, raak-raker, maar raar-raarder en dergelijke) verklaard worden uit de structuur van de lettergreep. Daarmee in nauw verband staat de methode die eruit bestaat dat men van een theorie een toetsbare uitspraak (een hypothese, een door de theorie veronderstelde wetmatigheid) afleidt, die vervolgens aan relevante feiten getoetst wordt; het resultaat van de toetsing kan eventueel leiden tot bijstelling van de theorie. Het zal duidelijk zijn dat er een dialectisch verband bestaat tussen de inductieve en de deductieve benadering.

De strenge opvatting binnen de deductieve benadering luidt dat elke waarneming die niet in overeenstemming te brengen is met de hypothese moet leiden tot de verwerping ervan en daarmee tot revisie van de theorie. Voor feiten die niet slechts één enkele oorzaak hebben (zoals bijvoorbeeld geldt voor het weer en ook voor processen van taalverandering) zou deze methode echter niet adequaat zijn; voor het toetsen van theorieën over dergelijke ‘multicausale’ verschijnselen worden gewoonlijk probabilistische methodes gehanteerd. Daarbij neemt men in het algemeen genoegen met vaststellingen als: de waarschijnlijkheid dat bevinding A niet in overeenstemming is met theorie B (maar bijvoorbeeld met het toeval of met de opvatting uit theorie C) is hoogstens 5 procent.Ga naar voetnoot4 Voor multicausale verschijnselen kan onder voorwaarden met behulp van bepaalde statistische bewerkingen ook het relatieve gewicht van meerdere ‘beïnvloedende’ grootheden geschat worden. Onderzoek dat met dergelijke methodes wordt uitgevoerd is kwantitatief van aard, daar een grotere hoeveelheid waarnemingen van relevante feiten vereist is, waarnemingen die vaak onder systematisch gevarieerde condities zijn verkregen, soms experimenteel. Dit alles in het verlengde van c) hierboven.

Waar komen die waarnemingen in het kwantitatieve taal- en letterkundig onderzoek zoal vandaan? Er zijn globaal drie soorten ‘bronnen’ te onderscheiden:

1.	veldwerk, dat vaak resulteert in gesproken (en sedert de techniek dit mogelijk maakt meestal opgenomen) materiaal;
2.	corpora van geschreven of gesproken taalgebruik (verzameld uit bijvoorbeeld kranten of literaire werken respectievelijk radio- of tv-opnames. Gesproken taalgebruik is daarbij meestal in getranscribeerde of getranslittereerde vorm gerepresenteerd);

3.	experimenten. Ook hierbij gaat het in het algemeen eerder om gesproken dan om geschreven data, maar vaak gaat het om niet-talige data, zoals bijvoorbeeld reactietijden of oogbewegingen in veel psycholinguïstisch onderzoek.

In het letterkundig onderzoek gaat het (men zou haast zeggen per definitie) vrijwel uitsluitend om geschreven data. Veel historisch taalkundig onderzoek is aangewezen op uitsluitend schriftelijk overgeleverd materiaal, waarvan men vaak niet helemaal weet voor welke periode, welke regio en welke geleding in de samenleving het representatief is. In de praktijk van veel modern dialectologisch en sociolinguïstisch onderzoek lopen veldwerk en experimenten in zoverre door elkaar dat de materiaalverzameling ter plekke soms geheel of gedeeltelijk langs min of meer experimentele lijnen loopt, om te garanderen dat voor elke taalvariëteit of spreker een zekere minimumhoeveelheid vergelijkbare feiten verzameld worden. Daarnaast is er in de beide subdisciplines een (zich vernieuwende) traditie van het centraal verzamelen van geschreven materiaal met behulp van bijvoorbeeld schriftelijke vragenlijsten, die op papier of elektronisch worden verspreid onder de ‘respondenten’.

Data uit verschillende bronnen kunnen in meerdere opzichten van elkaar verschillen. Zo hebben krantenteksten in verschillende opzichten andere algemene karakteristieken dan bijvoorbeeld experimenteel verzamelde gegevens in verband met woordherkenning. Sommige van die karakteristieken van data en hun bronnen hebben gevolgen voor de veronderstellingen die vaak ten grondslag liggen aan de wiskundige bewerkingen die deel uitmaken van statistische analyses. Daarom zijn er tussen verschillende typen van bronnen en data verschillen in de statistische analyses en in de typen van toetsbare theorieën die relevant kunnen zijn.

4 Enkele relevante ontwikkelingen in de afgelopen decennia

De eerder gesignaleerde groei van het aandeel kwantitatieve methodes in het taal- en letterkundig onderzoek heeft een serie van oorzaken (en zou zich daardoor in beginsel zelf lenen voor multivariaat onderzoek). Daartoe behoren de snelgegroeide inhoudelijke differentiatie en arbeidsdeling in beide vakken, de - voor een deel daarmee samenhangende - toenemende interdisciplinariteit en de opkomst van de computer.

Een schoolvoorbeeld van inhoudelijke differentiatie en arbeidsdeling in de taalkunde is de ontwikkeling van de sociolinguïstiek, naast de oudere dialectologie en de historische taalkunde. Spreken van historische taalkunde zou tot het begin van de vorige eeuw overigens bevreemding gewekt hebben, want er was vrijwel uitsluitend historisch taalkundig onderzoek - zowel van synchrone als van diachrone aard. De inhoudelijke verfijning heeft in dit domein geleid tot de ontwikkeling van nieuwe subdisciplines met eigen methodes en vooral in bepaalde onderdelen van de sociolinguïstiek spelen in dat opzicht kwantitatieve benaderingen een grote rol.

De toenemende interdisciplinariteit brengt taal- en letterkundigen in contact met vertegenwoordigers van andere vakgebieden. Voor letterkundigen zijn dat vooral historici, theologen en andere geesteswetenschappers; in de praktijk bevinden ook taalkundigen zich voor hen in een andere discipline en zijn taalkundigen helaas pas in tweede instantie, na de al genoemden, interessant voor letterkundigen. Voor de

taalkundigen op hun beurt liggen die contacten niet zelden buiten de geesteswetenschappen. Het betreft bijvoorbeeld de sociologie,Ga naar voetnoot5 de psychologie en de sociale geografie, en bepaalde deelgebieden van de natuurkunde (zoals in het geval van de fonetiek). In die vakgebieden, die zich gaandeweg soms tot zusterdisciplines ontwikkelen, spelen kwantitatieve benaderingen niet zelden een rol van betekenis.

De opkomst van de computer en in dat verband vooral van de microchip, die goedkope massaproductie van steeds krachtiger computers mogelijk heeft gemaakt, heeft ertoe geleid dat het digitaal opslaan en automatisch doorzoeken van grote gegevensbestanden tegenwoordig tamelijk eenvoudig zijn. De gegevensbestanden of distillaten daarvan laten zich met computerprogrammatuur die ook hoe langer hoe verfijnder, krachtiger en sneller wordt diepgaand kwantitatief en statistisch onderzoeken. Veelgebruikte pakketten daartoe zijn Goldvarb (vooral populair onder Amerikaanse sociolinguïsten en summier besproken in de bijdrage van Van Hout & van Kemenade), sas en spss; de beide laatste zijn alleen onder (een betrekkelijk dure) licentie te krijgen. Sterk in opkomst is R. R is een programmeertaal, en in R is ook programmatuur voor statistische analyse geschreven die links en rechts op internet te vinden is.Ga naar voetnoot6 De snelle opkomst en verbreiding van de digitale communicatietechnologie, met name het internet, maakt de uitwisseling van gegevensbestanden bovendien steeds gemakkelijker.

5 Wat er wel en niet in deze bundel staat

Dit themanummer bevat verhandelingen over kwantitatief onderzoek in de taal- en letterkunde, inclusief de neerlandistische. Door de groei van het aandeel kwantitatief onderzoek in verschillende deelgebieden van de taal- en letterkundeGa naar voetnoot7 zagen wij ons gedwongen keuzes te maken. Als gevolg hiervan zijn bepaalde deelgebieden niet vertegenwoordigd in een afzonderlijke bijdrage; dat betekent niet noodzakelijkerwijs dat wij van mening zijn dat het kwantitatief onderzoek in de deelgebieden in kwestie niet vermeldenswaardig zou zijn. Wij hebben ons vooral gericht op die deelgebieden die voorop lopen of gelopen hebben in de kwantitatieve wending, maar voor enkele deelgebieden bleek het onmogelijk om in de gegeven tijd ter zake kundige auteurs bereid te vinden volgens een door ons voorgeschreven stramien een bijdrage te schrijven. In twee gevallen was die bijdrage toegezegd maar konden zij door onvoorziene onfortuinlijke ontwikkelingen in het leven van de (hoofd-)auteur niet tijdig geschreven worden.

De auteurs is gevraagd om voor de subdiscipline waarin zij werkzaam zijn de

ontwikkeling en gang van zaken van het kwantitatieve onderzoek uiteen te zetten respectievelijk te demonstreren. Ten behoeve van de onderlinge vergelijkbaarheid hebben de bijdragen een vergelijkbare opbouw. Na een korte inleiding volgt een schets van de stand van zaken in het kwantitatief onderzoek in de betreffende deeldiscipline(s); dit deel bevat een bescheiden literatuursurvey. Daarna wordt een relevante studie in meer detail gepresenteerd. Hiermee wordt gedemonstreerd welke rol de betreffende kwantitatieve benadering speelt in de argumentatie, welke kwantitatieve benadering gehanteerd wordt voor welk type data en hoe. Het betreft in alle gevallen recent onderzoek waarbij de auteur(s) zelf actief betrokken was/waren. Vervolgens worden enkele wensen en mogelijkheden voor verder onderzoek besproken. Tot slot volgt een uitgebreide bibliografie.

Het themanummer is bedoeld voor collega-wetenschappers en gevorderde studenten in de binnen- en buitenlandse Neerlandistiek en aanpalende gebieden.

5.1 Taalkunde

Wat de taalkunde betreft bevat dit themanummer geen bijdragen over onder meer de kwantitatieve taalkunde, de lexicostatistiek, al dan niet in samenhang met het taalkundige stijlonderzoek, de fonetiek en de corpustaalkunde, hoewel in deze deeldisciplines kwantitatieve methodes een voorname rol spelen.

De kwantitatieve taalkunde is een (theoretisch misschien wat bloedarmoedige) tak van de taalkunde die zich bezig houdt met de frequentieverdelingen van taalkundige elementen en structuren. De resultaten kunnen dienstbaar gemaakt worden aan het onderzoek van algemene principes die ten grondslag liggen aan het gebruik van klanken, woorden etc., maar ook aan het onderzoek van bijvoorbeeld de relatieve functionele belasting van fonemenGa naar voetnoot8 en de eventuele stilistische specialisatie van bepaalde elementen of structuren (vergelijk Crystal 2003: 383). De bevindingen van kwantitatief onderzoek in verband met de vraag in hoeverre bepaalde morfemen of alternanties productief zijn kunnen van nut zijn voor morfologisch of fonologisch onderzoek. Kennis van aspecten van de frequentieverdeling in het gebruik van bepaalde taalkundige elementen in een bepaalde taalgemeenschap kan ook dienen als ijkpunt voor het vaststellen van eventuele individuele (idiosyncratische) eigenaardigheden; daarmee kunnen de vruchten van kwantitatief taalkundig werk van belang zijn voor auteursherkenning.

Lexicostatistiek is de naam voor een verzameling van kwantitatieve technieken die wel gehanteerd worden ten behoeve van onder meer de (niet onomstreden) glottochronologie. In de glottochronologie tracht men op basis van de vergelijking van de snelheid van de veranderingen in een specifieke verzameling woordenGa naar voetnoot9 hypotheses op te stellen of te toetsen over de (meestal prehistorische) periode wanneer verwante talen uiteen begonnen te groeien. Lexicostatistische technieken worden ook wel gebruikt in synchroon onderzoek, bijvoorbeeld om de onderlinge verstaanbaarheid van bepaalde talen te schatten (vergelijk onder meer Crystal 2003: 204, 268). De fonetiek houdt zich voornamelijk bezig met ‘de uiterlijk waar-

neembare kant van de taaltekens’ (Rietveld & Van Heuven 1997: 2) en in dat verband met fysische aspecten van spraak, dat wil zeggen van mondeling taalgebruik. De hoofdonderdelen van de fonetiek betreffen de productie van spraak (het object van de articulatorische fonetiek), eigenschappen van het geluidssignaal (de akoestische fonetiek) en de waarneming en verwerking van spraak (de auditorische fonetiek). Vooral in die eerste samenhang zijn er connecties met de sociolinguïstiek, aangezien de uitspraak een belangrijke bron van taalvariatie is; vooral in de laatste samenhang zijn er connecties met het psycholinguïstische onderzoek van perceptie en verwerking van ‘binnenkomend’ taalmateriaal. In alle drie genoemde onderdelen van de fonetiek neemt experimenteel onderzoek een grote plaats in - en experimenteel onderzoek is vrijwel zonder uitzondering kwantitatief georiënteerd.

De corpustaalkunde is - dat zal niemand verrassen - een tak van de taalkunde waarin het onderzoek van corpora centraal staat. Het gaat daarbij altijd om corpora van wat men wel eens ‘echte teksten’ noemt, dat wil zeggen teksten die niet voor taalkundig onderzoek bedoeld waren. Een essentieel onderdeel van veel corpuslinguïstisch werk is het taggen van woorden (voor woordklasse en soms syntactische functie), een procedure die tegenwoordig voor moderne corpora grotendeels geautomatiseerd is. Het doel van corpuslinguïstisch onderzoek is meestal óf een taalkundige beschrijving (meer in het bijzonder het ontdekken en beschrijven van de meer of minder abstracte regels die ten grondslag liggen aan delen van een grammatica) óf het toetsen van specifieke hypotheses. Een centrale vraag in verband met corpuslinguïstisch onderzoek betreft de generaliseerbaarheid van de bevindingen; een corpus - hoe groot ook - is namelijk altijd eindig, terwijl een levende taal een oneindige hoeveelheid verschillende uitingen mogelijk maakt. In deze samenhang moet een onderscheid gemaakt worden tussen het onderzoek van corpora over historische taalfasen en dat van de moderne toestand van een levende taal. Historische corpora zijn na verloop van tijd gesloten (compleet), die van de moderne situatie is in beginsel uitbreidbaar. Grote corpora worden gebruikt in onder meer de lexicografie, de spraakherkenning en de automatische vertaling. Ook spelen ze een rol in die takken van de computationele taalkunde die zich bezig houden met het maken van concordanties en spraaksynthese en in gebieden waar statistische berekeningen nodig of nuttig kunnen zijn, zoals het onderzoek van literaire werken (vergelijk Wikipedia, trefwoord ‘corpus linguistics’, januari 2006; Crystal 2003: 93, 112). Bolasco et al. (2006) combineren werkwijzen en inzichten uit de discourse analyse met de toepassing van lexicostatistische methodes op uitkomsten van data mining, uitgevoerd op een breed opgezet corpus van toespraken van Silvio Berlusconi, premier van Italië van 1994 tot 2006. Hierbij richten zij zich onder meer op bepaalde sleutelbegrippen, maar ook op de hantering van persoonlijke voornaamwoorden en werkwoordstijden en illustreren daarmee door Berlusconi ingezette veranderingen in de cultuur van de politieke omgangsvormen.

Evenmin vertegenwoordigd in deze bundel is een betrekkelijk jonge benadering in fonologie, morfologie en syntaxis die door de representanten ervan wordt aangeduid als exemplar-based of usage-based modellen en ook wel als cognitive grammar. Deze modellen zijn geïnspireerd door het connectionisme, een stroming in de cognitiewetenschap die mentale of gedragsfenomenen tracht te verklaren als een emergent process van een netwerk van onderling verbonden eenheden, in casu

van het brein. De aanduiding emergent process wordt gehanteerd in verband met het ontstaan van samenhangende patronen en structuren (zoals in taal) en/of eigenschappen tijdens het proces van zelforganisatie van een complex systeem.Ga naar voetnoot10 In deze benadering, die in de taalkunde theoretisch onderbouwd is door onder meer Bybee (2001), worden regelmatigheden van allerlei typen evenals processen van taalverandering langs kwantitatieve lijnen verantwoord op basis van distributionele en gebruiksfrequenties, oftewel type- en tokenfrequenties. Zo onderzochten Ernestus & Baayen (2003) de stemloos- dan wel stemhebbendheid van obstruenten aan het eind van Nederlandse werkwoordsstammen in samenhang met distributionele frequenties; zij kwamen op het spoor van subregelmatigheden die taalgebruikers in staat blijken te stellen, de stemspecificatie van (in het Nederlands in deze positie automatisch geneutraliseerde) obstruenten ook in nonsensewoorden te voorspellen op basis van fonologisch vergelijkbare morfemen (de ‘exemplaren’). Dit type benadering vindt ook in taalverwervingsonderzoek (bijvoorbeeld in Nardy & Barbu 2006) veel weerklank.

Taalkundige disciplines die wél vertegenwoordigd zijn in dit themanummer zijn de psycholinguïstiek, de sociolinguïstiek en - in samenhang daarmee - de historische taalkunde en, tenslotte, de dialectologie, in het bijzonder de dialectometrie.

Een belangrijke versnelling in de ontwikkeling van de psycholinguïstiek vormde de zogenoemde correspondentiehypothese (die niets te maken heeft met de eerder genoemde correspondentie-analyse), de opvatting dat de verwerkingstijd van zinnen evenredig oploopt met het aantal syntactische transformaties dat eraan te pas is gekomen, een aanname die was ingegeven door de aanspraak op ‘psychologische realiteit’ die gemaakt werd door de jonge generatieve syntaxis. Het psycholinguïstische onderzoek, in Nederland in de eerste plaats vertegenwoordigd in het Nijmeegse Max Planck Instituut voor Psycholinguïstiek van Pim Levelt, onder wiens leiding veel pionierswerk is verricht, is van meet af aan kwantitatief geweest; de gegevens waarop de kwantitatieve analyses worden uitgevoerd zijn veelal afkomstig uit experimenten. Vonk & Cozijn schetsen in hun bijdrage over de psycholinguïstiek enkele belangrijke thema's en technieken van onderzoek, waarna ze eigen onderzoek presenteren naar de toekenning van antecedenten aan anaforische pronomina - als in Jan won van Piet met schaken omdat hij jong was. Hierbij worden alle stappen in de methode gedetailleerd uit- en toegelicht.

Ook voor de ontwikkeling van de sociolinguïstiek vormden onderdelen van de generatieve theorievorming van de jaren '60 van de vorige eeuw een vliegwiel. In dit geval was het de homogeniteitsaanname, dat wil zeggen de aanname van een prototypische ideale spreker / hoorder, wiens taalgedrag niet werd doorkruist door dialectvariatie, stijlvariatie, geheugenbeperkingen, uitspraakfouten en dergelijke. Deze aanname was geen geloofsartikel van de Chomskyanen, maar eerder een methodologische kunstgreep, bedoeld om vat te krijgen op een beweeglijk object. Labov cum suis ageerden tegen de opvatting dat variatie perifeer zou zijn aan taalsystemen of aan de taalcompetentie van het individu en slechts een epifeno-

meen van het taalgebruik (‘performance’); uit veel sociolinguïstisch onderzoek komt naar voren dat variatie niet alleen gestructureerd is, maar tevens een integraal onderdeel en daarmee een wezenskenmerk van taalsystemen. Op zijn laatst vanaf de ontwikkeling van het (Europese en Amerikaanse) structuralisme in de taalkunde, dus vanaf de eerste decennia van de twintigste eeuw, zochten taalkundigen naar de regelmaat in de distributie van specifieke elementen en structuren. Dat doel stelt de sociolinguïstiek zich ook, met dien verstande dat (a) men ervan uitgaat dat de organiserende parameters soms (ook) buitentalig van aard zijn en (b) de distributie van innovaties (die zich synchroon meestal voordoen als variatie) gewoonlijk niet categorisch, dat wil zeggen niet voor 100% gedetermineerd is. De historische taalkunde kent sedert enkele decennia ook een kwantitatieve tak, waarvan Romaine (1982) en Kroch (1987) pioniers waren; een recente exponent van deze benadering is Poplack & Malvar 2006. De Wulf & Van den Berg (2006) en Elmenthaler & Mihm (2006) traceren aan de hand van kwantitatieve analyses van spellingvariatie in corpora van middeleeuwse respectievelijk vroegmoderne teksten de interne en geografische verbreiding van bepaalde historische klankveranderingen.

In de taalkunde is vooral het onderzoek in verband met formele theorieën - zoals de generatieve - deductief, terwijl sociolinguïstiek en historische taalkunde soms ook en soms juist inductief te werk gaan; van de hiervóór genoemde publicaties geldt dit voor die van Romaine, De Wulf & Van den Berg en Elmenthaler & Mihm. Anderzijds is er in beide deeldisciplines een groeiende tendens om aan data in verband met synchrone of diachrone taalvariatie met behulp van kwantitatieve methodes claims te testen die ontleend zijn aan formele theorieën (vergelijk ook Gussenhoven 2004: 163-165), zoals in het werk van Kroch, waar Poplack & Malvar (2006) weer op reageren.

Ofschoon een groep rond Jan de Vries (1974) aan de universiteit van Leiden waarschijnlijk als eerste in Nederland publiceerde over kwantitatief taalvariatie-onderzoek, moet de Nijmegenaar Roeland van Hout, als onderzoeker actief vanaf de jaren '70 van de vorige eeuw, voor het Nederlandse taalgebied beschouwd worden als de belangrijkste vertegenwoordiger en vernieuwer van dit taalvariatie-onderzoek, dat van meet af aan kwantitatief is geweest. Van Hout & van Kemenade geven onder meer aan de hand van een heranalyse van uitkomsten van Labovs beroemde ‘warenhuisonderzoek’ inzicht in de centrale onderdelen van de gang van zaken in het kwantitatieve sociolinguïstische taalvariatie-onderzoek, om vervolgens te laten zien hoe deze methode toegepast is in onderzoek van een historisch proces van taalverandering in het Schotse Engels. Eén en ander wordt vervolgens geïllustreerd aan een - opnieuw historisch anglistisch - onderzoek van de syntaxis van bepaalde discoursepartikels.

Waar de sociolinguïstiek veel aandacht besteedt aan de sociale diepte van de taalvariatie (bijvoorbeeld de verdeling van de varianten over sprekers van verschillende sociale klassen, over stijlniveaus in het taalgebruik van individuele sprekers en dergelijke), ligt de nadruk in de dialectologie op de geografische breedte. De dialectometrie is voornamelijk een voortzetting van de dialectgeografie met kwantitatieve middelen. Hoewel de methode, waarvoor een scala aan technieken is ontwikkeld, niet inherent gebaseerd is op geaggregeerde data, worden de betrokken afzonderlijke dialecten gewoonlijk voor verschillende (soms ook onderling niet-ge-

relateerde) kenmerken tegelijk met elkaar vergeleken. Dit resulteert niet zelden in zeer verfijnde en soms bijzonder kleurrijke kaarten. Voorname vertegenwoordigers van deze jonge tak van de dialectologie zijn de Oostenrijkse romanist Hans Goebl (zie bijv. Goebl 1982) en zijn Franse confrater Jean Séguy, die directeur was van de Atlas linguistique de la Gascogne. In Nederland deden de gebroeders Hoppenbrouwers in de jaren '80 van de vorige eeuw van zich spreken met hun ‘feature-frequentiemethode’ (1987). Na een schets van de ontwikkeling van het vak, beargumenteren Heeringa, Nerbonne, van Bezooijen en Spruit onder meer hoe de dialectometrie, analoog aan een deel van een voorstel van de Engelse sociolinguïst Peter Trudgill (1974), in verklarende zin verrijkt zou kunnen worden met sociaalgeografische data. Uit het eigen onderzoek dat zij vervolgens uitgebreid beschrijven, blijkt de winst van het toevoegen van inwonersaantallen aan de lijst van factoren die de onderlinge gelijkenis tussen dialecten voorspellen echter gering.

5.2 Letterkunde

In de letterkunde is het gebruik van kwantitatieve methoden nog beperkt. Voor sommige onderzoeksdoelen ligt het voor de hand om zaken te tellen. Zo geven Wiljan van den Akker en Gillis Dorleijn (1996) getalsmatig inzicht in het aantal dichtbundels dat werd gepubliceerd in Nederland tussen 1901 en 1940 en gebruiken zij deze informatie als stapsteen naar verder onderzoek. Ze zoeken naar aanknopingspunten om inzicht te krijgen in de manier waarop poëzie in die periode ‘geselecteerd’ werd. Het betreft bijvoorbeeld een verdeling van dichtbundels over uitgevers en van dichters over tijdschriften die poëzie opnemen (waarbij ook de mate van verzuiling in het tijdschriftenwezen bekeken wordt). De tabellen en grafieken die worden gepresenteerd zijn eenvoudig, maar vormen een belangrijk hulpmiddel in de verdere gedachtevorming over dit onderwerp. Een statistische stap verder zet Susanne Janssen in haar onderzoek naar ‘variaties en patronen in de aandacht van de literatuurkritiek voor auteurs en hun werken’, de ondertitel van het boek van haar hand uit 1994. Zaken die zij geanalyseerd heeft zijn onder andere het aanbod van proza en poëzie, onderverdeeld naar bijvoorbeeld geografische regio of naar type uitgeverij, en de ontvangst van dat literaire werk in recensies.

Een aantal boekhistorische ontwikkelingen zijn in statistisch perspectief gezet door José de Kruif (1999), die de consumptie van boeken in Den Haag in de achttiende eeuw in kaart wilde brengen. Hiervoor maakte zij gebruik van veilingcatalogi, intekenlijsten, en als belangrijkste bronnen boekhandeladministraties en (een aantal omvangrijke steekproeven uit) Haagse boedelinventarissen uit de onderzochte periode. De resultaten van haar statistische analyses worden verwerkt in het hoofddeel van haar boek, maar een gedetailleerde beschrijving van de door haar gebruikte en verfijnde kwantitatieve methoden heeft zij omwille van de leesbaarheid ‘verbannen naar de bijlagen’ (De Kruif 1999: 61). Alles staat daar inderdaad wel overzichtelijk bij elkaar, maar het is toch te hopen dat dit soort informatie inmiddels door onderzoekers beschouwd wordt als thuishorend in de hoofdtekst van publicaties die de letterkunde betreffen. De gekozen en gehanteerde methoden zijn tenslotte de basis van het gehele onderzoek, dat staat of valt met de betrouwbaarheid van de aanpak en uitwerking van die methoden. Boekhistorie en -receptie betreffen in zekere zin ‘uiterlijke’ aspecten van de letterkunde en vertonen in dat op-

zicht dus parallellen met de taalsociologie (zie voetnoot 5 hiervóór).

Vormtechnische aspecten van literair werk zijn voornamelijk voor teksten uit de Middeleeuwen en de Renaissance kwantitatief benaderd. Zo onderzocht Evert van den Berg (1983) de versificatie van verhalende poëzie tussen 1200 en 1400. Van den Berg maakte onderscheid tussen verschillende typen verzen, waarbij het al dan niet samenvallen van zins- en vers-einde de belangrijkste variabele was. Door samples te bekijken van een grote groep verhalende versteksten uit een periode van twee eeuwen en de representaties van de verschillende verstypen met de chi-kwadraattoets te testen op statistische significantie kon hij een diachrone ontwikkeling in versificatievoorkeuren schetsen, met een indruk dat bepaalde regio's progressiever waren dan anderen. Van den Berg suggereerde onder andere nader onderzoek naar de mogelijke relatie tussen versificatietype en poëtica. Hij uitte het vermoeden dat de manier waarop het beoogde publiek gewoonlijk kennis nam van de tekst (bijvoorbeeld door deze zelf te lezen of door deze voorgelezen te krijgen door iemand anders) de auteur beïnvloedde in zijn keuze van een versificatietype.

Een ander aspect van middeleeuwse poëzie, te weten rijm, is op een eenvoudige maar illustratieve manier kwantitatief benaderd voor één tekst, Jacob van Maerlants Rijmbijbel door Van Dalen-Oskam (1997). Aan de hand van alle versparen uit het oudste handschrift van deze tekst probeert zij de ‘rijmregels’ vast te stellen die Maerlant zelf mogelijk hanteerde en de manier waarop de kopiisten die dit handschrift schreven die regels ombogen naar hun eigen inzichten. Daarbij wordt het woordmateriaal dat niet in rijmpositie wordt gebruikt even belangrijk geacht als de rijmwoorden en wordt gekeken in hoeverre Maerlant bijvoorbeeld anders omging met woordaccenten, spellingvarianten, en verbuigingen binnen het vers en in rijmpositie. Eenvoudige percentageberekeningen van de voorkomens binnen het vers en in rijmpositie maken de kern uit van de berekeningen. De getallen leidden tot de observatie dat Maerlant een vaste set rijmregels hanteerde, maakten zichtbaar op welke wijze hij binnen die regels extra mogelijkheden creëerde om flexibel rijmparen te kunnen vormen, en lieten zien hoe kopiisten daar weer op hun eigen manier van afweken. Dit resulteert in meer inzicht in de mogelijke verhoudingen tussen (het werk van) middeleeuwse auteurs en kopiisten.

Factoranalyse is toegepast door Josephie Brefeld (1994) op een corpus van middeleeuwse teksten in verschillende talen die een pelgrimstocht in het Heilige Land als onderwerp hebben. De teksten in dit corpus lopen wat de inhoud betreft zo weinig uiteen dat het voor de hand ligt om te veronderstellen dat zij alle uiteindelijk teruggaan op een ‘basisgids’. Brefeld wilde vervolgens nagaan of die gids langs statistische weg geïdentificeerd kon worden. Hiervoor is voor elke tekst vastgesteld welke heilige plaatsen erin beschreven worden. Factoranalyse en clusteranalyse moesten vervolgens uitwijzen welke tekst het dichtst in de buurt komt van die basisgids voor pelgrims naar Jeruzalem in de late Middeleeuwen. Een ultiem antwoord kan het onderzoek niet opleveren, en er is in recensies heftig gereageerd op een aantal aspecten van Brefelds onderzoek, maar haar studie blijft een waardevolle bijdrage tot de verkenning van de mogelijkheden van kwantitatieve benaderingen in tekstgeoriënteerd, letterkundig onderzoek. Het onderzoek van Brefeld is niet representatief voor de hier nog niet genoemde stemmatologie, de discipline die tracht op basis van de overgeleverde handschriften en/of drukken van een bepaalde tekst een stamboom op te stellen waarin de chronologie en afhanke-

lijkheden in de ontstaansgeschiedenis worden gevisualiseerd. Deze discipline vond zijn oorsprong in de theologie en is veelvuldig op bijbelteksten toegepast. Binnen de neerlandistiek is ze toegepast op verschillende wijzen; we willen hier alleen het proefschrift van Ben Salemans over de Middelnederlandse Lanseloet van Denemerken noemen, dat veel indruk heeft gemaakt, maar voor zover ons bekend nog niet is geresulteerd in andere studies in de door hem ingeslagen weg.

De meerwaarde van kwantitatieve benaderingen als de hierboven geschetste in letterkundig onderzoek ligt er vooral in dat observaties van onderzoekers op basis van bijvoorbeeld close reading op een empirische manier bevestigd dan wel genuanceerd kunnen worden. Wanneer er al een zekere consensus bestaat over en zeker wanneer er aanwijzingen of zelfs bewijzen zijn voor een bepaalde aanname in verband met een aspect van een literair werk - bijvoorbeeld: deze tekst legt bovengemiddeld veel nadruk op hoofse omgangsvormen - kan dat helpen om de kwantitatieve methoden verder te verfijnen en te ijken alvorens ze toe te passen op teksten waarvoor dit nog niet bekend is. Wanneer verschillende onderzoekers duidelijk verschillende intuïties hebben, kan een kwantitatieve benadering worden ingezet om na te gaan welk van de verschillende opvattingen al dan niet wordt ondersteund. Het uitwerken van de toe te passen kwantitatieve methode helpt de onderzoekers dan om een dieper inzicht te krijgen in welke aspecten van een literair werk aanleiding zijn tot een bepaalde observatie. Op die manier functioneert de kwantitatieve benadering als een controle van het gevolgde denkproces en resulteert deze mogelijk ook in een bijstelling van eerdere conclusies.

De hierboven geschetste onderzoeksvoorbeelden hebben nog maar nauwelijks navolging gevonden. We hebben de indruk dat er een afhankelijkheid bestaat tussen het beschikbaar komen van digitale teksten en onderzoek met een kwantitatieve inslag. Dat de Medioneerlandistiek in het toepassen van kwantitatief georiënteerd onderzoek voorop lijkt te lopen in vergelijking met onderzoek betreffende de letterkunde uit jongere tijdperioden, is wellicht te relateren aan het verschijnen van de Cd-rom Middelnederlands in 1998. Het is zeker dat deze heeft aangezet tot een meer kwantitatieve benadering van stijl en auteurschap. In een uitvoerig artikel zet J. Reynaert zijn argumenten op een rijtje om twee veertiende-eeuwse teksten met grotere zekerheid toe te kunnen schrijven aan Jan van Boendale, en geeft hij aan daarbij ‘een intensief gebruik van de nieuwe mogelijkheden geboden door de Cd-rom Middelnederlands’ gemaakt te hebben (Reynaert 2002: 129). De stap naar een werkelijk kwantitatieve aanpak wordt door Reynaert echter niet gezet. Die is ook niet uitvoerbaar met behulp van alleen de Cd-rom Middelnederlands: de teksten op de cd-rom zijn doorzoekbaar en de resultaten worden onder elkaar gepresenteerd, maar er zijn geen sorteer- of andere mogelijkheden binnen die resultatenlijst. Dat betekent dat de zoekresultaten moeten worden overgezet naar andere programmatuur voordat er kwantitatieve analyses uit voort kunnen komen. Die stap wordt wel gezet door Godfried Croenen (2005) in zijn onderzoek naar de Grimbergsche oorlog. Om het contemporaine functioneren van deze tekst beter te kunnen begrijpen heeft hij het in de tekst vermelde dubbele auteurschap met kwantitatief onderzoek willen bevestigen. De (in spelling genormaliseerde) woordenschat van de tekst was hiervoor het materiaal, dat hij heeft geanalyseerd met behulp van een aantal computerprogramma's (tools) om taalmateriaal te analyseren. Ter aanvulling gebruikte hij ook spss. Met clusterana-

lyse van de woordenschat stelde hij een boomdiagram op van tekstpassages, waarbij de passages van de hand van de tweede auteur duidelijk onderscheiden konden worden van de eerste. Croenen geeft de herkomst van de elektronische tekst niet aan, maar het is niet onwaarschijnlijk dat hij deze van de Cd-rom Middelnederlands heeft betrokken.

Eenzelfde ontwikkeling lijkt zich voor te doen voor het onderzoek naar zestiende- en zeventiende-eeuwse Emblemata. Een embleem is een literair genre dat vooral populair was in de zestiende en zeventiende eeuw en dat bestaat uit meerdere componenten. Het bevat standaard gewoonlijk een afbeelding (een ‘plaatje’) en twee korte teksten: een opschrift (motto) en een toelichting in proza of poëzie (een ‘praatje’). De verschillende onderdelen verhelderen het voor het embleem gekozen onderwerp, dat vaak een filosofische of pedagogische strekking heeft. Het digitaal beschikbaar stellen van emblemen, waarbij het ook mogelijk wordt om op afgebeelde onderwerpen te zoeken, vergroot de (ook kwantitatieve) onderzoeksmogelijkheden in dit gebied aanzienlijk. Hierin speelt het Emblem Project Utrecht, ook internationaal, een belangrijke rol (zie http://emblems.let.uu.nl/index.html). Voor later eeuwen begint de digitalisering op gang te komen; het aantal literaire werken in de Digitale Bibliotheek voor de Nederlandse Letteren (www.dbnl.org) neemt voortdurend met een indrukwekkende snelheid toe. Omdat de digitale bestanden op deze site door de dbnl worden aangemaakt in xml-formaat, zijn zij ook bijzonder geschikt voor de toepassing van kwantitatieve methoden. De tekstcodering in xml (Extensible Mark-up Language) maakt het mogelijk om de gemarkeerde tekstelementen ook kwantitatief te benaderen, omdat de codering aangeeft welke functie het betreffende tekstelement heeft. xml biedt daardoor meer mogelijkheden dan bijvoorbeeld html (Hypertext Mark-up Language), waarmee websites worden gestructureerd; html wordt gewoonlijk alleen voor het aangeven van de lay-out gebruikt (het gedeelte tussen de begin- en eindcode moet cursief, vet, inspringen etc.). Hierbij kunnen tekstelementen met verschillende functies op dezelfde manier vormgegeven worden, en zijn ze dus niet meer afzonderlijk te tellen. Op de website van de dbnl zijn de teksten trouwens alleen in html-formaat beschikbaar; een verzoek om gebruik te mogen maken van het xml-bronbestand van een tekst ten behoeve van onderzoek dient, in verband met rechtenaspecten, aan de directie van de dbnl te worden voorgelegd (e-mail: dbnl.auteursrecht@kb.nl). Er kan verwacht worden dat ook voor de perioden na Middeleeuwen en Renaissance steeds vaker kwantitatieve benaderingen gekozen zullen worden. Er zal gestreefd moeten worden naar een onderzoekscorpus dat voor letterkundig onderzoek gebruikt kan worden. Omdat de selectiecriteria voor tekstopname in de taalkundige corpora niet letterkundig van aard zijn, zijn zij over het algemeen ongeschikt voor kwantitatief letterkundig onderzoek.

De bijdrage van Louwerse & Van Peer in deze thema-aflevering van tntl geeft een mooi overzicht van de stand van zaken in het automatisch vaststellen van de inhoud van teksten. Zij starten hun overzicht bij Vladimir Propps Morfologie van het toversprookje (1928) en laten de ontwikkelingen zien in later onderzoek naar het analyseren van verhaalstructuren. Op heldere wijze leggen zij uit hoe een recente techniek, Latent Semantic Analysis, in zijn werk gaat en passen zij deze toe op acht Nederlandse romans uit de periode 1782-1935. Dit leidt tot een aantal interessante observaties over genreaspecten en periodisering van de geanalyseerde

romans en over de mogelijkheden die deze techniek in verder letterkundig onderzoek kan bieden. In de inleiding tot hun artikel beschrijven de auteurs, die beiden de Noordamerikaanse universitaire wereld goed kennen, de algemeen gangbare afwijzende houding van letterkundigen ten opzichte van kwantitatieve technieken. De situatie in Nederland en Vlaanderen lijkt niet veel af te wijken van het beeld dat zij schetsen.

De belangstelling voor het onderscheiden van auteurs en, gerelateerd daaraan, de stilistiek kwam in de bovengenoemde onderzoeken verschillende malen naar voren. Deze twee nauw aan elkaar gerelateerde onderwerpen zijn prominent aanwezig in internationale tijdschriften waarin de humanities computing is vertegenwoordigd. Een overzicht van de stand van zaken vanuit dat internationale perspectief wordt gegeven door Van Dalen-Oskam. Haar bijdrage over het kwantificeren van stijl behandelt de belangrijkste ontwikkelingen nadrukkelijk vanuit het standpunt van letterkundig onderzoek. Zij betoogt dat kwantitatieve methoden voor een letterkundige invalshoek de eigenschap moeten hebben dat zij doorzichtig zijn in wat er concreet gemeten wordt: de getallen en resultaten dienen herleidbaar te zijn tot stilistisch aanwijsbare eenheden in de literaire teksten die worden bestudeerd. Op die manier kan de onderzoeker nagaan op welke wijze teksten en/of auteurs, genres, etc. concreet van elkaar verschillen, en genereert het onderzoek nieuwe inzichten in stilistische aspecten van literaire werken die verder gaan dan formules, getallen of percentages.

6 Stilistiek als dwarsverband tussen taal- en letterkunde

Het onderzoek van stijl heeft zowel een plaats in de taalkunde als in de letterkunde en vormt in potentie een volmaakte trait d'union tussen de twee. Het is te hopen dat dit dwarsverband in de toekomst nader uitgediept zal worden en in beide disciplines tot innovaties leidt. Aan beide kanten richt het onderzoek zich op de manier waarop taal wordt gebruikt in een bepaalde context en met een bepaald doel. Bij de analyse van literaire werken spelen daarnaast inhoudelijke aspecten en de interactie tussen de linguïstische vorm en de inhoud een rol.

In de taalkunde heeft het kwantitatieve onderzoek van stijl in (vooral mondeling) taalgebruik een hoge vlucht genomen binnen de sociolinguïstiek.Ga naar voetnoot11 Anders dan taalvariatie die samenhangt met ‘inter-spreker’ grootheden als regio, sociaal-economische klassen, sociale netwerken en culturele oftewel etnische groepen, wordt stijl gewoonlijk gezien als intra-spreker variatie; in verband met stijlvariatie op woordniveau spreekt men ook wel van registervariatie. In kwantitatief onderzoek is stijlvariatie in verband gebracht met de co-occurrentie tussen taalvariabelen. Dit laat zich illustreren aan enkele eenvoudige - verzonnen - voorbeeldjes. Voor veel sprekers uit de Randstad vormen (1a) en (1b) gangbare, maar (1c) en (1d) in fonologisch, morfologisch en lexicaal opzicht minder gangbare varianten van dezelfde uiting:

(1a)	Hij heeft het uit zijn handen laten vallen
(b)	Hij hep 't uitGa naar voetnoot12 ze klaauwe laote dondere
(c)	Hij hep 't uitGa naar voetnoot12 zijn handen laten vallen
(d)	Hij heeft het uit ze klaauwe laote dondere

Een zuiderling die zegt

(2)	Hij drinkt zich een glas bier

zal zeer waarschijnlijk ‘sandhi voicing’ vertonen tussen ‘zich’ en ‘een’, waardoor het ongeveer klinkt als ‘ziggeen’ of ‘ziggun’, en diezelfde spreker zal zeer waarschijnlijk de beginmedeklinker in ‘glas’ betrekkelijk palataal uitspreken (de zogenoemde ‘zachte g’) - overigens evenals de mediale medeklinker in ‘ziggeen’ of ‘ziggun’.

Terwijl Labov (1966; 1972) demonstreerde dat stijlvariatie in verband kan staan met de monitoring door de spreker, met andere woorden met de mate van aandacht die men besteedt aan zijn of haar taalgebruik, toonde Bell (1984) dat stijlvariatie niet zelden een afgeleide is van de variatiepatronen die typisch zijn voor sociaal-economische klassen, waarbij de meest formele stijlen corresponderen met het taalgebruik van de hoogste klassen. Bovendien liet hij zien dat variatie in taalgebruik sterker bepaald wordt door de ‘ontvangers’ van de boodschap naargelang deze meer als direct toegesprokene(n), dus als tweede persoon enkelvoud of meervoud, beschouwd kunnen worden (audience design). De door Rickford & Eckert in 2001 uitgegeven bundel bevat bijdragen die vier visies op stijl representeren, te weten antropologische, waarbij het onder meer gaat om zaken als ideologie en ‘genres’, benaderingen waarbij het draait om de aandacht voor de vormelijke kant van het taalgebruik, om afstemming op de audience en, tenslotte, om hieraan bovengeschikte kenmerken van de communicatiesituatie. Deze visies sluiten elkaar niet noodzakelijkerwijs in alle opzichten uit; kwantitatieve methodes spelen in alle behalve de antropologische visies een rol.

Elk individu valt te karakteriseren op basis van zijn/haar positie ten opzichte van anderen in (onder andere) een aantal macro- en mesosociale opzichten, zoals geografische en sociaal-economische herkomst, onderwijsachtergrond, beroepsniveau, sekse, leeftijd, plaats in de sociale netwerken waar hij/zij deel van uit maakt; al deze grootheden blijken van belang voor taalvariatie. Zelfs in een betrekkelijk dichtbevolkte samenleving als de Nederlandse zullen er nauwelijks twee individuen zijn die voor al deze en dergelijke variabelen dezelfde ‘waarden’ hebben. Zij zullen, hoewel in menig opzicht identiek aan anderen, daardoor, door fysieke en cognitieve verschillen en door verschillen in hun sociale handelen uiteindelijk als unieke individuen te herkennen zijn - ook in hun gebruik van een serie welgekozen taalvariabelen. Iets dergelijks geldt ook voor andere verschijnselen die in verband staan met taalgebruik. Al deze inzichten maken taalgebruik, evenals handschrift- en stemherkenning, ook interessant voor forensisch onderzoek.

De beschreven stilistische variatie in de talige werkelijkheid is een gegeven waar auteurs van romans, verhalen en toneelstukken soms gebruik van maken. De weergave van dialect of een andere niet-standaardvariëteit (al dan niet ‘waarheids-

getrouw’ of anderszins overtuigend) in bijvoorbeeld de dialoogtekst van bepaalde personages dient gewoonlijk om die personages te plaatsen in een bepaalde (meestal sociale) context. Het zou bijvoorbeeld interessant zijn om te onderzoeken hoe een dergelijk stilistisch gebruik van dialect wordt toegepast in verschillende tekstgenres en in literaire werken uit verschillende perioden, zeg van Bredero's De Spaanschen Brabander via Hildebrand en het werk van Stijn Streuvels tot aan de verhalenbundel Bouwval van Frans Kellendonk. Ernestus, Van Mulken & Baayen (2006) demonstreren hoe ‘stylometrisch’ onderzoek (in casu van syntactische patronen in een corpus van Oud-Franse teksten) kan worden ingezet bij de vergelijking van literaire werken.

Vermeldenswaardig is het feit dat er tegenwoordig ook, in andere gebieden van de geesteswetenschappen, kwantitatieve stijlanalyses worden uitgevoerd. Dit geldt bijvoorbeeld voor de muziekwetenschap; aan de hand van kwantitatief onderzoek bleken composities van J.S. Bach onderscheiden te kunnen worden van werk van tijdgenoten.Ga naar voetnoot13 Ook is er al een musicologische pendant van Google operationeel, ‘Muugle’, een melodieënzoekmachine, die werkt door middel van de identificatie van verwante melodieën. Een zeer breed scala van stilistische en technische kenmerken wordt gehanteerd in het kwantitatieve echtheidsonderzoek van schilderijen, zoals dat van Van der Lubbe (Delft) en Postma (Maastricht). Op basis van de waarden van zo'n 250 verschillende variabelen wordt hierbij een doek vergeleken met de werken die met zekerheid door een bepaalde schilder gemaakt zijn.

7 Uitleidend

Wij hopen dat dit themanummer bijdraagt aan het openleggen van voor sommigen nog onbekende onderzoeksmethodes en aan het wegnemen van angsten en vooroordelen ten aanzien van kwantitatieve benaderingen. Wie weet kan het zelfs opwekken tot het verkennen ervan in eigen toekomstig onderzoek. Degenen die al ervaring hebben met kwantitatieve benaderingen leren hopelijk nog iets over de rol die deze kunnen spelen in het onderzoek in zusterdisciplines.

Gezien de kwaliteit van de bijdragen hebben wij er alle vertrouwen in dat deze doelen met dit themanummer iets naderbij gebracht zullen worden.

Bibliografie

Van den Akker & Dorleijn 1996 - Wiljan van den Akker en Gillis Dorleijn: ‘Over de geschiedschrijving van de moderne Nederlandse poëzie. Problemen, getallen en suggesties’. In: Nederlandse letterkunde 1 (1996), p. 2-29

Auer & Hinskens 2005 - Peter Auer & Frans Hinskens: ‘The role of interpersonal accommodation in a theory of language change’. In: P. Auer, F. Hinskens & P. Kerswill (ed.): Dialect change. Convergence and divergence in European languages. Cambridge: Cambridge University Press, 2005, p. 335-357.

Bell 1984 - Allan Bell: ‘Language style as audience design’. In: Language in society 13 (1984), 2, p. 145-204.

Van den Berg 1983 - E. van den Berg: Middelnederlandse versbouw en syntaxis. Ontwikkelingen in de versifikatie van verhalende poëzie ca. 1200-ca. 1400. Utrecht: hes, 1983.

Bolasco e.a. 2006 - Sergio Bolasco, Luca Giuliano & Nora Galli de Paratesi: Parole in libertà. Un' analisi statistica e linguistica dei discorsi di Berlusconi. Rome: Manifestolibri, 2006.

Bourdieu 1979 - Pierre Bourdieu: Distinction: A social critique of the judgement of taste. Routledge, 1979.

Van Boven & Dorleijn 2003 - Erica van Boven & Gillis Dorleijn: Literair mechaniek. Inleiding tot de analyse van verhalen en gedichten. Bussum: Coutinho, 2003 (1999).

Brefeld 1994 - Josephie Brefeld: A guidebook for the Jerusalem pilgrimage in the late middle ages. A case for computer-aided textual criticism. Hilversum: Verloren, 1994. (Middeleeuwse studies en bronnen 40)

Butler 1985 - Christopher Butler: Statistics in linguistics. Oxford: Blackwell, 1985.

Bybee 2001 - Joan Bybee: Phonology and language use. Cambridge: Cambridge University Press, 2001.

Croenen 2005 - Godfried Croenen: ‘Het dubbele auteurschap van de Grimbergsche oorlog’. In: Remco Sleiderink, Veerle Uyttersprot, Bart Besamusca (red.): Maar er is meer. Avontuurlijk lezen in de epiek van de Lage Landen. Studies voor Jozef D. Janssens. Z. pl.: Davidsfonds / Amsterdam University Press, [2005], p. 131-152.

Crystal 2003 - David Crystal: A dictionary of linguistics and phonetics. Oxford: Blackwell, 2003, 5e editie.

Van Dalen-Oskam 1997 - Karina van Dalen-Oskam: ‘Rijm in Maerlants bijbel’. In: Karina van Dalen-Oskam: Studies over Jacob van Maerlants Rijmbijbel. Hilversum: Verloren, 1997, p. 127-186. Diss. Leiden, 1997. (Middeleeuwse studies en bronnen 57)

Eddington 2002 - David Eddington: ‘Why quantitative?’ In: D. Eddington (ed.): Quantitative approaches to Spanish linguistics. Themanummer van Linguistics 40 (2002), p. 209-216.

Elmenthaler & Mihm 2006 - Michael Elmenthaler & Arend Mihm: ‘Neuhochdeutsche und neuniederländische Standardisierungsprozesse im Rheinmaasraum der frühen Neuzeit. Eine variablenanalytische Untersuchung’. In: T. Goeman, M. Rem & J. Taeldeman (eds): Taalvariatie op basis van corpuslinguïstiek. Themanummer van Taal en Tongval 58 (2006), p. 49-69.

Ernestus & Baayen 2006 - Mirjam Ernestus & Harald Baayen: ‘Predicting the unpredictable: interpreting neutralized segments in Dutch’. In: Language 79 (2006), p. 5-38.

Ernestus, van Mulken & Baayen 2006 - Mirjam Ernestus, Margot van Mulken & Harald Baayen: ‘Ridders en heiligen in tijd en ruimte. Moderne stylometische technieken toegepast op Oud-Franse teksten’. In: T. Goeman, M. Rem & J. Taeldeman (eds): Taalvariatie op basis van corpuslinguïstiek. Themanummer van Taal en Tongval 58 (2006), p. 70-83.

Fischer 2004 - Olga Fischer: ‘De historische taalkunde’. In: knaw Verkenningscommissie Taal- en Letterkunde, J. Swanborn (red.): ‘Gij letterdames en gij letterheren’. Nieuwe mogelijkheden voor taalkundig en letterkundig onderzoek in Nederland. Amsterdam: knaw, p. 130153.

Fishman 1965 - Joshua Fishman: ‘Who speaks what language to whom and when?’, In: La linguistique 2 (1965), p. 67-88.

Goebl 1982 - Hans Goebl: ‘Ansätze zu einer computativen Dialektometrie’. In: W. Besch, U. Knoop, W. Putschke & H. Wiegand (ed.): Dialektologie. Ein Handbuch zur deutschen und allgemeinen Dialektforschung. Berlin etc.: De Gruyter, 1982, Band I, p. 778-792.

Gussenhoven 2004 - Carlos Gussenhoven: ‘Fonologie’. In: knaw Verkenningscommissie Taal- en Letterkunde / J. Swanborn (red.): ‘Gij letterdames en gij letterheren’. Nieuwe mogelijkheden voor taalkundig en letterkundig onderzoek in Nederland. Amsterdam: knaw, p. 154-173.

Hoppenbrouwers & Hoppenbrouwers 1987 - Cor Hoppenbrouwers & Geer Hoppenbrouwers: ‘De featurefrequentiemethode en de classificatie van Nederlandse dialecten’. In: tabu 18 (1987), 2, p. 51-92.

Hoppenbrouwers & Hoppenbrouwers 2001 - Cor Hoppenbrouwers & Geer Hoppenbrouwers: De indeling van de Nederlandse streektalen. Dialecten van 156 steden en dorpen geklasseerd volgens de ffm. Assen: Van Gorcum), 2001.

Van Hout & Kerkhoff 1985 - Roeland van Hout & Anne Kerkhoff: ‘Nogmaals utiliteit, frequentie en despersie: een replicatie’. In: Gramma 9 (1985), 2, p. 105-113.

IJbema 2002 - Aniek IJbema: Grammaticalization and infinitival complements in Dutch. Utrecht: lot, 2002. Proefschrift Universiteit Leiden, 2002.

Kraaykamp 2005 - Gerbert Kraaykamp: ‘Dialect en sociale ongelijkheid: een empirische studie naar de sociaal-economische gevolgen van het spreken van dialect in de jeugd’. In: Pedagogische studiën 82 (2005), p. 390-403.

Kroch 1989 - Anthony Kroch: ‘Reflexes of Grammar in Patterns of Language Change’. In: Language Variation and Change 1 (1989), 3, p. 199-244.

De Kruif 1999 - José de Kruif: Liefhebbers en gewoontelezers. Leescultuur in Den Haag in de achttiende eeuw. Zutphen: Walburg Pers, 1999

Labov 1966 - William Labov: The social stratification of English in New York City. Washington: Center for Applied Linguistics, 1966.

Labov 1972 - William Labov: Sociolinguistic patterns. Philadelphia: Univ. of Pennsylvania Press, 1972.

Labov 2005 - William Labov: ‘Quantitative analysis of linguistic variation’. In: U. Ammon, N. Dittmar, K. Mattheier & P. Trudgill (ed.): Sociolinguistics. An international handbook of the science of language and society. Berlin: Mouton de Gruyter, 2005, Vol. 1, p. 6-22.

Nardy & Barbu 2006 - Aurélie Nardy & Stéphanie Barbu: ‘Production and judgment in childhood. The case of liaison in French’. In: F. Hinskens (ed.): Language variation - European perspectives. Amsterdam / Philadelphia: Benjamins, 2006, p. 143-152.

Poplack & Malvar 2006 - Shana Poplack & Elisabete Malvar: ‘Modelling linguistic change. The past and the present of the future in Brazilian Portuguese’. In: F. Hinskens (ed.): Language variation - European perspectives. Amsterdam / Philadelphia: Benjamins, 2006, p. 169-199.

Reynaert 2002 - J. Reynaert: ‘Boendale of “Antwerpse School”? Over het auteurschap van Melibeus en Dietsche doctrinale’. In: Wim van Anrooij e.a (red.): Al t'Antwerpen in die stad. Jan van Boendale en de literaire cultuur van zijn tijd. Amsterdam: Prometheus, 2002, p. 127-157.

Rickford & Eckert - John Rickford & Penelope Eckert (ed.): Style and sociolinguistic variation. Cambridge: Cambridge Universty Press, 2001.

Rietveld & Van Heuven 1997 - (An)tonie Rietveld & Vincent van Heuven: Algemene fonetiek. Bussum: Coutinho, 1997.

Rietveld & Van Hout 1993 - Tonie Rietveld & Roeland van Hout: Statistical techniques for the study of language and language behaviour. Berlin etc.: Mouton de Gruyter, 1993.

Rietveld & Van Hout 2005 - Tonie Rietveld & Roeland van Hout: Statistics in language research. Analysis of variance. Berlin etc.: Mouton de Gruyter, 2005.

Romaine 1982 - Suzanne Romaine: Socio-historical linguistics. Its status and methodology. Cambridge: Cambridge University Press, 1982.

Salemans 2000 - Ben Salemans: Building stemmas with the computer in a Cladistic, Neo-Lachmannian, way: the case of fourteen text versions of Lanseloet van Denemerken. Z. pl., 2000.

Schils & Reelick 1985 - Eric Schils & Frank Reelick: ‘Woordutiliteit, woordfrequentie en woorddispersie’. In: Gramma 9 (1985), 2, p. 89-103.

Van den Toorn 1978 - Maarten van den Toorn: Methodologie en taalwetenschap. Utrecht etc.: Spectrum, 1978.

Trudgill 1974 - Peter Trudgill: ‘Linguistic change and diffusion: description and explanation in sociolinguistic dialect geography’. In: Language in society 2 (1974), p. 215-246.

De Vries et al. 1974 - Jan de Vries et alii: ‘De slot-t in consonantclusters te Leiden: een sociolinguïstisch onderzoek’. In: Forum der letteren 115 (1974), p. 235-250.

Wikipedia - http://en.wikipedia.org/wiki/Main_Page

De Wulf & Van den Berg 2006 - Chris De Wulf & Boudewijn van den Berg: ‘Veertiende-eeuwse variatie in sk-spellingen’. In: T. Goeman, M. Rem & J. Taeldeman (eds): Taalvariatie op basis van corpuslinguïstiek. Themanummer van Taal en Tongval 58 (2006), p. 28-48.

Correspondentie-adres van de auteurs

Frans Hinskens, Meertens Instituut en Vrije Universiteit, p/a Meertens Instituut, Postbus 94264, nl-1090 gg Amsterdam, frans.hinskens@meertens.knaw.nl

voetnoot1: Wij danken Louis Grijp en Pieter Muysken voor hun commentaar en hulp. Voor tekortkomingen zijn zij niet aansprakelijk.

voetnoot2: En, in verband met de beide laatste noties, talige convergentie en divergentie. Zie hierover onder meer Auer & Hinskens 2005.

voetnoot3: Het proces waardoor een element dat geen puur grammaticale functie heeft gaandeweg een dergelijke functie aanneemt, zoals gebeurd is in de ontwikkeling van de infinitiefmarkeerder te (als in Hij probeert te werken) uit de onderling verwante voorzetsels te en tot. Vergelijk IJbema 2002.

voetnoot4: In sommige wetenschappelijke disciplines werkt men met andere acceptabele foutenmarges. Zo wordt er in experimenteel farmacologisch onderzoek gewoonlijk strenger (‘conservatiever’) getoetst op eventuele schadelijke bijwerkingen en het is ook voorstelbaar dat klimaatonderzoekers en beleidsmakers geen genoegen nemen met een foutenmarge van 5% bij onderzoek in verband met de vraag of de uitstoot van CO₂ onomkeerbare gevolgen heeft voor de atmosfeer van de aarde.

voetnoot5: Hieruit werd ook de taalsociologie geboren, die zich bezighoudt met de positie van een taal (of taalvariëteit) in een samenleving voor zover deze weerspiegeld wordt in bijvoorbeeld aantallen sprekers, de vraag of de taal in kwestie in alle of alleen in bepaalde typen van situaties of ‘domeinen’ (Fishman 1965) gebruikt wordt en de status van de taal in de betreffende samenleving. Een recente publicatie is Kraaykamp 2005.

voetnoot6: Over de programmeertaal zie: http://en.wikipedia.org/wiki/R_programming_language. Over de statistiek software zie onder meer http://www.r project.org/, http://cran.r project.org/, http://stat.ethz.ch/~www/SandR.html en http://www.biw.kuleuven.be/vakken/statisticsbyR/.

voetnoot7: Specifiek voor de taalkundige is er een groot aantal boeken beschikbaar die hem of haar vertrouwd maken met kwantitatieve methodes en statistische analyse. Deze reiken van betrekkelijk inleidend (bijvoorbeeld Butler 1985) tot geavanceerd (onder meer Rietveld & Van Hout 1993; 2005).

voetnoot8: Bij uitstek een structuralistisch thema, zoals ook uit onze woordkeus moge blijken.

voetnoot9: Het gaat hierbij veelal om een bepaalde verzameling van - verondersteld cultuuronafhankelijke - woorden voor basisconcepten als hand, zon, eten en dood, naar de bekende Amerikaanse antropoloog-taalkundige de Swadesh-lijst genoemd.

voetnoot10: De meest gangbare variant van het connectionisme verklaart de menselijke intellectuele vaardigheden met behulp van artificiële neurale netwerken, vereenvoudigde modellen van het brein die zijn samengesteld uit grote aantallen eenheden (die ‘staan voor’ neuronen), voorzien van gewichten die de sterkte van de verbindingen (‘connecties’) tussen de eenheden aanduiden.

voetnoot11: Enkele van de voornaamste onderdelen van deze benadering in de sociolinguïstiek zijn in een notendop geschetst in Labov 2005.

voetnoot12: Uitgesproken met de klinker van freule.

voetnoot12: Uitgesproken met de klinker van freule.

voetnoot13: In het project ‘Composer Attribution by Quantifying Compositional Strategies’, aan de Universiteit Utrecht uitgevoerd door Peter van Kranenburg, die als onderzoeker ook actief is in een groep van etnomusicologen aan het Meertens Instituut.

Vorige Volgende

Frans Hinskens en Karina van Dalen-Oskam Kwantitatieve benaderingen in het taal- en letterkundig onderzoek. Een ruwe schets