Tijdschrift voor Nederlandse Taal- en Letterkunde. Jaargang 88

(1972)– [tijdschrift] Tijdschrift voor Nederlandse Taal- en Letterkunde– rechtenstatus

Een taalstatistisch onderzoek
Willy Martin, Analyse van een vocabularium met behulp van een computer. AIMAV, Brussel, 1970 (ƒ 27,50).

§ 1. InleidingGa naar voetnoot1)

Sinds het verschijnen van het boek van G.U. Yule, The statistical study of literary vocabulary (Cambridge U.P. 1944) is er behoorlijk wat tijd en geld besteed aan taalstatistisch onderzoek, vooral met betrekking tot het taalgegeven ‘woord’. Een van de laatste produkten op dit gebied is de studie van W. Martin, Analyse van een vocabularium met behulp van een computer. Martin brengt hierin verslag uit van een vergelijking van de woordenschat in twee romans van Ivo Michiels: Het boek Alfa en Het Afscheid. Het doel van dit onderzoek is volgens Martin ‘een batterij kwantitatieve tests op te stellen voor de literaire kritiek met het oog op de objectivering van esthetische beoordeling van het vocabularium van een letterkundig werk’ (p. 11), er van uitgaande ‘dat een kwalitatieve beoordeling baat zou kunnen vinden bij de resultaten van een kwantitatief onderzoek’ (p. 13).

Op de eerste plaats vragen wij ons af, of het wel juist is dat er voor een onderzoek ten bate van de esthetische beoordeling van literatuur zoveel geld en mankracht wordt uitgetrokken, terwijl er op het gebied van het taalgebruik nog zoveel maatschappelijk veel belangrijker onderzoek te doen is. We komen hier op terug in § 10.

Op de tweede plaats hebben we moeten vaststellen dat Martin het doel dat hij zich met dit onderzoek gesteld heeft, niet bereikt heeft, en wel omdat hij voor dit taalstatistische onderzoek noch taalkundig, noch statistisch voldoende op de hoogte is. We zullen dit proberen duidelijk te maken in § 2 t/m § 9, waarin we achtereenvolgens nader ingaan op de volgende onderdelen van Martins boek:

§ 2. Het woord als tekst- en lexicale eenheid (p. 24-29).

§ 3. Statistiek en taal (p. 14-17).

§ 4. De reductie van een vocabularium (p. 38-48).

§ 5. Statistische parameters voor de vergelijking van vocabularia (p. 48-58).

§ 6. De groei van het vocabularium (p. 59-72).

§ 7. De plaats van de frequentste woorden (p. 72-77).

§ 8. De verdeling der grammaticale categorieën (p. 81-94).

§ 9. Plus- en minuswoorden (p. 95-115).

Tenslotte geven we in § 11 een lijst van errata bij het boek van Martin.

§ 2. Het woord als tekst- en lexicale eenheid

Martin definieert een woord als een reeks letters, begrensd door blanks en/of interpunctie (p. 25). Daarnaast hanteert hij twee verschillende definities van woordidentiteit:

(1) Een grafische definitie: twee woorden zijn hetzelfde (d.w.z. zijn twee ‘tokens’ van hetzelfde ‘type’) als ze grafisch identiek zijn.

(2) Een lexicale definitie: twee woorden zijn hetzelfde als ze tot hetzelfde lemma van een woordenboek (i.c. de grote Van Dale) terug te brengen zijn.

Op p. 24-27 citeert Martin herhaaldelijk het artikel van P.A.M. Seuren over Het probleem van de woorddefinitie (Tijdschr. voor Ned. taal- en letterk. 82 (1966) 259-293). Seuren wijst er in dit artikel op dat alle gebruikers van alle talen alle zinnen van hun taal in woorden kunnen verdelen, en dat ze dat allemaal op (vrijwel) dezelfde manier doen. De kennis van de plaats van de woordgrenzen behoort dus blijkbaar tot de intuïtie van de taalgebruiker. In geschreven taal worden woordgrenzen gerealiseerd als blanks en/of interpunctie. Seuren noemt deze gegevenheid van het woord als een stukje zin tussen twee woordgrenzen de syntagmatische dimensie van het woord. Martins definitie van het woord is hiermee in overeenstemming.

Daarnaast is er volgens Seuren in de taalkunde volkomen ten onrechte steeds weer geprobeerd het woord een paradigmatische dimensie toe te kennen d.w.z. het te beschouwen als een element van taal-

bouw. Deze visie impliceert het bestaan van woordidentiteit: eenzelfde ‘woord’ kan voorkomen in verschillende zinnen. Dat het woord steeds ten onrechte een paradigmatische status is verleend, blijkt uit het feit dat geen enkele definitie die er ooit voor het ‘paradigmatische woord’ opgesteld is, in staat is geweest alles te bestrijken wat de taalgebruiker intuïtief als woord aanwijst, en tevens niets anders dan dat. Woorden zijn eenheden uit de oppervlaktestructuur van zinnen. De grammatica van de taal bepaalt waar in de zinnen van die taal woordgrenzen komen te liggen, en wat er tussen twee opeenvolgende woordgrenzen ligt, is automatisch een woord.

Wèl een paradigmatische dimensie bezitten o.i. in een taal de morfemen, minimale naar vorm en betekenis konstante eenheden. Elk woord in de oppervlaktestructuur van de zin is een realisering van één of meer morfemen in de dieptestructuur. Het niet samenvallen van woorden en morfemen is de reden van het ontbreken van een paradigmatische dimensie bij het woord.

Een consequentie van dit alles is dat een onderzoek naar de betekeniswereld van een tekst of auteur niet gebaseerd dient te worden op paradigmatisch gedefinieerde woorden (de oppervlaktestructuur heeft slechts een zeer indirecte relatie met de betekenis), maar op morfemen die door hun dieptestructurele functie een directe relatie met de betekenis hebben. Het is m.a.w. uiterst riskant op basis van onderzoek op paradigmatisch gedefinieerde woorden uitspraken te doen op het niveau van de betekenis.

Martin maakt zich o.i. zowel bij het onderzoek op basis van de grafische definitie van woordidentiteit als bij het onderzoek op basis van de lexicale definitie van woordidentiteit schuldig aan een oncontroleerbare, en daardoor ongeoorloofde interpretatie van zijn resultaten op het niveau van de betekenis. We zullen dit verduidelijken voor beide definities.

(a) De grafische definitie van woordidentiteit

Een gevolg van de strikt grafische definitie is dat alle morfologische verschillen tussen woorden (op gelijke wijze) gehonoreerd worden, terwijl veel syntactische en semantische verschillen verwaarloosd wor-

den. Zo wordt het verschil tussen grote en groot op dezelfde wijze verwerkt als het verschil tussen grote en werkte. Anderzijds wordt er geen verschil gemaakt tussen trap (ladder), trap (schop: zelfstandig naamwoord) en trap (schop: werkwoord). Onder het opzicht van de betekenis is deze definitie dus volkomen inadequaat. Dat ziet Martin zelf ook wel in en daarom zegt hij dat hij deze definitie alleen zal hanteren bij het onderzoek van de structuur van het vocabularium (zie daarvoor hieronder § 4), omdat daarbij ‘de betekenis van het woord geen rol speelt’ (p. 27). Martin laat echter wel degelijk bij zijn interpretatie het begrip betekenisverschil impliciet een rol spelen door het gebruik van termen als. ‘woordenschat’ (p. 11), ‘woordvoorraad’ (p. 59) en ‘lexicale rijkdom’ (p. 80). In de trant van Martin zou men bijvoorbeeld kunnen zeggen dat een tekst die bestaat uit 9 verschillende vormen van het werkwoord hebben, een even grote ‘woordenschat’ bezit als een tekst die bestaat uit 9 verschillende vormen van 9 verschillende werkwoorden. Dezelfde fout - het ongeoorloofd semantisch interpreteren van strikt grafische gegevens - maakt Martin bij zijn manipulaties met het begrip ‘lexicon’ (zie daarvoor hieronder § 3).

(b) De lexicale definitie van woordidentiteit

Door het gebruik van de lexicale definitie van woordidentiteit worden er meer betekenisverschillen gehonoreerd dan bij het gebruik van de grafische definitie. Maar er gaat dan ook heel wat van de door Martin zo nagestreefde objectiviteit verloren.

Op de eerste plaats maakt het verbinden van een woord met een lemma van het woordenboek vaak een subjectieve interpretatie nodig. Dit blijkt bij Martin uit het feit dat nam wel wordt herschreven tot nemen (p. 21), maar verkleinwoorden niet tot hun grondwoord (p. 141). Ook het scheiden van homoniemen op basis van hun context (in dit geval een KWIC-index; p. 21) blijft een subjectieve aangelegenheid, zolang er nog geen volledige en expliciete grammatica van het nederlands tot stand is gekomen.

Op de tweede plaats is Martin afhankelijk van de lemmata die Van Dale in zijn woordenboek heeft opgenomen. Wanneer een woord niet direct (bij grafische identiteit met het lemma) of indirect (via boven-

genoemde subjectieve interpretatie) bij een lemma kan worden ondergebracht, dan heeft Martin nog drie pijlen op zijn boog: ofwel (1) hij breidt het aantal lemmata uit door andere woordenboeken (i.c. Koenen, Verschueren) te hulp te roepen (p. 116), ofwel (2) hij breidt het woordenboek uit met een aantal samenstellingsregels (b.v. bij aanfloepen; p. 116-117), ofwel (3) hij beschouwt het betreffende woord als neologisme.

Wij achten de lexicale definitie niet adequaat voor uitspraken op het gebied van de betekenis. Tussen man en mannetje is er dan evenveel verschil als tussen man en vrouw. Bij een woord als boerendorp aan de ene kant en de woorden boer en dorp aan de andere kant wordt geen enkele betekenisovereenkomst aangegeven. Het zou daarom beter geweest zijn, als Martin nog een stapje verder gegaan was dan de lexicale definitie, en morfemen had aangenomen als eenheid van onderzoekGa naar voetnoot2). Het aantal subjectieve beslissingen was dan weliswaar nog wat toegenomen, maar het onderzoek was in elk geval gebaseerd geweest op eenheden die werkelijk een paradigmatische dimensie hebben. Het lijkt ons altijd nog beter een onderzoek te doen dat misschien ooit zinvol zal blijken te zijn, dan een onderzoek waarvan direct al aan te tonen is dat het zinloos is, omdat het - wanneer er tenminste niet onjuist geëxtrapoleerd wordt - niet tot belangrijke uitspraken kan leiden (met het oog op het onderzoeksdoel). Een betere lezing van het artikel van Seuren had Martin voor deze fundamentele fout kunnen behoeden.

Het lijkt ons dat Martin zich in het algemeen erg weinig om problemen als het bovenstaande bekommert, gezien zijn uitspraak: ‘Belangrijk is (.....) niet zozeer welke norm men kiest dan wel überhaupt één (zo eenvoudig mogelijk, wel omlijnde) norm’ (p. 24-25). Het geeft met andere woorden niet waarvoor en hoe de definities opgesteld worden, als het maar expliciet gebeurt. Het is duidelijk dat

een dergelijke methode het object wel afbreuk moet doen. Daarom moet Martins onderzoek vanuit methodologisch oogpunt als zeer twijfelachtig aangemerkt worden. Deze conclusie zal in de volgende §§ ook voor zijn statistiek nog onderstreept worden.

In § 4 t/m § 9 zullen we nagaan of Martin op statistisch gebied vermeldenswaardig werk gedaan heeft. We zullen daar zolang aannemen dat als eenheden van onderzoek de morfemen gekozen zijn, omdat anders het zicht op elke door Martin toegepaste statistische bewerking vertroebeld wordt door het foutieve uitgangspunt dat Martin gekozen heeft door de woorden als paradigmatische eenheden te beschouwen. Voor ‘woorden’ leze men in deze praragrafen dus telkens ‘morfemen’.

§ 3. Statistiek en taal

De Saussure heeft indertijd het onderscheid gemaakt tussen langue en parole, waarmee hij respectievelijk het (supra-individuele) taalsysteem en het gebruik dat er door de individuen van dit systeem gemaakt wordt, aangaf. Dit onderscheid tussen taalsysteem en individueel taalgebruik heeft Martin op p. 15 taalstatistisch proberen te interpreteren: ‘individueel gezien bestaat de “parole” uit linguistische eenheden die resulteren uit een keuze van de taalgebruiker uit de hem ter beschikking staande middelen. Globaal gezien merken we dat het geheel van deze individuele “keuzen” (geheel dat “la langue” wordt geheten) een zulkdanige structuur heeft dat elke keuze kan verklaard worden als het resultaat van een tirage aléatoire uit dit geheel’. We merken op dat Martin het hier in feite over drie verschillende dingen heeft, namelijk:

(1) De middelen die de taalgebruiker ter beschikking staan. Deze middelen werden door De Saussure de langue genoemd.

(2) Datgene wat Martin als langue aanduidt: een verzameling van individueel taalgebruik. Het is niet duidelijk of Martin de verzameling van alle taalgebruik van alle individuen bedoelt, dan wel de verzameling van alle taalgebruik per afzonderlijk individu; uit het woord ‘globaal’ in het bovenstaande citaat is dat niet op te maken. Wat Martin langue

noemt is en blijft echter taalgebruik, en valt daardoor onder het Saussuriaanse begrip parole.

(3) Datgene wat Martin als parole aanduidt: het actuele taalgebruik van een individu. Dit valt eveneens onder het Saussuriaanse begrip parole.

Het lijkt ons dat het invoeren van begrip (2) vanuit statistisch oogpunt zeer zinvol kan zijn, maar we hebben er ernstige bezwaren tegen dat de begrippen (1) en (2) door elkaar gebruikt worden, zoals Martin in zijn boek doet. Tussen (1) en (2) bestaat nog steeds het verschil van taalsysteem en taalgebruik. Dat mag een taalstatisticus zeker niet uit het oog verliezen.

Dat Martin op een tweeslachtige manier het begrip langue hanteert, blijkt uit zijn behandeling van de relatie tussen het lexicon en het vocabularium. Na op p. 15 (zie boven) de langue gedefinieerd te hebben als een verzameling van taalgebruik, definieert hij het lexicon (dat hij, als we zijn verhaal goed begrepen hebben, tot de langue rekent) als: ‘de potentiële woordvooraad of anders geformuleerd de woordvoorraad die de schrijver ter beschikking staat’ (p. 48), waarmee het lexicon ingelijfd wordt bij de middelen die de taalgebruiker ter beschikking staan: het taalsysteem. Het vocabularium van de tekst levert, als de actuele woordvoorraad die de schrijver in de tekst gebruikt heeft, en als zodanig behorend tot de parole, geen terminologische verwarring op.

Wanneer we zouden verwachten dat Martin de term lexicon steeds in zijn taalsystematische betekenis gebruikt, komen we bedrogen uit. Op p. 48-49 en p. 77-78 komt Martin namelijk op basis van o.a. een onderzoek van de z.g. hapax legomena (V₁-woorden: woorden met frequentie 1) tot de conclusie, dat Michiels bij het schrijven van Het boek Alfa zijn lexicon bewust ingekrompen heeft ten opzichte van het lexicon dat aanwezig was bij het schrijven van Het afscheid. Op p. 80 beweert hij zelfs dat het lexicon per passage verandert (omdat het aantal V₁-woorden per passage wisselt). Dit nu is onmogelijk bij een lexicon als taalsystematisch gegeven. Het lexicon (van een individu in dit geval) blijft in de tijd constant of wordt groter, tenzij factoren als vermoeidheid, geheugenverlies of ouderdom een remmende rol spelen (p. 48-49). Bij Michiels is niet het lexicon veranderd, maar het

gebruik dat de auteur van zijn lexicon maakt. De schrijver kan bewust besluiten bepaalde woorden niet te kiezen. Wanneer Martin zijn conclusie op deze wijze geformuleerd had, zou zijn onderzoek taalkundig gezien minder onaanvaardbaar geworden zijn. Tevens was dan duidelijk geworden dat er nog een andere verklaring mogelijk is voor het verschil tussen de vocabularia van beide onderzochte werken, namelijk dat Michiels bij de behandeling van het thema van Het afscheid over meer voor dat thema bruikbare lexicale items beschikt dan bij de behandeling van het thema van Het boek Alfa. Het lijkt niet zo vreemd te veronderstellen dat Michiels bijvoorbeeld niet beschikt over een uitgebreide voorraad legertermen, lexicale items die hij in Het boek Alfa zeer goed had kunnen gebruiken. Dat zou verklaren, dat er in Het boek Alfa maar weinig verschillende legertermen gebruikt worden, maar tevens dat de legertermen die gebruikt worden, een relatief hoge frequentie hebben (p. 110).

We maken tenslotte nog twee opmerkingen over het lexicon (in de betekenis van de voor een individu beschikbare voorraad woorden, of morfemen).

(a) Herhaaldelijk (p. 30, 53-54, 77-78, 92-93) betoogt Martin dat de hapax legomena een belangrijke aanwijzing geven voor de uitgebreidheid van het lexicon van de taalgebruiker. Hij merkt op p. 53-54 wel terecht op, dat V₁ sterk afhankelijk is van de tekstlengte (omdat het lexicon in de praktijk eindig is; zie hieronder), maar daar houdt hij bij zijn conclusies geen rekening meer mee. Dit is erg gevaarlijk, zoals blijkt uit het volgende. Als we de tekstlengte van 1 laten toenemen tot oneindig, zal V₁ aanvankelijk toenemen. Op het moment echter dat V (het aantal verschillende woorden) begint te naderen tot L (de grootte van het lexicon, of liever de grootte van het voor het thema bruikbare deel van het lexicon) zal V₁ gaan dalen, omdat er weinig nieuwe woorden meer bijkomen en er daardoor veel woorden uit V₁ zullen overgaan naar een hogere frequentieklasse. Bij een bepaalde tekstlengte zal V₁ = o zijn. De waarde van V₁ lijkt alleen een geschikte indicatie voor (het bruikbare deel van) L, wanneer V₁ nog niet over zijn top heen is, maar die top moet wel eerst vastgesteld worden. Martin heeft dit nagelaten, zodat de resultaten van zijn V₁-onder-

zoek twijfelachtig zijn. De twijfelachtigheid van de interpretatie van die resultaten, die we hierboven al gesignaleerd hebben, wordt hierdoor dus nog vergroot.

Voor de verdeling van V₁-woorden in grammaticale categorieën zie hieronder § 8.

(b) Martin zegt op p. 39 dat ‘het lexicon van de taalgebruiker, practisch gezien, eindig is’, waarbij hij in de voetnoot opmerkt, dat ‘het lexicon van een persoon (...) daarentegen, theoretisch gezien, niet te meten’ is. Inderdaad zou een ‘lexicon’ dat bestaat uit woorden, oneindig zijn, omdat het onmogelijk is het langste woord aan te wijzen dat de taalgebruiker zou kunnen construeren (denk aan woorden als hottentottententententoonstellingsterreinen...etc.) Een lexicon bestaat echter uit morfemen en moet eindig zijn, omdat de geheugencapaciteit van elke taalgebruiker eindig is. Via regels is de taalgebruiker in staat op basis van dit eindige aantal morfemen een oneindig aantal woorden te construeren.

§ 4. De reductie van een vocabularium

Om twee teksten te kunnen vergelijken moeten beide even lang zijn. Om dit te bereiken dient de langste tekst gereduceerd te worden tot hij de lengte heeft van de kortste tekst. Martin stelt voor de methode van Muller te gebruiken voor het reduceren van het vocabularium in Het afscheid, omdat deze methode de grootste garantie biedt voor het behoud van de structuur van de frequentieverdeling (p. 37-38). De definitie van structuur ontbreekt, zodat deze uitspraak niet geverifieerd kan worden. Later (p. 47) blijkt, dat de juistheid van de reductie moet volgen uit ten eerste het gelijkblijven van de K-factor en ten tweede hetzelfde dalingspatroon van het effectief van de frequentieklassen bij Het afscheid en het reductie resultaat van Het afscheid (Afscheid-R), hoewel deze eis niet essentieel is. Wij stellen hierbij de volgende vragen.

(a) Hoe is bepaald, dat de K-factor belangrijker is dan het genoemde dalingspatroon?

(b) Waarom is de K-factor zo belangrijk, gezien de juiste opmer-

king (p. 37), dat de K-factor slechts één aspekt van de frequentiedistributie weergeeft?

(d) Is het niet beter de juistheid van de reductiemethode theoretisch te bewijzen uit de gebruikte formules en het gestelde doel nl. behoud van (goed gedefinieerde) structuur?

Overigens is ondanks alle ‘bewijzen’ (p. 41, 47-48) de gebruikte formule onjuist, hetgeen moge blijken uit het volgende eenvoudig na te rekenen voorbeeld (notatie op p. 40).

Neem de tekst: Wie is Wie. Hiervoor geldt:

effectief van frequentieklasse 1 = V₁ = 1 (het woordje is)

effectief van frequentieklasse 2 = V₂ = 1 (het woordje wie)

(ter controle:	V = aantal typen = V₁ + V₂ = 2;
	N = aantal tokens = V₁ + 2V₂ = 3).

Als deze tekst op welke wijze ook gereduceerd wordt tot een tekst ter lengte 1 dan moet het nieuwe aantal tokens N' = 1 zijn en het nieuwe aantal typen V' ook 1, dus V'₁ = 1 en V'₂ = 0.

(ter controle	V' = aantal typen = V'₁ + V'₂ = 1;
	N' = aantal tokens = V'₁ + 2V'₂ = 1).

Toepassing van de formule (p. 43) levert met p = N'/N = 1/3, q = 1-p = 2/3, V₁ = 1 en V₂ = 1

V'₀ = q.V₁ + q².V₂ = 10/9

V'₁ = p.V₁ + 2pq.V₂ = 7/9

V'₂ = p².V₂ = 1/9

Dit resultaat stemt niet overeen met de verwachting.

(controle	V' = aantal typen = V'₁ + V'₂ = 8/9 ≠ 1;
	N' = aantal tokens = V'₁ + 2V'₂ = 1)

Wat Muller wilde is het volgende. Een tekst moet gereduceerd worden van lengte N tot lengte N'. Dit kan gebeuren door uit de tekst aselekt woorden weg te laten tot de lengte N' is bereikt. De frequentieverdeling van de aldus ontstane (onleesbare) tekst wordt door het toeval bepaald. Immers als nu nog eens de oorspronkelijke tekst gereduceerd wordt tot de lengte N' door aselekte trekking, ontstaat een

andere (onleesbare) tekst met een andere frequentieverdeling. Als dit proces (oneindig) vaak herhaald wordt zal de frequentieverdeling, ontstaan door het gemiddelde te nemen van alle verkregen frequentieverdelingen, op den duur constant worden. Muller wilde nu deze (verwachte) frequentieverdeling, die niet meer van het toeval afhankelijk is, berekenen. Zoals het proces beschreven is zal het er niet toe doen of we de tekst eerst reduceren tot een lengte N₁ (N>N₁>N') en daarna tot de lengte N'. Immers alle tussenliggende aantallen worden automatisch bereikt bij de trekking. De formule van Muller geeft echter een ander resultaat als de reductie in meerdere stappen uitgevoerd wordt. Dit komt omdat Muller geen rekening houdt met het feit, dat tijdens het reductieproces de kans een bepaald woord te trekken groter wordt. Er wordt namelijk zonder teruglegging getrokken. De juiste formule voor het verkrijgen van de verwachte frequentieverdeling gaat dan ook niet uit van de binomiale verdeling, maar van de hypergeometrische verdeling. We verwijzen hiervoor naar het in § 2 genoemde Eindverslag no. 2 van de Projektgroep ‘Kwantitatieve benadering van moderne poëzie’. De formules zijn:

illustratie

Hierin is:

N	= lengte van de oorspronkelijke tekst.
m	= aantal weg te laten tokens
N-m	= lengte van de gereduceerde tekst = N'.
V_i	= effectief van de i^e frequentieklasse.
V'_j	= effectief van de j^e frequentieklasse in de gereduceerde tekst.

Met de binominale verdeling zou volgens Muller gelden:

illustratie

Opgemerkt dient dat voor grote N en kleine m/N beide formules ongeveer hetzelfde resultaat geven. De resultaten van p. 44-46, waar het gaat over frequentiedistributies, zullen wel goed zijn (m/N = 0,22),

maar de resultaten van p. 65, waar het gaat over de groei van het vocabularium en waarbij m/N kan oplopen tot 0.94, lijken ons onbetrouwbaar.

§ 5. Statistische parameters voor de vergelijking van vocabularia

Martin vergelijkt de uitkomsten van een aantal statistische parameters. Om de beoordelingswijze te analyseren geven we zijn resultaten in tabel 1.

Tabel 1

Samenvatting van de resultaten en conclusies van het onderzoek van Martin naar enkele statistische parameters.

Symbool	Omschrijving	Waarde in alfa	Waarde in afscheid-r	Conclusie	Pag.
N	aantal tokens	33489	33654	verschil is verwaarloosbaar	47
V	aantal typen	3800	4089	aanzienlijke inkrimping in ALFA	48
	N/V	8.81	8.23	idem als V	49
SD	standaarddeviatie	63.03	54.33	niet te vergelijken	50
v	σ/	7.15	6.60	groter in ALFA	51
C	concentratie	50.50	49.80	groter in ALFA	51
R	rijkdom	20.76	22.34	groter in AFSCHEID	51
K	K van Yule	136.94	108.72	duidelijk onderscheid tussen ALFA en AFSCHEID	51
v_m	variatiecoëfficiënt der gemiddelden	0.116	0.104	idem als K	51
% V_l	percentage V_l-woorden = 100 V_l/V	51.13	52.33	duidelijk bewuste inkrimpingstendens inzake woordgebruik en woordvoorraad	54

	Reële belastingen
A	f ≥ 1000	16.16	13.24	groter in ALFA	56
B	500 ≤ f < 1000	7.05	14.29	groter in AFSCHEID	56
C	100 ≤ f < 500	25.88	21.01	groter in ALFA	56
D	10 ≤ f < 100	28.35	27.78	dicht bij elkaar	56
E	f < 10	22.07	23.55	groter in ALFA	56

We maken hierover de volgende opmerkingen:

(1) Het doel van de onderzoeksmethode ‘objectivering van de esthetische beoordeling’ (p. 11) komt hier in het gedrang. Immers

de conclusies die Martin trekt uit de getallen zijn subjectief, vooral wanneer hij de gevonden verschillen gaat voorzien van predicaten als: ‘aanzienlijk’, ‘duidelijk’ enz. De beoordeling is dan ook weinig esthetisch als niet aangegeven wordt hoe de beoordeling tot stand komt (b.v. waarom zijn de verschillen in N en in de reële belastingsklasse D verwaarloosbaar, en de verschillen elders niet?).

(2) Door het ontbreken van goede criteria is het te verklaren dat er bij de beoordeling tegenstrijdige opmerkingen gemaakt worden, b.v.:

a) Op p. 48 wordt gesproken van een aanzienlijke inkrimping van V, terwijl op p. 57 gesteld wordt, dat N en V globaal gelijk zijn voor beide werken.

b) De beoordeling van de V_l-woorden blijkt op een andere wijze te moeten geschieden dan de beoordeling van de andere parameters. Hier zegt Martin dat de cijfers alleen slechts tot een vermoeden kunnen leiden. De definitieve beslissing laat hij over aan een (significantie)toets (p. 54). Deze inconsequentie is te verklaren uit het feit dat Martin voor de andere parameters geen toets kon vinden. Dit geeft hem echter niet het recht de conclusies voor de niet te toetsen parameters met zo'n grote stelligheid te trekken als hij doet.

c) Ook daar waar wel duidelijke criteria bestaan, nl. bij het toetsen, hanteert Martin willekeurige normen (p. 71, voetnoot 2).

(3) De toets voor het vergelijken van de percentages V_l-woorden, gevonden bij Miclau (p. 54-55, voetnoot), is een zeer ongebruikelijke variant van de toets in de 2 × 2-tabel. De χ²-toets, die normaal gebruikt wordt en ook aan Martin bekend is (p. 85), hoeft zijn plaats niet af te staan aan deze formule. Overigens werd de toets niet uitgevoerd op het percentage V_l-woorden onder de types (V_l/V), zoals uit de tekst zou zijn op te maken, maar op het percentage V_l-woorden onder de tokens (V_l/N).

§ 6. De groei van het vocabularium

Het idee om de gevonden groei (p. 59-62) van het vocabularium te vergelijken met de theoretische groei ervan (p. 63, 64) is goed. Mar-

tin merkt op dat zowel de χ²-test als de z-waarden-methode bruikbaar is voor de analyse (p. 68). De χ²-test kan hooguit tot de uitspraak leiden, dat er verschil is tussen de gevonden en de theoretische groei. Met de z-waarden kan ook nog gezegd worden hoe de afwijkingen voorkomen (p. 68, 71, 72). Dit voordeel heeft waarschijnlijk de keuze op de z-waarden-methode laten vallen. De z-waarden zijn echter bedrieglijk en wel op de volgende gronden.

(1) Er wordt per curve meer dan één toets toegepast. Voor Het afscheid b.v. worden 22 z-waarden getoets. Als nu de werkelijke groei geheel volgens verwachting verloopt, kan men op grond van het toeval enkele significante verschillen verwachten. De χ²-test echter beoordeelt de afwijkingen als geheel. In Het afscheid is χ² = 30.25 bij 21 vrijheidsgraden. De kritische waarde van de χ² bij 21 vrijheidsgraden bij 5% is 33.67. Dus wijkt de gevonden groeicurve niet significant af van de theoretische groeicurve. De significante z-waarde(n) (p. 71) kunnen dus door toeval ontstaan zijn. De z-waarden-methode wordt om o.a. deze reden in de mathematische statistiek niet aanvaard.

(2) De z-waarden zijn onderling afhankelijk. Hoe deze afhankelijkheid de conclusies zal beïnvloeden is niet vast te stellen, hetgeen aan de hand van het volgende voorbeeld is duidelijk te maken.

Beschouw een volgens verwachting groeiend vocabularium. Neem b.v. de theoretische groei van Het boek Alfa. Voeg aan dit werk 1 deel van 2000 woorden normaal opgebouwde tekst toe in een vreemde taal (er treedt dus geen ‘overlap’ op met het boek Alfa wat betreft de typen). Omdat het toegevoegde stuk normaal is opgebouwd, kan verondersteld worden dat het ook circa 712 nieuwe woorden zal bevatten, evenals het eerste deel van het theoretische Alfa. Het aldus ontstane werk zal 3800 + 712 = 4512 typen bevatten en 17 + 1 = 18 delen. Voor het ‘vreemde werk’ werd een frequentiestructuur aangenomen en opgeteld bij de frequentiestructuur van Het boek Alfa. Uit de resulterende frequentiestructuur werd met behulp van reductieformules de theoretische groei berekend voor het gehele werk (zie tabel 2, kolom 1).

Tabel 2

Uitwerking van de z-waarden-methode voor een voorbeeld. De z-waarde van een fragment is gedefinieerd als z = d/σ waarin d = het verschil tussen de theoretische groei en de waargenomen groei en σ = de standaardafwijking van d, volgens de formule σ = √npq met n = het aantal tokens = 4512, p. = de theoretische groei gedeeld door n en q = l-p. De toetsingsgrootheid voor de χ²-toets is de som van de kwadraten van de z-waarden, indien σ gewijzigd wordt in σ = √np. De z-waarden kunnen getoetst worden met de normale verdeling. De z-waarden, die significant zijn bij een drempel van 5%, hebben in kolom c een *-teken.

Fragment nummer	Kolom 1 Theoretische groei van het gehele werk	Kolom 2 σ = √npq	Kolom 3 Als het ‘vreemde werk’ voorin is geplaatst			Kolom 4 Als het ‘vreemde werk’ in het midden is geplaatst (fragment 8)
			a groei	b z-waarde	c sign.	a groei	b z-waarde	c sign.
1	821	25.91	712	-4.21	*	712	-4.21	*
2	475	20.62	712	11.49	*	412	-3.06	*
3	373	18.50	412	-2.11	*	324	-2.65	*
4	317	17.17	324	0.41		275	-2.45	*
5	279	16.18	275	-0.25		242	-2.29	*
6	250	15.37	242	-0.52		217	-2.15	*
7	229	14.74	217	-0.81		199	-2.03	*
8	212	14.21	199	-0.91		712	35.19	*
9	198	13.76	184	-1.02		184	-1.02
10	185	13.32	172	-0.98		172	-0.98
11	176	13.01	161	-1.15		161	-1.15
12	166	12.64	153	-1.03		153	-1.03
13	159	12.39	144	-1.21		144	-1.21
14	152	12.12	138	-1.16		138	-1.16
15	145	11.85	132	-1.10		132	-1.10
16	139	11.61	126	-1.12		126	-1.12
17	135	11.44	121	-1.22		121	-1.22
18	101	9.94	88	-1.31		88	-1.31
	_____		_____			_____
Totaal	4512		4512			4512

Bij deze theoretische waarden behoren volgens de formule van p. 70 (voetnoot 1) de σ-waarden van kolom 2. Al naar gelang de plaats van het ‘vreemde werk’, dat, waar dan ook geplaatst, altijd voor een toename van 712 typen zal zorgen, worden kolom 3 en kolom 4 ge-

vonden voor de groei, z-waarden en significantieniveau. De getallen uit kolom 3a en 4a zijn, afgezien van de onderbreking tengevolge van het vreemde werk, de theoretische groeiaantallen uit Martins tabel op p. 70. Indien het vreemde werk als 1e deel is geplaatst, zien we toch de meest afwijkende z-waarde bij het 2e deel (kolom 3b). Verder wordt ook door de afhankelijkheid het 3e deel significant. De conclusie die uit de z-waarden getrokken zou worden, nl. dat het 2e deel vreemd is, is niet juist. Indien het vreemde deel op de 8e plaats gezet wordt, komt men tot de juiste conclusie dat dit deel vreemd is, echter alle voorgaande delen zijn ook significant afwijkend van de verwachting. Er worden dus veel niet interpreteerbare significanties geïntroduceerd door de afhankelijkheid van de z-waarden. Zelfs het aantal significante z-waarden is niet relevant te noemen. Als tenslotte het vreemde werk op de 2e plaats zou staan, krijgt men weer kolom 3b als z-waarden. De conclusie dat het 2e deel vreemd is, is nu wel correct, echter de andere significanties (1e en 3e deel) zijn niet interpreteerbaar. Op deze manier zijn ook voorbeelden te construeren waarbij het vreemde werk niet significant is en ‘normale’ delen wel. In al deze gevallen zou de χ²-test leiden tot de juiste conclusie dat er een significant verschil bestaat tussen de gevonden en de theoretische groei. Een nadere specificatie is dan niet mogelijk, maar men wordt wel behoed voor onjuiste conclusies. Het genoemde voorbeeld is weliswaar niet realistisch, doch geeft wel een inzicht in de moeilijkheden bij de interpretatie van zowel de significante z-waarden als zodanig, als van het aantal significante z-waarden.

§ 7. De plaats van de frequentste woorden

Martin wil de lengte van de tekst berekenen, waarbinnen met 95% zekerheid een zeer frequent woord voor het eerst optreedt, onder de voorwaarde van een aselecte woordvolgorde. Hij komt zowel voor Het afscheid als voor Het boek Alfa tot een lengte van 4000 woorden (p. 75).

Hierbij is het volgende op te merken.

(1) Door zijn indeling in porties van 1000 woorden maakt Martin het zich nodeloos moeilijk en zijn de resultaten te onnauwkeurig. Immers de kans dat een woord voor het eerst optreedt in de i-de portie

(i = 1, 2, 3, 4), is niet relevant gezien de doelstelling. De formules kunnen daarom beperkt blijven tot die van p. 73 bovenaan.

Wat berekend moet worden is het volgende. Stel de gevraagde grens = g en de totale lengte van de tekst = N, dan geldt:
q = 1-g/N is de kans dat een V_l-woord niet bij de eerste g woorden komt. q^f = (1-g/N)^f is de kans dat een woord met frequentie f niet bij de eerste g woorden voorkomt. Deze kans moet gezien de eis van 95% zekerheid gelijk zijn aan 0.05, zodat g opgelost moet worden uit (1-g/N)^f = 0.05. Met deze formule kan men tevens voor ieder woord zijn eigen grens g berekenen op grond van zijn frequentie f. Door te snel afronden bij de berekening (p. 75) zijn Martins resultaten onnauwkeurig geworden en wordt genoemde kans in Het afscheid 0.058 (voor g = 4000), doch moet 0.072 zijn. Een nauwkeurige berekening van de grens g levert voor Het Afscheid 4500 en voor Het boek Alfa 4085, zodat de woorden meneer en naast van de lijst van Het Afscheid afgevoerd moeten worden.

(2) De grenzen zijn zodanig gekozen, dat de zeer frequente woorden een kans van 5% hebben om een uitzondering te worden. Bij 200 woorden zijn op grond van toeval 5% van 200 = 10 uitzonderingen te verwachten. Bij Het Afscheid worden slechts 8 uitzonderingen gevonden (in werkelijkheid 6). Zijn dit nu toch bijzondere woorden, die de moeite van het vermelden waard zijn?

(3) Waarom al dit rekenwerk, als in de uiteindelijke conclusie (p. 77) de grens zonder meer op 5000 wordt gesteld? Wegen deze 1000 extra woorden voor beide werken even zwaar?

§ 8. De verdeling der grammaticale categorieën

We zullen hier niet uitgebreid ingaan op de toename van de oncontroleerbaarheid, wanneer woorden op de traditionele wijze in woordsoorten ingedeeld worden. Martin is zich wel bewust van deze subjectiviteit (p. 81), maar dat brengt hem toch niet tot een duidelijk relativerende houding ten aanzien van de resultaten van dit deel van het onderzoek. We beperken ons met betrekking tot zijn onderzoek van deze grammaticale categorieën tot 2 punten.

(1) Op p. 90 wordt de belangrijke betekenis van het woordje en

besproken. Hierbij waagt Martin zich aan een zeer gevaarlijke extrapolatie van de steekproefgegevens naar de gegevens voor de gehele tekst. Het aantal voegwoorden in Het boek Alfa resp. Het Afscheid wordt geschat op 4266 resp. 4012. Bij deze aantallen wordt het verwachte aantal voegwoorden in Het boek Alfa bij een gelijkmatige verdeling van de voegwoorden over beide werken, mede gezien de tekstlengten, gesteld op 3626, zodat er een surplus van 640 voegwoorden geconstateerd wordt. Reeds eerder was berekend dat Het boek Alfa een surplus van 441 aan het woordje en heeft. Het surplus aan voegwoorden wordt voor ⅔ toegeschreven aan het woordje en. Op deze schatting wordt de verdere conclusie gebaseerd. Dit zijn goede schattingen.

Er zijn echter vele goede schattingen te bedenken. Laten we het aantal voegwoorden in Het boek Alfa en Het Afscheid schatten op 4500 resp. 3800. Het verwachte aantal voegwoorden in de steekproeven van 5000 woorden is dan 672 resp. 443. Als er nu 637 resp. 468 voegwoorden gevonden worden, dan zijn de verschillen door toeval te verklaren. Bij deze aantallen is het verwachte aantal voegwoorden in Het boek Alfa op grond van een gelijkmatige verdeling over beide werken gelijk aan 3640, zodat er nu een surplus van 860 voegwoorden is. Het woord en, dat ongeveer de helft van het aantal voegwoorden uitmaakt (2214 van de 4500), maakt nu ook ongeveer de helft van het surplus uit (441 van de 860). Er mag dus aangenomen worden dat ‘een onderzoek naar de syntactische valentie van dit woord en naar de functie ervan in de ritmische structuur van de zin’ (p. 90) wellicht tijdverspilling zal zijn.

(2) Martin verdeelt ook de V_l-woorden, die volgens hem een indicatie voor het lexicon zijn, in grammaticale categorieën (p. 92-93). Daarbij veronderstelt hij impliciet, dat een lexicon inderdaad grammaticale categorieën bevat en wel de door hem gepostuleerde. Dit wordt tegenwoordig nogal aangevochten. Maar zelfs wanneer waar zou zijn wat Martin veronderstelt, dan nog zou hij voor iedere categorie afzonderlijk moeten onderzoeken of het aantal gebruikte woorden daarin nadert tot de grootte van het ‘lexicon’ van deze categorie. We lichten dit toe aan de hand van een voorbeeld voor de categorie ‘lidwoorden’

(lidwoorden horen weliswaar niet in een lexicon thuis omdat ze geen lexicale betekenis hebben, maar ze hebben voor dit voorbeeld de prettige eigenschap, dat ze een zeer kleine categorie vormen).

Stel er zijn twee teksten:

Tekst 1 heeft aan lidwoorden 4 × de, 1 × het en 1 × een

Tekst 2 heeft aan lidwoorden 2 × de, 2 × het en 2 × een

De conclusie op grond van de V₁-woorden zou zijn, dat tekst 1 een grotere lexicale potentie aan lidwoorden heeft dan tekst 2.

§ 9. Plus- en minuswoorden

(1) Martin heeft gelijk als hij stelt dat door toeval, onderwerpgebondenheid, etc. woorden voorkomen, die een ongewone frequentie vertonen in het ‘grote sampel van 20 auteurs’. Het idee om de frequenties te corrigeren naar het aantal bronnen is goed. Martin gebruikt de U-waarde (p. 97), als gecorrigeerde frequentie, om de meest gebruikte woorden in het grote sampel te vinden. Dat hij later bij de berekeningen weer terugvalt op de oorspronkelijke versmade frequenties, is inconsequent. Dit moge blijken uit het volgende voorbeeld, dat inhaakt op het voorbeeld met hoofd en leraar (p. 97-99).

	hoofd	leraar
frequentie in het ‘grote sampel’ (250.000)	211	211
U-waarde = frequentie gecorrigeerd naar voorkomen	193	65
verwachte frequentie in een tekst van 60.000 woorden (f_e)	50,5	50,5
Stel: gevonden in een tekst van 600.000 woorden (f_o)	45	14
Ecart Reduit = (f_o-f_e)/√f_e	-0,80	-5,14

In dit voorbeeld komt leraar te weinig voor in de tekst van 60.000 woorden, omdat zijn Ecart Reduit kleiner is dan -5. Het woord hoofd komt normaal voor. Bezien we echter de U-waarden dan verwachten we voor hoofd en leraar een verhouding van 193/65, welke verhouding ook in de realisatie (45/14) terug te vinden is, zodat op grond van de U-waarden geconcludeerd mag worden, dat beide woorden normaal voorkomen.

(2) Een ander bezwaar tegen de definitie van minuswoorden moge blijken uit de volgende beschouwing. Er worden twee soorten minuswoorden onderscheiden (p. 100):

a) negatieve sleutelwoorden zijn woorden met een Ecart Reduit

kleiner dan -5 met als voorwaarde, dat de waargenomen frequentie minimaal 10 is.

b) negatieve outsiders zijn woorden die op de basislijst wel voorkomen (bij minimaal 18 van de 20 auteurs) en in het onderzochte werk niet voorkomen.

Bij de keuze van deze criteria kan zich het volgende voordoen. Stel een woord heeft op grond van het ‘grote sampel’ een verwachte frequentie van 49. Stel de frequentie van dit woord in de tekst is:

0:	Het woord is een minuswoord omdat het zal voldoen aan eis b.
1-9:	Het woord is geen minuswoord omdat het niet voldoet aan eis a (frequentie < 10) en niet voldoet aan eis b (frequentie > 0).
10-13:	Het woord is een minuswoord omdat het voldoet aan eis a (Ecart Reduit < -5 en de frequentie ≥ 10).

De discontinuïteit geïntroduceerd door de criteria is ontoelaatbaar.

Ieder woord in het basisvocabularium heeft een U-waarde groter dan 20. De frequentie van zo'n woord in het ‘grote sampel’ zal groter zijn dan 20. Stel dat een woord een frequentie 25 heeft. De verwachting in een tekst ter lengte 34.000 is 3,4. Stel het woord komt in de onderzochte tekst niet voor. Het kan dan een negatieve outsider zijn, echter zijn Ecart-Reduit = (0-3,4)/√ 3,4 = -1,85. De eis voor een negatief sleutelwoord (E.R. < -5) is dus aanzienlijk sterker dan voor een negatieve outsider. Pas bij een frequentie van 180 is het ‘grote sampel’ en een frequentie van o in de onderzochte tekst (lengte = 34.000) wordt het E.R. gelijk aan -5. Bij alle negatieve outsiders die Martin gevonden heeft, lag het E.R. aanzienlijk dichter bij nul.

(3) Het is uiteraard toegestaan de plus- en minuswoorden te rangschikken naar dalend E.R. Men bedenke echter dat het E.R. slechts een maat is voor de zekerheid waarmee men kan besluiten dat een woord uitzonderlijk is, maar geen maat voor de afwijking van de norm zelf. Hiervoor zou men b.v. de verhouding tussen de gevonden frequentie en de op grond van het basisvocabularium verwachte frequentie kunnen nemen.

(4) De opmerking van de auteur (p. 99, voetnoot 2) dat de eisen voor plus- en minuswoorden niet belangrijk zijn voor het vergelijken van

de twee boeken, is zeer twijfelachtig als men bedenkt dat sommige eisen oncontroleerbare consequenties hebben. Overigens is het, gezien het soort conclusies, dat de schrijver trekt uit de gevonden plus- en minuswoorden (p. 115), de vraag of niet de frequenties van Het boek Alfa en Het Afscheid direct vergeleken moeten worden in plaats van deze indirecte analyse, en beide werken te samen vergeleken moeten worden met het basisvocabularium.

§ 10. Conclusies

Wanneer we alle kritiek uit de voorafgaande paragrafen op het taalstatistische onderzoek van Martin overzien, moeten we tot de conclusie komen dat dit onderzoek noch taalkundig, noch statistisch op een bijzonder hoog peil staat. Martin heeft in zijn computer-enthousiasme zijn object wel erg links laten liggen. Dit onderzoek had bij de huidige stand van de taalkunde en de statistiek stukken beter gekund. Het boek moet dan ook zeer kritisch gelezen worden en is niet geschikt om er methoden uit over te nemen.

We kunnen ons daarnaast echter afvragen of het überhaupt wel mogelijk is om wetenschappelijk verantwoord (op zijn minst expliciet) taalstatistisch onderzoek te doen. Aan de ene kant zitten we namelijk met een taalkunde die nog maar pas in de kinderschoenen staat, en die nog niet in staat is haar object en de onderdelen daarvan ‘goed’ te definiëren (vergelijk de subjectieve manier waarop morfemen vastgesteld moeten worden), en aan de andere kant is de statistiek nog niet op de uiteindelijk door de taalkunde gedefinieerde eenheden toegepast, zodat nog helemaal niet duidelijk is of er niet geheel nieuwe statistische technieken ontwikkeld zullen moeten worden. Omdat de taalkunde geen goed gedefinieerde eenheden levert, en de statistische modellen, die op basis van subjectief gevonden eenheden ontwikkeld worden, een goede kans maken onbruikbaar te zijn, lijkt taalstatistiek een frustrerende bezigheid te zijn. Nochtans kunnen er argumenten zijn waarom statistisch onderzoek van gebruikte taal zeker zinvol geacht kan worden.

(1) Vooreerst bestaat de mogelijkheid, dat taalstatistisch onderzoek

en taaltheorievorming elkaar gunstig zullen beïnvloeden in de snelheid van hun ontwikkeling.

(2) We hebben gesteld, dat de statistische modellen, die op basis van onderzoek op ‘slecht’ gedefinieerde eenheden in gebruikte taal ontworpen worden, wellicht nooit bruikbaar zullen blijken. Maar er is natuurlijk ook een zekere kans, vooral wanneer de eenheden in gebruikte taal intuïtief zo adequaat mogelijk vastgesteld worden, dat de opgedane kennis en ervaring wel van nut kan zijn bij de bewerking van taaleenheden, die vanuit een expliciete en volledige taaltheorie misschien ooit als zodanig aangewezen zullen worden.

(3) Het belangrijkste argument voor taalstatistisch onderzoek ligt in de maatschappelijke noodzaak van onderzoek naar gebruikte taal. Deze noodzaak komt niet voort uit luxueuze problemen als de esthetische beoordeling van literaire werken, maar veeleer uit urgente problemen betreffende taalvaardigheid, taaldidactiek, klassebepaald taalgebruik e.d. De maatschappelijke noodzaak van een onderzoek kan ons ertoe dwingen enkele - maar zo weinig mogelijke - wetenschappelijke eisen te laten vallen. We kunnen niet wachten met onderzoek van gebruikte taal tot eindelijk een redelijke taaltheorie ontworpen is.

Tegen deze achtergrond moeten we concluderen dat het onderzoek van Martin, dat wetenschappelijk beneden de maat is, feitelijk een onderzoeksmethode in diskrediet brengt, die mits serieus toegepast, zeer goed tot belangrijke resultaten zou kunnen leiden bij de bestudering van maatschappelijk relevante objecten.

§ 11. Lijst van errata bij het boek van Martin

Hieronder volgen enige errata, speciaal in formules, getallen en definities.

p. 42	laatste regel
	bij hoge frekwenties is q zo klein, wordt:
	bij hoge frekwenties is qⁱ zo klein
p. 43	regel 17, 18 en 19 vervangen door:
	in V'₃ in V'₂ in V'₁ in V'o
	V₁ geeft (p + q) V₁ = p V₁ + q V₁
	V₂ geeft (p + q) ²V₂ = p² V₂ + 2pq V₂ + q²V₂
	V₃ geeft (p + q) ³V₃ = p³V₃ + 3p²qV₃ + 3pq²V₃ + q³V₃

p. 57	punt 2, laatste regel
	het interval 500- 100 wordt:
	het interval 500-1000
p. 69	regel 5 van onder
	De z-waarden zijn dus normaal verdeeld, wordt:
	De z-waarden zijn normaal verdeeld
p. 70	tabel AFSCHEID rij 34001-36000
	σ = o moet zijn σ = 11
p. 70	voetnoot regel 7
	q de complementaire probabiliteit van niet voorkomen, wordt:
	q de complementaire probabiliteit van voorkomen
p. 78	regel 21
	de probabiliteit om een woord met f = 1 te vinden, wordt:
	de probabiliteit om het woord met f = 1 te vinden
p. 85	voetnoot 2, regel 2
	In ons geval (7-1) × (2-1) = 6. Kennen we 6 waarden dan, wordt:
	In ons geval (8-1) × (2-1) = 7. Kennen we 7 waarden dan
p. 97	regel 6 van onderen
	waarbij V = variatie coëfficient dus: V/, wordt:
	waarbij V = variatie coëfficient dus: σ/

M. van 't Hof (statisticus)

F. Jansen (neerlandicus)

Universiteit Nijmegen

voetnoot1): Pagina-aanduidingen verwijzen telkens naar het boek van Martin. Met het paragraafteken wordt verwezen naar gedeelten in dit artikel.

voetnoot2): Wellicht verdient een beperking tot de z.g. lexicale morfemen zelfs de voorkeur (zie echter Martin op p. 87). De overige (z.g. grammaticale) morfemen moeten dan geëlimineerd worden. Voor een poging tot het opstellen van een dergelijke procedure verwijzen we naar het Eindverslag no. 2 van de Projektgroep kwantitatieve benadering van moderne poëzie (Nijmegen, Instituut nederlands, 1970). (aldaar ter inzage).

Vorige Volgende

Een taalstatistisch onderzoek Willy Martin, Analyse van een vocabularium met behulp van een computer. AIMAV, Brussel, 1970 (ƒ 27,50).