| |
| |
| |
[Nummer 11]
| |
Woordfrequenties:
Anatomie van onze woordenschat
1. Ter inleiding
De liefde tot het Nederlands is, naar ik aanneem, voor de regelmatige lezer van Onze Taal een soort vanzelfsprekend bezit, of liever nog: een raskenmerk. De vele bijdragen en reacties van lezers leveren daarvoor keer op keer het bewijs.
Nu is het object van deze liefde ook eindeloos in zijn gebruiksaspecten, voortdurend wisselend van uiterlijk, steeds bewegend en levend en zich op duizenden manieren dagelijks vertonend. De taal lijkt op de zee: nooit vervelend en steeds inspirerend door haar totaalbeeld, gevormd uit ontelbare afzonderlijke golven. Maar de taal is méér dan de zee, omdat de taal niet slechts het object van onze waarneming en liefde is, maar tegelijkertijd het middel waardoor wij subject zijn, ons menszijn beleven. Alleen in taal, door het gebruik van woorden kunnen we zeggen dat de taal het belangwekkend voorwerp van onze liefde is. En dat is dan weer een taaluiting die we kunnen bestuderen en ontleden, en zo voortgaande krijgen we door de eindeloze hoeveelheid deelstudies een langzamerhand completer wordend totaalbeeld van onze taal ‘Het Nederlands’. Het zijn alle rimpelingen, golfjes en schuimkoppen samen die het eeuwigbewegende beeld van de zee vormen.
Welnu, wie waarnemingen doet; ook als dat aan het voorwerp van zijn liefde is om het beter te leren kennen en zodoende zijn liefde te verdiepen, heeft instrumenten nodig. Voor degenen die zich op onze taal richten om deze beter te leren kennen, waarderen en gebruiken is er nu een geweldig en onmisbaar instrument verschenen. Ik bedoel het boek Woordfrequenties in geschreven en gesproken Nederlands, onder de redactie van P.C. Uit den Boogaart verschenen bij de uitgeverij Oosthoek, Scheltema en Holkema, Utrecht 1975. Het is een kloek en fraai uitgegeven boek geworden van 471 pagina's, waarvan de prijs f 75,- is. Dit bedrag moet voor vele groepen taalgebruikers (wèlke hoop ik dadelijk aan te geven) bij goed gebruik een uiterst rendabele investering vormen, die vele jaren een hoog rendement zal opleveren. Ofschoon in het blad ‘Onze Taal’ zelden of nooit boeken besproken worden, is het verschijnen van dit boek voor onze taal een dermate belangrijke gebeurtenis, dat er alle aanleiding bestaat er aandacht aan te besteden.
Het werk is gelanceerd tijdens een persbijeenkomst op 6 november 1975 aan de Technische Hogeschool Eindhoven. Deze voor een taalkundige gebeurtenis op het eerste gezicht misschien wat vreemde plaats heeft echter alles te maken met de achtergrond van het boek: de TH Eindhoven vormt er de broedplaats en bakermat van.
Daarmee zijn we dan bij voorgeschiedenis en ontstaan van het boek gekomen, waarover wel enkele dingen gezegd moeten worden.
In 1968 is, na enkele voorgaande verkenningen vanuit de TH Eindhoven, de inter-universitaire werkgroep Frequentieonderzoek van het Nederlands opgericht. Amsterdam, Eindhoven, Utrecht en Nijmegen waren in volgorde van belangrijkheid de toeleverende plaatsen van deelnemers en ideeën. In 1969 kon de werkgroep onder voorzitterschap van prof. dr. B. Th. Tervoort, hoogleraar Algemene Taalkunde aan de Universiteit van Amsterdam, dankzij een verkregen subsidie van de Nederlandse
| |
| |
Organisatie van Zuiver Wetenschappelijk Onderzoek (ZWO) beginnen met het werk. Als medewerker nam de werkgroep in dienst P.C. Uit den Boogaart, een jonge Neerlandicus met belangstelling voor statistische verwerkingsmethoden bij het analyseren van taalverschijnselen.
Omdat het voorgenomen werk, de analyse van ongeveer driekwart miljoen woorden, nogal wat technische faciliteiten in de vorm van ponsbandapparatuur, computer etc., van node had, werd de Technische Hogeschool Eindhoven als plaats van uitvoering gekozen. Daar waren niet alleen alle faciliteiten, de ruimte, maar ook de man aanwezig, die als projectleider kon fungeren. Dat is dr. J.J.M. Bakker, lector in de Toegepaste Taalkunde, die vanaf het prilste begin van het hele project met zijn stimulerende conceptie zeer belangrijk is geweest voor het frequentieonderzoek van het Nederlands. Het nu voltooide onderzoek naar de woordfrequenties en zijn verschenen dissertatie over de fonematische structuur van de Nederlandse woordvorm (voor de gebruiksmogelijkheden daarvan verwijs ik naar het artikel Stukwerk in Onze Taal, '71, no. 11/12) sluiten prachtig op elkaar aan. Het een behandelt frequentieverschijnselen binnen het Nederlandse woord, het ander frequentieverschijnselen van het Nederlandse woord.
Zo is thans, na een voorafgaand onderzoekprogramma van een viertal jaren, het uiteindelijke resultaat verschenen. Het zijn frequentielijsten, samengesteld uit een telling van 720.000 woorden uit diverse teksten: dag-, opinie- en gezinsbladen, romans en novellen, populairwetenschappelijke boeken en gesproken taal. Computers hebben bij de tekstverwerking een grote rol gespeeld.
| |
2. Wat is frequentieonderzoek?
Hoe zou men zich nu een frequentieonderzoek van het Nederlands moeten voorstellen? Welke vragen mogen er aan de uitkomsten gesteld worden en wat kan men met die uitkomsten doen? Welke methodische problemen doen er zich voor bij de opzet van een frequentieonderzoek naar taalverschijnselen? Dat zijn een paar vragen, waar ik nu iets nader op in wil gaan.
Een eerste voorwaarde die aan een frequentieonderzoek van het Nederlands gesteld moet worden, is dat het materiaal inderdaad het Nederlands omvat. Dat wil dus zeggen het Nederlands in al zijn facetten en niet alleen maar kinderboeken of eenvoudige lectuur, niet alleen maar krantentaal of romans. Een volledig onderzoek zal zowel de geschreven (om praktische redenen betekent dat voor onderzoek: gedrukte) taal als de gesproken taal moeten omvatten. Elk van die twee hoofdgroepen zal weer zo goed mogelijk in taalvelden verdeeld moeten zijn om ‘de ruimte van het volledige leven te bevatten’. Deze taalverkaveling, ‘sampling’ genaamd met een statistische vakterm, zal bovendien voor de gedrukte en de gesproken taal niet op dezelfde manier kunnen gebeuren. Voor de laatste categorie spelen bijvoorbeeld locale (dialectverschijnselen), sociale (opleidingsniveau) en leeftijdsverschillen een veel grotere rol, terwijl bij de gedrukte taal het gebruiksdoel de oorzaak van de belangrijkste verschillen vormt. Zowel de forumdiscussie als het buurpraatje, zowel de poëzie als het handboek voor de duivenliefhebber vormen een deel van het Nederlands.
Nu is het onmogelijk om de volledige taalproduktie van een bepaalde tijd, bijvoorbeeld het jaar 1972, te tellen: daarvoor zijn de geproduceerde hoeveelheden tekst natuurlijk veel te groot. (De elf miljoen woorden, die Kaeding als basis gebruikte voor zijn in 1898 verschenen frequentiewoordenboek van het Duits, konden alleen verwerkt worden omdat hij volgens de verhalen de beschikking had over een krijgsgevangenenkamp voor het telwerk. Zijn doelstelling was overigens het opzetten van een nieuw stenografiesysteem!)
Men zal dus moeten proberen uit de gekozen taalvelden een representatieve steekproef te nemen.
‘De sample dient zo gekozen te zijn dat hij de grotere verzameling representeert; de statistische methode is juist, als de werkelijkheid lijkt op een veelvoudig vergrote projectie van de sample. In deze situatie liggen de verschijnselen, de verhoudingen en wetten van de grootste verzameling alle getekend in de kleinste verzameling; beide verzamelingen zijn gelijkvormig’.
Aldus formuleert Bakker het in zijn proefschrift (pag. 40). Een moeilijkheid bij het trekken van een representatieve steekproef voor het Nederlands is, dat men het totaal niet kent en dus ook niet kan zeggen hoe representatief bijvoorbeeld een miljoen woorden eigenlijk zijn voor het Nederlands. De beslissende overweging wordt dan, dat men voor het vinden van nieuwe gegevens steeds grotere hoeveelheden moet gaan verwerken. De winst staat dan in geen enkele verhouding meer tot de investering.
| |
3. Wat biedt het boek?
Ook het thans verschenen boek geeft geen nadere motivering van het bewerkte aantal woorden van 720.000. Als men dan eenmaal zo'n totaal aantal gefixeerd heeft, moet daarbinnen weer een verdere verdeling plaatsvinden. Over deze verdere ‘sampling’ heeft P.C. Uit den Boogaart reeds in 1970 in het Leuvense Tijdschrift voor Toegepaste Taalkunde I.T.L. een gedetailleerde uiteenzetting gegeven, betrekking hebbend op het corpus woorden uit dagbladen.
In het onderhavige boek is het materiaal genomen uit 6 gebieden, ieder vertegenwoordigend met 120.000 woorden. Deze terreinen zijn:
1. | dagbladen |
2. | opiniebladen |
3. | gezinsbladen |
4. | romans en novellen |
5. | populair-wetenschappelijke boeken |
6. | gesproken taal |
Wat de precieze herkomst van het materiaal betreft geeft het boek de volgende verantwoording, die wel een goed beeld geeft van de nauwkeurigheid van ‘het’ gedrukte Nederlands.
‘UIT WELKE BRONNEN ZIJN TEKSTEN GEKOZEN?
Deze vraag kan het beste voor elk subcorpus behandeld worden.
| |
| |
| |
dagbladen
De teksten zijn verzameld uit een aantal exemplaren van de volgende dagbladen: het Nieuwsblad van het Noorden, De Nieuwe Rotterdamse Courant, De Telegraaf, De Tijd, Trouw en Het Vrije Volk. De geselecteerde exemplaren zijn alle afkomstig uit de periode 1 september 1969 - 31 augustus 1970. Van elk van de genoemde kranten zijn 26, 27 of 28 exemplaren gekozen volgens een systeem - waarop we hier niet verder ingaan - dat een zo gelijkmatig mogelijke spreiding over de dagen van de week en de maanden van het jaar waarborgt. Dat wil zeggen: per krant is het aantal exemplaren uit de maand augustus ongeveer even groot als het aantal exemplaren uit de maand mei, en het aantal donderdagexemplaren verschilt niet veel van het aantal maandagexemplaren. Deze spreiding is noodzakelijk, bijvoorbeeld met het oog op de sportberichten, die hoofdzakelijk de maandagkranten vullen.
| |
opiniebladen
Voor dit subcorpus zijn alle exemplaren van de volgende bladen uit de periode van 1 augustus 1970 - 31 juli 1971 gekozen: Accent, Elseviers Magazine, De Groene, HP Magazine, Hervormd Nederland, De Nieuwe Linie en Vrij Nederland.
| |
gezinsbladen
Geselecteerd zijn een aantal exemplaren uit de periode 1 augustus 1970 - 31 juli 1971: Avenue, Elegance, Eva, Libelle, Margriet, Nieuwe Revue, Panorama, Prinses, Sextant en Televizier (van laatstgenoemd blad werd het deel AVRO-bode niet in het onderzoek betrokken). In principe is van elk blad steeds één exemplaar per maand geselecteerd. Het was niet altijd mogelijk van alle maanden een exemplaar te verkrijgen. In dat geval werden minder dan twaalf exemplaren geselecteerd.
| |
romans en novellen
Alle romans en novellenbundels zijn in het onderzoek betrokken die in 1970 als eerste druk zijn verschenen en van een Nederlandse auteur zijn. Hun aantal bedraagt 52.
| |
populair-wetenschappelijke boeken
De voor de telling geselecteerde werken zijn na 1964 verschenen, telkens van één Nederlandse auteur en verdeeld over 12 categorieën, te weten Beeldende Kunsten, Geneeskunde en Psychiatrie, Geschiedenis, Godsdienst en Filosofie, Land- en Volkenkunde, Natuurwetenschappen, Onderwijs en Opvoeding, Plant- en Dierkunde, Psychologie, Recht en Economie, Sociale Wetenschappen en Verkeer en Techniek. Uit elk van de 12 categorieën zijn 5 boeken gekozen.
| |
gesproken taal
De verzameling bronnen bestaat hier uit een aantal geluidsbanden van gesprekken, opgenomen door het Instituut voor Dialectologie, Volks- en Naamkunde, in de periode van 1960 tot 1973. De helft van de gesprekken bestaat uit bandopnamen van academici of daarmee gelijk te stellen personen die geacht worden ABN te spreken. De andere helft bestaat uit bandopnamen van mensen met weinig schoolopleiding uit een aantal plaatsen in Noord- en Zuid-Holland. Gesprekken van het eerstgenoemde type bestaan o.a. uit groepsdiscussies door studenten, interviews en gesproken brieven, waarbij twee personen samen spreken op een band die naar een derde wordt gestuurd. De gesprekken van mensen met weinig opleiding behoren meer tot de vrije conversatie in ongedwongen sfeer.’
Wat de laatste categorie betreft, het gesproken Nederlands, lijkt het beeld me toch wat minder betrouwbaar. Tussen mensen met academische opleiding en mensen met weinig schoolopleiding bevinden zich nog heel wat Nederlanders. Weliswaar pleegt de middenklasse in onze samenleving nogal eens te worden aangeduid met ‘zwijgende meerderheid’, maar die spreekt toch ook wel eens? Daarnaast blijft het voor de niet-hollander maar wèl Nederlander een onoverkomelijk bezwaar dat de bandopnames alleen uit de provincies Noord-en Zuid-Holland stammen. Dat mag voor het Instituut voor Dialectologie een goede basis vormen, voor ‘het’ gesproken Nederlands is die basis toch veel te smal, lijkt me.
Vergeleken met de gedrukte taal geeft het gesproken materiaal dus maar een eerste indicatie van het probleem ‘Hoe spreekt de Nederlander?’. Voor bepaalde gebruiksaspecten van het boek is dit wel jammer, zoals voor het samenstellen van cursussen ‘Levend Nederlands’. Dit gedeelte moet dan ook opgevat worden als niet meer dan een proefcorpus. Volgens de plannen moeten eind 1977 tellingen gereed zijn over een meer representatief corpus van gesproken taal.
| |
De woordlijsten
Het boek bestaat naast de inleiding voornamelijk uit de lijsten met woordfrequenties: ± 430 van de 470 pagina's. Wat kan men daar zo al vinden en wat zijn de verschillen tussen de diverse lijsten? In grote lijnen worden de 9 frequentielijsten als volgt omschreven door redacteur Uit den Boogaart:
| |
A1 De eerste alfabetische frequentielijst van woordvormen
Deze lijst bevat alle woordvormen (met hun grammaticale code) die meer dan eenmaal in het totale corpus voorkomen en waarvan de lengte niet die van 25 tekens overschrijdt (met dien verstande dat elke hoofdletter in een woord als twee tekens beschouwd wordt). De frequenties zijn per subcorpus en totaal gespecifeerd.
| |
| |
| |
A2 De tweede alfabetische lijst van woordvormen
Deze lijst bevat alle woordvormen (met hun grammaticale code) die slechts één keer in het gehele corpus voorkomen en waarvan de lengte die van 25 tekens niet overschrijdt. Woordvormen in deze lijst bevatten ook nog een aanduiding in welk subcorpus ze voorkomen, en wel achter de woordvorm in kwestie.
| |
A3 De derde alfabetische lijst van woordvormen
Deze lijst bevat alle woordvormen (met hun grammaticale code) die een lengte hebben van meer dan 25 tekens. Vóór elk woord treft men aan het subcorpus waarin ze voorkomen, gevolgd dooQAr het aantal malen dat ze erin voorkomen. Komt een ‘lang’ woord in meer dan één subcorpus voor, dan wordt het ook meer dan éénmaal genoemd.
| |
B De alfabetische frequentie van lemmata
Dikwijls zullen we niet zozeer geïnteresseerd zijn in de afzonderlijke frequenties van woordvormen als loop 241, loop 251, loopt 243, gelopen 206, maar veeleer in de totaalfrequentie van het werkwoord lopen, zoals we dat in een woordenboek aantreffen. Deze totaalfrequenties van zgn. woordenboekvormen of lemmata zijn in een aparte lijst bijeengebracht en hebben nog slechts het eerste codecijfer behouden. Niet alleen de verschillende werkwoordsvormen zijn bijeengebracht, maar ook meervouden en andere verbogen vormen van het zelfstandig naamwoord, verbogen vormen van het bijvoeglijk naamwoord enz. enz. zijn bijeengebracht. Voorbeelden van lemmatisering: de frequentie van het lemma groot 1 is ondermeer samengesteld uit de frequenties van de woordvormen groot 100, grote 103, groter 104, grootste 109. De frequentie van het lemma huis 0 is samengesteld uit de frequenties van de woordvormen huis 000, huizen 001, huizes 002, huize 003. Het kan voorkomen dat een bepaalde type van verbogen vorm niet tot een echt lemma kan worden herleid. Zo heeft bijvoorbeeld hersenen 001 geen enkelvoud, evenmin als de vergrotende trap eerder 154 (bijv. Jan kwam eerder een bijbehorende stellende trap heeft. In dat soort van gevallen, die betrekkelijk zeldzaam zijn, vinden we de lemmata hersenen 0 g.b., eerder 1 g.b., waarbij g.b. ter afkorting van ‘geen basisvorm’ dient.
| |
C De frequentielijst van woordvormen naar dalende orde
De frequentielijst naar dalende orde geeft weer per subcorpus en per totaal geschreven dan wel gesproken taal de frequenties van de woordvormen, maar is geheel anders ingedeeld dan de vorige lijsten. Elk van de deellijsten begint met de frequentste woordvorm en met de frequentie van die woordvorm. Daarna volgt de op één na frequentste woordvorm, daarop weer de op twee na frequentste woordvorm enz. enz. Woordvormen met dezelfde frequentie zijn bij elkaar gebracht en alfabetisch geordend volgens het hierboven vermelde principe. Uit economische overwegingen hebben we ons genoodzaakt gezien niet
Woordvormen, geordend naar dalende frequentie
CDBL |
diep |
COBL |
diep |
CGBL |
diep |
CRNO |
diep |
CPWE |
diep |
de 370 |
7566 |
de 370 |
7137 |
de 370 |
5640 |
de 370 |
4957 |
de 370 |
7543 |
van 600 |
4162 |
van 600 |
3899 |
een 450 |
3028 |
en 700 |
2775 |
van 600 |
4306 |
een 450 |
2884 |
een 450 |
3046 |
en 700 |
2923 |
een 450 |
2738 |
het 370 |
2956 |
het 370 |
2757 |
het 370 |
2697 |
van 600 |
2809 |
van 600 |
2108 |
een 450 |
2945 |
in 600 |
2689 |
en 700 |
2645 |
het 370 |
2046 |
het 370 |
1852 |
en 700 |
2842 |
en 700 |
2375 |
in 600 |
2544 |
in 600 |
1987 |
in 600 |
1673 |
in 600 |
2536 |
is 273 |
1329 |
is 273 |
1679 |
is 273 |
1451 |
niet 500 |
1534 |
is 273 |
1526 |
te 650 |
1243 |
te 650 |
1386 |
te 650 |
1324 |
ik 300 |
1444 |
te 650 |
1212 |
De 370 |
1224 |
niet 500 |
1166 |
niet 500 |
1171 |
hij 300 |
1407 |
dat 710 |
1044 |
op 600 |
1116 |
dat 710 |
1120 |
met 600 |
1101 |
te 650 |
1205 |
die 420 |
943 |
met 600 |
1019 |
met 600 |
1070 |
dat 710 |
1021 |
was 275 |
1141 |
op 600 |
938 |
voor 600 |
982 |
op 600 |
1056 |
op 600 |
1002 |
ze 300 |
1091 |
niet 500 |
923 |
die 420 |
899 |
die 420 |
986 |
ik 300 |
929 |
met 600 |
1037 |
met 600 |
865 |
dat 710 |
892 |
voor 600 |
923 |
die 420 |
842 |
zijn 330 |
982 |
voor 600 |
757 |
niet 500 |
788 |
De 370 |
710 |
voor 600 |
815 |
dat 710 |
972 |
De 370 |
719 |
aan 600 |
639 |
aan 600 |
622 |
hij 300 |
692 |
op 600 |
970 |
aan 600 |
634 |
door 600 |
536 |
hij 300 |
585 |
het 440 |
688 |
het 440 |
963 |
door 600 |
564 |
heeft 273 |
520 |
ook 500 |
585 |
zijn 330 |
603 |
is 273 |
959 |
ook 500 |
561 |
zijn 330 |
514 |
zijn 330 |
578 |
De 370 |
591 |
Ik 300 |
756 |
tot 600 |
535 |
was 275 |
479 |
het 440 |
554 |
ze 300 |
573 |
die 420 |
679 |
als 720 |
528 |
Vijf kolommen, van links naar rechts: dagbladen, opiniebladen, gezinsbladen, romans en novellen, populair-wetenschappelijke boeken. Het cijfer achter een woord is een codering. Voorbeeld ‘die’ staat in de eerste kolom op de dertiende plaats, het komt als betrekkelijk voornaamwoord in dagbladen 899 keer voor op 120.000 woorden.
| |
| |
af te dalen tot de laagste frequentie van woordvormen.
Deze lijst leent zich in het bijzonder tot vergelijking omdat hier bij wijze van spreken in één oogopslag kan worden overzien welke klasse van woord (vorm) en meer typisch is voor het ene subcorpus en welke klasse meer karakteristiek voor het andere subcorpus.
| |
D1 De frequentielijst van codes naar tokens
In deze lijst vinden we, gespecificeerd naar subcorpus en naar totalen, de frequenties van de verschillende grammaticale codes. Een dergelijke frequentie kan op twee manieren worden berekend:
a we kunnen een stuk gecodeerde tekst nemen en turven hoe vaak we een bepaalde code in die tekst tegenkomen;
b we kunnen de frequentielijsten A nemen en kijken hoe vaak we daarin een bepaalde code ontmoeten.
Dat de twee methodes nogal uiteenlopende resultaten kunnen opleveren, moge uit het volgende voorbeeld blijken. Als we de frequentie van de code 370 volgens de methode a berekenen, krijgen we een groot getal, want bepaalde lidwoorden en aanwijzende voornaamwoorden komen erg vaak voor.
Berekenen we die frequentie volgens de methode b dan krijgen we een uiterst klein getal, want het aantal verschillende bepaalde lidwoorden en aanwijzende voornaamwoorden is erg beperkt. De lijst D1 bevat nu de frequenties berekend volgens de methode a.
| |
D2 De frequentielijst van codes naar types
Deze lijst lijkt erg veel op de lijst D1 maar met dien verstande dat nu de frequenties van de codes berekend zijn volgens de methode b.
| |
D3 De lijst van de percentuele distributie van woordklassen
Deze lijst geeft van een aantal grammaticale categorieën per subcorpus en per deeltotaal aan, hoe ze percentueel in subcategorieën zijn onderverdeeld. Zo wordt van de werkwoordsvormen vermeld welk percentage daarvan intransief is, welk percentage transitief, dan wel reflexief, dan wel hulp- of koppelwerkwoord. De percentages hebben betrekking op tokens, niet op types.
| |
E Frequentieklassen
Lijst E vermeldt per subcorpus en per deeltotaal hoeveel woordvormen de frequentie 1 hebben, hoeveel er zijn met de frequentie 2, enz.’
Na de beschrijving van deze 9 soorten frequentielijsten volgen in het boek twee hoofdstukken, waarin een uitvoerige verantwoording gegeven wordt van de manier waarop de verschillende praktische problemen zijn opgelost. Voor de computerverwerking moesten allerlei schrijftaalverschijnselen als accenten, leestekens, symbolen van niet-talige aard, spaties, afbrekingen nauwkeurig gecodeerd worden. Wat betreft de gelemmatiseerde lijsten geeft Uit den Boogaart het volgende aardige voorbeeld van de nivelleringstendens die het gevolg is van computertoepassing:
‘Maar ook het uiterlijk van het woord zelf heeft een verandering ondergaan. Alle spaties en leestekens, behalve de apostrofe, zijn uit de woordvorm verwijderd en bovendien zijn alle hoofdletters door kleine letters vervangen. Dat houdt dus in dat we de bovengenoemde drs. J. den Uyl in de gelemmatiseerde lijsten als drsjdenuyl zien verschijnen. (Als de lezer in een geval als dit zich zou afvragen welk woord hij hier voor ogen heeft, dan kan hij natuurlijk het best in de ongelemmatiseerde lijst zoeken naar een woordvorm die met dr. of drs. gevolgd door een spatie begint. Verder is dit natuurlijk een extreem geval van onleesbaarheid dat zich bij “gewonere” woorden niet zal voordoen.)’
Zeer uitvoerig is ook de beschrijving van de toegeepaste grammaticale codering. Het zou voor Onze Taal te ver voeren om daar op in te gaan, omdat de daarmee samenhangende problemen vooral voor taalkundigen interessant zijn. Als hoofddoelen van dit codeersysteem worden genoemd a. het van elkaar onderscheiden van homoniemen en b. het kunnen nagaan hoe vaak elke grammaticale categorie is gebruikt en hoeveel verschillende woorden tot een categorie behoren. De resultaten van de tweede doelstelling vindt men in de frequentielijsten van codes naar types en tokens, de lijsten D1 en D2.
| |
4. Gebruiksmogelijkheden
Een boek als ‘Woordfrequenties’ ontleent zijn waarde natuurlijk niet alleen aan de betrouwbaarheid van de materiaalkeuze en -verwerking, of de wetenschappelijke degelijkheid waarmee het hele werk opgezet en uitgevoerd is. Ofschoon gefinancierd door de Organisatie voor Zuiver Wetenschappelijk Onderzoek is het project Frequentieonderzoek van het Nederlands steeds ook zeer duidelijk op toepassing en gebruiksmogelijkheden gericht. Alleen als het ook gebruiksmogelijkheden heeft is het ook in maatschappelijk opzicht een belangrijke uitgave. Daarom verschenen er reeds enige jaren geleden in allerlei vaktijdschriften aankondigingen van het ondernomen frequentieonderzoek, met het verzoek, om vroegtijdig vragen vanuit de praktijk kenbaar te maken. Daarop is inderdaad door enige tientallen taalkundigen, pedagogen en psychologen gereageerd, waarbij de interesse uit bleek te gaan naar toepassing in psychologische testen en voor onderwijsplanning. En daarom ook ‘is er naar gestreefd om zoveel mogelijk gegevens in een bereikbare publikatie onder te brengen, vergezeld van praktische aanwijzingen voor gebruik en interpretatie’. Aldus de inleiding van het boek. Het is dus niet zo verwonderlijk, ofschoon in taalkundige publikaties zeldzaam, dat het boek een hoofdstuk wijdt aan ‘Aanwijzingen voor het gebruik van de lijsten’.
Uit den Boogaart begint bescheiden met de opmerking:
‘Vanzelfsprekend kunnen we niet alle mogelijke vragen bedenken, laat staan behandelen, die met de frequentielijsten beantwoord zijn. De lijsten
| |
| |
zijn echter zodanig ingericht dat elk daarvan bedoeld is om antwoord te geven op een bepaald type vraagstelling’.
Daarna geeft hij van de lijsten een gebruikskarakteristiek, waaraan ik de volgende hoofdpunten wil ontlenen.
| |
De A-lijsten
De A-lijsten bevatten de frequenties van woordvormen, en niet die van lemmata of woordenboekvormen. Wanneer we nu de frequentie van een lemma (bijv. vrouw o) reeds kennen, zou het ook interessant zijn te kunnen weten hoe vaak dit woord als enkelvoud, en hoe vaak het als meervoud optreedt.
Een andere mogelijkheid is de volgende. Laten we aannemen dat we een bepaalde klasse van werkwoorden op het oog hebben (bijv. bewegingswerkwoorden als gaan, lopen, vliegen, rijden) en dat we willen weten hoe vaak deze werkwoorden als infinitief, en hoe vaak ze als persoonsvorm gebruikt worden (of: hoe vaak ze in de tegenwoordige tijd en hoe vaak in de verleden tijd staan). Dat vinden we in de A-lijsten.
| |
De B-lijsten
Deze lijst is ongetwijfeld het meest geschikt voor wat we huis-tuin-en-keukengebruik van de frequentielijsten zouden kunnen noemen: we willen op een gegeven ogenblik gewoon weten hoe vaak een bepaald woord in een bepaald type van Nederlands voorkomt, en zijn daarbij niet direct geinteresseerd in de verschillende manieren waarop het woord verbogen of vervoegd kan worden.
De alfabetische ordening èn de betrekkelijk geringe omvang van de lijst (er zijn ruim 8500 lemmata in opgenomen, terwijl de A-lijsten tezamen 80.000 woordvormen bevatten!) maken de B-lijst bij uitstek bruikbaar voor het eenvoudige opzoekwerk. Maar die geringe omvang wordt niet alleen bepaald doordat er in het algemeen veel minder lemmata zijn dan woordvormen, want alleen die lemmata zijn opgenomen waarvan de totaalfrequentie tenminste 5 bedraagt. Wanneer een bepaald woord dus niet in de lijst van lemmata verschijnt kan het nuttig zijn ook de Alijsten te raadplegen.
| |
De C-lijst
Deze lijst is geordend naar dalende frequentie en geeft antwoord op vragen van het volgende soort:
- welke zijn de 100 (evt. 200, 300 enz.) meest frequente woordvormen in het corpus of subcorpus dat ons interesseert?
- welke zijn de 100 meest frequente substantieven, adjectieven, voorzetsels e.d.
(Het is uiterst eenvoudig hiervan een lijst samen te stellen, daar we aan de code meteen kunnen zien of het woord tot een bepaalde grammaticale categorie behoort.)
- welk type van woorden behoort tot een bepaalde frequentieklasse?
(Het is bijvoorbeeld duidelijk dat bij de meeste frequente woorden zich uitsluitend lidwoorden, voorzetsels, pronomina, voegwoorden en hulpwerkwoorden bevinden.)
| |
De D-lijsten
De D-lijsten geven informatie over de frequenties van grammaticale categorieën. Ze bieden informatie die voor velerlei toepassing vatbaar is, maar die in de meeste gevallen van nogal specialistische aard zal zijn. Een voor de hand liggende toepassing ligt in de vergelijking van codefrequenties bij subcorpora onderling.
| |
De E-lijst
De E-lijst geeft informatie over de grootte van de frequentieklassen.
Deze laatste, de E-lijst, is dan vooral interessant omdat hij de wet van Zipf, bekend in de taalstatistiek en de informatietheorie, demonstreert. Met andere woorden, de E-lijst en ook de D-lijst is vooral voor specialisten interessant. De ruimere kring van taalgebruikers, taaltoepassers en taalgeïnteresseerden zal vooral de B- en Clijst vaak en nuttig kunnen toepassen bij het opstellen van testen, cursussen, leermateriaal.
Vooral natuurlijk het taalonderwijs, zowel van moedertaal als vreemde taal, zal dit boek als onmisbare toets moeten gaan hanteren. Inzicht in wat gewoon en wat ongewoon is in de taal, in de frequenties van woorden en constructies is voor dat onderwijs een eerste vereiste.
‘Het frequentieonderzoek is van grote betekenis voor de didaktiek van het taalonderwijs, daar het een wetenschappelijke basis verschaft voor de keuze van de woorden, die men de leerlingen het eerst moet bijbrengen’ merkt Staal in zijn interessant, maar weinig gebruikte boek ‘De methode van psychologisch taalonderzoek’ op (bladz. 16).
De behoefte aan een goed inzicht in de frequentie van het Nederlands (en dat geldt min of meer ook voor andere talen) ontstond overigens niet vanuit het moedertaalonderwijs. Het eerste frequentieonderzoek van het Nederlands werd ‘in opdracht van het Departement van Onderwijs en Eredienst’ (de tijden zijn wèl veranderd!) in het toenmalige Nederlands-Indië ondernomen.
Het verslag van dat onderzoek publiceerde J.F.H.A. de la Court in 1937 te Batavia onder de titel: ‘De meest voorkomende woorden en woordcombinaties in het Nederlands’. Daar deze woorden moesten dienen bij het onderwijs in het Nederlands in Indië, werden eenvoudige teksten (samen 1.000.000 woorden omvattend) onderzocht, namelijk kinderlectuur en eenvoudige lectuur voor volwassenen. Op grond hiervan werden twee lijsten samengesteld: 1. een alfabetische lijst van 3296 woorden die in de teksten het frequentst waren en 2. een lijst van dezelfde woorden, gerangschikt naar frequentie en verdeeld in zeven radii.’ (Lit. 10 pg. 12). Vooral in België heeft deze lijst op indirecte wijze veel diensten bewezen. Voor het onderwijs in het Nederlands als tweede taal heeft G. Vannes er namelijk zijn veel gebruikte Vocabulaire du neérlandais de base (Antwerpen, 1949) op gebaseerd.
Nog steeds was er voor het Nederlands geen materiaal
| |
| |
beschikbaar dat in omvang of in methode het werk van De La Court overtreft. Noch Formal properties of newspaper Dutch, door van Berckel, Brandt Corstitius e.a. (Amsterdam, 1965) noch W. Martins werk uit 1968 geven daarvoor voldoende en voldoende gespreid materiaal. Toch zou het om verschillende redenen plezierig zijn als voor de lijsten van De la Court een beter materiaal in de plaats gesteld kan worden. ‘Beter’ omdat niet alleen woorden geteld moeten worden, maar ook syntactische verschijnselen; omdat niet alleen maar kinderboeken en eenvoudige lectuur bestreken moeten worden, maar ook andere taalvelden. Beter omdat de taal van Nederlandsch-Indië anno 1937 niet meer gelijk is aan het Nederlands van nu. Aldus werd de toestand in 1971 door mij omschreven.
Welnu, vanaf 1975 is dat anders. Het boek Woordfrequenties voldoet aan de meeste eisen en als het in het vooruitzicht gestelde (1977) vervolg voor de gesproken taal er is, behoort het Nederlands tot de anatomisch best ontlede talen ter wereld.
| |
5. Enkele resultaten
Het is voor de algemeen geïnteresseerde lezer, die niet dagelijks alle frequentielijsten onder ogen krijgt, wel aardig om nu nog concreet enkele resultaten te laten zien. Ik zal ter vergelijking cijfers van enkele andere Europese talen er bij geven. Welke woorden vormen nu de ‘top twintig’ uit onze woordenschat?
Nederlands |
Italiaans |
Engels |
Frans |
de |
il |
the |
le |
van |
di |
of |
de |
een |
egli |
and |
un |
en |
a |
to |
être |
het |
essere |
a |
et |
in |
E |
in |
à |
is |
uno |
that |
ce |
te |
in |
is |
il |
niet |
non |
was |
du |
met |
io |
he |
ne |
op |
che |
for |
que |
dat |
avere |
it |
avoir |
die |
da |
with |
je |
voor |
fare |
as |
se |
hij |
tu |
his |
qui |
ik |
con |
on |
pas |
zijn |
ma |
be |
en |
was |
per |
at |
dans |
aan |
dire |
by |
son |
ook |
come |
I |
au |
(voor de gebruikte bronnen zie de lijst van gebruikte literatuur)
Het gaat bij deze toppers uitsluitend om de geschreven taal. Verder is het opvallend dat het steeds om de zeer algemene en qua betekenis nogal inhoudsloze woorden gaat. Ze nemen ook een groot deel van de totale portie voor hun rekening. De Nederlandse topper de komt in de 500.000 woorden bijvoorbeeld 32.843 maal voor; nummer 2 van 17.284 maal. Dus vormen die twee woordjes samen reeds 10% van de totale tekst!
Uit den Boogaart zelf geeft nog enkele algemene opmerkingen over de vergelijking van diverse resultaten. Zo wijst hij op de speciale plaats die het corpus Romans en Novellen (CRNO) inneemt.
‘Fictie lijkt gekarakteriseerd door een voorkeur van woorden die op concrete alledaagse situaties betrekking hebben, en weinig met de actualiteit uitstaande hebben. Namen van lichaamsdelen, meubelstukken, familieleden zijn in CRNO belangrijk sterker vertegenwoordigd dan in de overige subcorpora. Daarentegen ontbreken in CRNO vrijwel woorden die met maatschappelijke organisaties te maken hebben die ver van het dagelijks leven verwijderd staan. Het is dan ook raadzaam om bij het vergelijken van de subcorpora onderling steeds in eerste instantie CRNO met de overige subcorpora te vergelijken. Dikwijls zal dan overigens blijken dat CGBL een middenpositie tussen het “fictie”-subcorpus en de “non-fictie”- subcorpora inneemt.’
En voor de gebruiker is ook nog zijn volgende, algemene advies nuttig:
‘Voor vergelijkingen tussen de subcorpora lenen zich het best de B-lijst (vooral als men zonder veel zoekwerk wil zien welk soort van woorden typerend is voor een bepaald subcorpus) en de lijst D3, waar de spreiding van grammaticale categorieën naar subcorpus in percentages wordt gegeven.’
Als we dan in lijst D3 gaan zoeken vinden we bijvoorbeeld dat de verhouding tussen enkel- en meervoud bij de persoonsvorm in romans en novellen heel anders ligt dan bij de populaire wetenschap. Het is het verschil van de neutrale ‘wij’-stijl tegenover de persoonlijke ‘ik’- auteur. Enkelvoud in romans: 84,9%, meervoud in romans: 13,2%. Enkelvoud wetenschap: 69,8%, meervoud in wetenschap: 29%.
Zo kan de snuffelaar in dit werk allerlei stilistische (voor)oordelen met cijfers gestaafd of ontkracht zien.
Uit de totale geschreven taal zijn de tien meest gebruikte woorden:
zelfst. naamw. |
bijv. naamw. |
diep |
werkwoordsvormen lemma |
1. mensen |
grote |
is |
zijn |
2. tijd |
nieuwe |
was |
hebben |
3. man |
goed |
zijn |
worden |
4. jaar |
laatste |
heeft |
zullen |
5. plaats |
groot |
wordt |
kunnen |
6. vrouw |
kleine |
zou |
moeten |
7. leven |
lang |
worden |
zeggen |
8. dag |
goed |
werd |
komen |
9. aantal |
later |
kan |
maken |
10. werk |
hele |
zijn |
doen |
| |
6. Conclusie
We hebben er als Nederlanders een onmisbaar standaardwerk bijgekregen, zo moet de algemene conclusie luiden. Een zo ongrijpbaar fenomeen als ‘het’ geschreven Ne- | |
| |
derlands heeft zich eindelijk laten pakken en anatomisch laten ontleden. Dit moet voor ieder die taal bewust gebruikt en toegepast als middel voor didactische, psychologische, sociologische, pedagogische, reclame- en wat nog meer voor doelen een basis voor beter werken betekenen. Zoals men voor vorm of betekenis zegt: ‘Het staat in Van Dale’, zal men voor testen of enquêtes voortaan moeten vragen:
‘Is het op basis van Uit den Boogaart?’ Het lijkt me daarom niet teveel gezegd om het verschijnen van Woordfrequenties een historisch moment voor onze taal te noemen.
A.J. Vervoorn
| |
Gebruikte literatuur
1. | Bakker, J.J.M.
Constant en Variabel (Dissertatie) Amsterdam 1971 |
2. | Berckel, J.A. van, H. Brandt Corstius e.a.
Formal properties of newspaper Dutch Amsterdam 1965 |
3. | Boogaart, P.C. Uit den
Sampling van tekstfragmenten uit Nederlandse dagbladen ITL Review for Applied Linguistics 10 (1970) pg. 25-33 |
4. | Boogaart, P.C. Uit den (redacteur)
Woordfrequenties, in geschreven en gesproken Nederlands Utrecht 1975 |
5. | Bortolini, U., C. Tagliavini, A. Zampolli
Lessico di frequenza della lingua Italiana comtemporanea IBM Italia, z.j., z.p. |
6. | Juilland, N. Brodin, C. Davidovitch
Frequency Dictionary of French words The Hague/Paris, 1970 |
7. | Kučera, H., W.N. Francis
Computational Analysis of present-day American English Providence, Rhode Island, 1967 |
8. | Martin, W.
De inhoud van krant en roman Een frequentieonderzoek Antwerpen 1968 |
9. | Staal, A.J.
De methodes van psychologisch taalonderzoek Enschede, 1946 |
10. | Vervoorn, A.J.
Frequentieonderzoek van het Nederlands in: Moer, 1971 no. 4, pg. 116-122 |
|
|