Forum der Letteren. Jaargang 1987
(1987)– [tijdschrift] Forum der Letteren– Auteursrechtelijk beschermd
[pagina 35]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Kanttekeningen bij het onderwerp ‘basiswoordenschat’
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 36]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
aan de vraag hoe die woorden geleerd moeten worden in toenemende mate aandacht besteed (zie met name Schouten-van Parreren 1985 en 1986). In deze bijdrage beperken wij ons tot de eerste vraag. Als verdere beperking geldt dat onze bevindingen uitsluitend op Frans taalmateriaal gebaseerd zijn. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2. UitgangspuntenAan het reeds genoemde themanummer van Levende Talen ontlenen we een aantal uitspraken m.b.t. de basiswoordenschat. Bij elke uitspraak zouden de nodige kritische kanttekeningen geplaatst kunnen worden. We halen ze hier slechts aan om aan te duiden waarover nu eigenlijk gediscussieerd wordt.
Bij het bovenstaande tekenen we aan dat Guiraud (1954: 10) van mening was dat de 100 meest voorkomende woorden 60% van willekeurig welke tekst dekken, de 1000 meest voorkomende woorden 85% en de 4000 meest voorkomende woorden 97,5%. Sciarone, aan wie we dit ontlenen (1979: 51-3), vindt de schattingen van Guiraud te optimistisch en stelt bovendien terecht dat ‘dekken’ iets anders is dan ‘begrijpen’, en dat voor een redelijk goed begrip een dekkingspercentage van tenminste 90% nodig is. Hij meent echter dat men met 3000 à 4000 woorden dat percentage wel bereikt (vgl. dit getal met de ± 5000 woorden waartoe Schouten-van Parreren in het hierboven aangehaalde citaat concludeert). Nienhuis (1985: 226-227) daarentegen verwacht dat de leerlingen na de onderbouw een receptieve kennis van 3000 woorden hebben - waarvan de 1500 à 2000 voor produktieve doel- | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 37]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
einden benodigde woorden een subset vormen - en is, net als Schouten, van mening dat de leerling, om eindexamenteksten te kunnen begrijpen daarna vermoedelijk nog zo'n 2000 extra woorden nodig heeft. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3. Lijsten en criteriaIn het verleden zijn er van verschillende zijden pogingen ondernomen om een basiswoordenschat van het Frans te definiëren. Voor zover de totstandgekomen selecties op eigen onderzoek berusten gaat het om lijsten die ofwel meer dat 25 jaar geleden gemaakt zijn, ofwel gebaseerd zijn op corpora uit de jaren vijftig of eerder. Het is verbazingwekkend dat er ondanks de verbreiding van de computer de afgelopen decennia geen pogingen zijn ondernomen om voor het Frans een methodologisch verantwoord, grootschalig frequentieonderzoek op te zetten, al dan niet bedoeld voor toepassingen in het onderwijs.Ga naar eind/1/ In een promotieonderzoek wordt door A. Daams op het ogenblik nagegaan in hoeverre het mogelijk is een adequate basislijst Frans voor het voortgezet onderwijs samen te stellen. Omdat geen enkel bestaand corpus op zichzelf representatief geacht mag worden voor dit doel, lijkt alleen een combinatie van beschikbare gegevens een bruikbaar uitgangspunt te bieden voor een juiste selectie. Een probleem hierbij is natuurlijk de harmonisatie van de bestaande lijsten, maar de manier waarop dit is opgelost zal nu niet ter sprake komen. Wel dient men te bedenken dat deze harmonisatie van invloed kan zijn op de tellingen. Met andere woorden, men moet bedacht zijn op kleine afwijkingen t.o.v. eerder gepubliceerde en later te publiceren getallen. In dit artikel wordt de hoofddoelstelling van het onderzoek even verlaten om de bestaande lijsten op hun eigen merites te onderzoeken. Dit gebeurt door ze te vergelijken met de woordinhoud van een verzameling eindexamenteksten. Het beschikbare materiaal valt in twee delen uiteen. Aan de ene kant zijn er een aantal lijsten die buiten Nederland gemaakt zijn op basis van corpora of andere, hieronder nader te expliciteren criteria. Aan de andere kant zijn er lijsten en leerboeken waarin impliciet of expliciet een poging wordt gedaan om in te spelen op de organisatie van het onderwijs in Nederland, daarbij inbegrepen de wijze waarop woordkennis op het eindexamen getoetst wordt. Een aantal van de laatstgenoemde lijsten maakt overigens weer gebruik van een of meer van de buiten Nederland vervaardigde vocabulaires. Nienhuis (1985) heeft een poging gedaan om de woordinhoud van tien in Nederland gebruikte leerboeken te vergelijken. Hoewel hij ons inziens daarbij niet altijd recht doet aan deze werken, kunnen aan zijn analyse een aantal bevindingen worden ontleend. In de eerste plaats blijkt dat de aangeboden woordenschat varieert van 925 tot ± 3500 woorden, een getal dat vooral afhankelijk is van het niveau van de beoogde doelgroep. Soms maken de 1500 meest frequente woorden van het Frans er wel deel van uit, soms ook niet. In de tweede plaats kan worden geconstateerd dat in de praktijk vaak geen duidelijk onderscheid wordt gemaakt tussen produktieve en receptieve woordenschat. Slechts drie leerboeken beperken zich uitdrukkelijk tot het receptieve vocabulaire. De andere boeken en lijsten worden door de auteurs ook, of zelfs bij uitstek geschikt geacht voor het produktief oefenen | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 38]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
van de woordenschat. Hierdoor ontstaat bij de leerling gemakkelijk de indruk dat er gewoon één woordenlijst is die zowel passief als actief beheerst moet worden, In de derde plaats blijkt uit het stuk van Nienhuis dat vooral het français fondamental, Matoré en Savard & Richards door de auteurs van de bestudeerde leerboeken als buitenlandse bron zijn gebruikt (voor meer gegevens omtrent deze lijsten, zie verderop). Doordat daarnaast andere criteria een rol hebben gespeeld bij de samenstelling van deze lijsten (waaronder in drie gevallen het críterium ‘gesignaleerd in eindexamenteksten’), kan niet eenduidig worden vastgesteld waaraan nu precies de kwaliteit - of het gebrek aan kwaliteit - te danken of te wijten is. Nienhuis stelt verder dat ‘de keuze van de opgenomen woorden (...) een gelukkige is geweest, wanneer die woorden zijn opgenomen die de leerling in eindexamenteksten vrij geregeld zal tegenkomen’ (231). Vervolgens concludeert hij dat, althans voor de door hem geselecteerde 8 fragmenten van 20 regels elk, ‘het doorwerken van een vocabulaireleerboek van beperkt nut is’ (232). Dat vindt hij omdat een leerling met die boeken in het gunstigste geval zo'n 50% van de moeilijkere woorden uit een eindexamentekst zou kunnen begrijpen. Bij het bovenstaande moeten wel een paar kanttekeningen geplaatst worden. Ten eerste is 50% helemaal niet zo'n slechte score als Nienhuis suggereert. Wij komen daar nog op terug. In de tweede plaats is zijn steekproef niet ‘betrekkelijk klein’, zoals hij zelf zegt (227), maar veel te klein. De gedachte zelf om het vóórkomen in eindexamenteksten als beoordelingscriterium te gebruiken is echter wel interessant, en die werken we dan ook verder uit. Gebruikmakend van het door A. Daams gecomputeriseerde corpus dat alle eindexamenteksten omvat van 1968 t/m 1983, uitgesplitst naar schooltype (V=VWO, H=HAVO, M4=MAVO 4, M3=MAVO 3), zullen we in de volgende paragraaf nagaan hoe de woordinhoud van de 6 volgende ‘buitenlandse’ lijsten zich verhoudt tot de woordinhoud van de verschillende tekstcorpora. De letter B zal daarbij als steekproef dienen. Allereerst moeten echter de 6 lijsten kort beschreven worden. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.1. Het français fondamental, 1er degré, Paris 1954 (FF1)Dit uit de eerste helft van de jaren vijftig stammende ‘monument’, waarvan Rivenc (1979: 16) nog durft te beweren dat ‘vrijwel iedereen (...) de wetenschappelijke en pedagogische waarde ervan erkent’, wordt nog steeds zwaar overschat. In feite zijn er van de 1475 woorden die het FF1 telt slechts 48% afkomstig uit de oorspronkelijke frequentielijst, 16% komt uit enquêtes, en maar liefst 36% is door de leden van de commissie van toezicht hoogstpersoonlijk toegevoegd. Wanneer men bovendien bedenkt dat dezelfde commissie bijna 100 woorden uit de oorspronkelijke lijst heeft geschrapt, hoewel ze boven de vastgestelde significantiedrempel uitkwamen, dan is duidelijk dat de wetenschappelijke merites van deze selectie wat minder evident zijn dan vaak wordt aangenomen. Een eenvoudig tabelletje kan deze stelling illustreren. De letter B van het FF telt 100 woorden (inclusief de 5 woorden die de commis- | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 39]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
sie later geschrapt heeft); hiervan zijn er 34 afkomstig uit het frequentieonderzoek, terwijl 66 woorden om andere redenen aan de lijst zijn toegevoegd. Tabel 1 laat zien welke van deze woorden in resp. 0, 1, 2, 3 of 4 van de hierboven onderscheiden eindexamencorpora voorkomen.
In ons onderzoek is de ongecorrigeerde frequentielijst van FF1 meegenomen. Deze pure frequentielijst, gebaseerd op een 312.000 tokens groot spreektaalcorpus, telt iets meer dan 900 woorden, waarvan er 34 zijn die met de letter B beginnen. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.2. G. Matoré, Dictionnaire du Vocabulaire Essentiel, Paris 1963 (M)Dit boek bevat ongeveer 5000 woorden die door een aantal Franse leraren op grond van hun uitgebreide ervaring met het onderwijs aan buitenlanders zijn bijeengebracht. De letter B telt 231 woorden. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.3. A. Juilland e.a., Frequency Dictionary of French Words, Den Haag 1970 (J)De auteurs waarschuwen nadrukkelijk dat hun lijst niet voor didactische toepassingen ontworpen is. Toch is de lijst interessant. Het betreft ongeveer 4500 woorden die afkomstig zijn uit een corpus dat 500.000 tokens telt. Dit corpus bestaat weer uit 5 gelijke delen, die elk een ander type teksten bevatten. Alle teksten zijn echter van voor 1940. De woorden zijn gerangschikt volgens een gebruiksindex waarin frequentie en spreiding gecombineerd zijn. De letter B telt 157 woorden. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.4. J.G. Savard & J. Richards, Les indices d'utilité du vocabulaire fondamental français, Quebec 1970 (SR)De 3300 woorden van deze lijst - waarvan 150 beginnend met een B - zijn voornamelijk ontleend aan het français fondamental 1 en 2. Andere criteria (spreiding, ervaring en valentie) bepalen de rangorde waarin de geselecteerde woorden gepresenteerd worden. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.5. D. Coste e.a., Système d'apprentissage des langues vivantes par les adultes. Un niveau seuil, Strasbourg 1976 (NS)Deze lijst van ongeveer 2250 woorden - waarvan 82 beginnend met een B-is gebaseerd op functioneel-notionele criteria. De uitkomsten | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 40]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
van het op het verwerven van ‘communicatieve competentie’ gerichte onderzoek zijn mede gebaseerd op de ervaring van leerkrachten. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.6. Trésor de la Langue Française, Paris ± 1973 (TLF)Op basis van een in Frankrijk vervaardigd totaaloverzicht is op de Vrije Universiteit voor de meest recente tranche van het Nancy-corpus (die de periode 1946-1964 betreft) een lijst vervaardigd die de ± 5500 meest frequente woorden bevat. Het onderliggende corpus bestaat primair uit literaire teksten. De letter B telt 227 woorden. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4. Confrontatie met de tekstcorporaZoals hierboven reeds is aangekondigd zal nu de woordinhoud van de besproken lijsten worden vergeleken met die van de vier soorten eindexamenteksten die we hebben onderscheiden. De letter B van het V-corpus telt slechts 126 woorden (i.p.v. de op grond van het totale V-corpus verwachte ± 180 woorden); in het H-corpus beginnen 212 woorden met een B (conform de verwachting); het M4-corpus heeft er 135, het M3-corpus telt er 127 (beide volgens verwachting). De vergelijking levert voor iedere lijst L en elk corpus C een doorsnede D op die de woorden bevat die zowel in L als in C voorkomen. Wanneer men D deelt door het totaal aantal woorden van L, dan wordt een indicatie verkregen over het percentage woorden van L dat ‘nuttig’ is voor het begrip van C. Wanneer men D deelt door het totaal aantal woorden (in de betekenis van lemma's) van C, dan wordt een indicatie verkregen omtrent de lemma-dekking van C door L. Lemma-dekking dient zorgvuldig onderscheiden te worden van token-dekking; van dat laatste was sprake in paragraaf 2 (90% token-dekking d.m.v. alle voorkomens van 3000 à 4000 verschillende woorden). De lemma-dekking van een tekst levert een veel lager percentage op dan de token-dekking, omdat de hapax legomena (de woorden die slechts één maal voorkomen) een substantieel deel van de lemma-lijst van iedere willekeurige tekst vormen. Zo bestaat de lemma-lijst van de letter B van het eindexamenmateriaal voor meer dan 40% uit hapax legomena (V=43%, H=50%, M4=41% en M3=47%). Ter vergelijking: de 71.640 lemma's die uit het meer dan 70 miljoen tokens bevattende TLF-corpus zijn afgeleid bestaan voor ± 30% uit hapax legomena. Nut, gedefinieerd als quotient van D/L, en lemma-dekking, gedefinieerd als quotient van D/C, kunnen in één maatstaf gecombineerd worden door de twee quotienten met elkaar te vermenigvuldigen. Beide aspecten wegen dan even zwaar. Uiteraard zijn op dit punt andere gewichtsverdelingen denkbaar. In tabel 2 wordt het resultaat van deze drie berekeningen samengevat. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5. InterpretatieAlvorens ook maar een poging tot interpretatie van de gegevens uit tabel 2 te ondernemen, wijzen we er nogmaals op dat het hier om een steekproef gaat die ongeveer 4% van het totale materiaal (lijsten zowel als eindexamenteksten) omvat. De definitieve en complete gegevens zullen t.g.t. in boek- | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 41]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Welke conclusies kunnen er nu verbonden worden aan de verkregen resultaten? In de eerste plaats kan voor elk type eindexamenteksten bepaald worden welke lijst het beste voldoet. Men zou kunnen stellen dat dit de lijst is die de hoogste lemma-dekking oplevert. Dus Matoré voor VWO, HAVO en MAVO-4 (Met de TLF-lijst als goede tweede), terwijl voor MAVO-3 de omgekeerde volgorde geldt (1. TLF, 2. Matoré).Ga naar eind/2/ Toch zou zo'n benadering onjuist, of in elk geval onvolledig zijn. Immers welke prijs moeten de leerlingen, in termen van leerlast, voor deze dekking betalen? Uit de ‘nut’-kolommen van tabel 2 blijkt b.v. dat van de 5500 woorden tellende TLF-lijst slechts 34% ook daadwerkelijk in de VWO-teksten is voorgekomen. Om die reden is er een totaalscore berekend, waarin zowel leerlast als lemma-dekking verdisconteerd zijn. Zonder bewijs stellen we verder dat een totaalscore van meer dan 0,3 acceptabel is, een score tussen de 0,2 en 0,3 onvoldoende, en een resultaat lager dan 0,2 zeer slecht. Het blijkt nu dat voor de MAVO-3 teksten de TLF-lijst weliswaar de eerste plaats behoudt, maar dat drie andere lijsten, die aanmerkelijk minder woorden bevatten en daardoor voor de MAVO een grotere realiteitswaarde hebben (J,M en SR), eveneens bruikbaar lijken.Ga naar eind/3/ Dezelfde lijsten zijn ook voor | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 42]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
MAVO-4 van belang. Voor HAVO komt Matoré als beste lijst uit de bus, voor VWO Juilland als de minst slechte. Opvallend is verder dat zowel de NS-lijst als FF1 totaal ontoereikend zijn. Verzamelingen van 2250, laat staan 900 woorden zijn eenvoudig veel te klein, ook al is de token-dekking (d.w.z. het percentage woordvormen van een tekst dat ermee bestreken wordt) op het eerste gezicht nog niet zo gek (meer dan 80%). Voor MAVO-teksten blijkt een receptieve kennis van minimaal 3300 goedgekozen woorden nodig te zijn. Voor de HAVO zijn dat er 5000, en voor VWO lijkt zelfs dat nog niet helemaal genoeg. Tot besluit nog een opmerking over de vraag of zuivere frequentielijsten nu wel of niet bruikbaar zijn als uitgangspunt voor een samen te stellen schoolvocabulaire. Een laatste blik op tabel 2 leert dat van de twee over het geheel genomen best scorende lijsten er één uitsluitend op (voor spreiding gecorrigeerde) frequentietellingen gebaseerd is (Juilland), en één zuiver op ervaring (Matoré). Met andere woorden, op dit punt eindigt deze wedstrijd met gelijk spel of blijft hij vooralsnog onbeslist. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Bibliografie
|
|