Tijdschrift voor Taalbeheersing. Jaargang 12

(1990)– [tijdschrift] Tijdschrift voor Taalbeheersing– rechtenstatus

Boekbeoordelingen

H. van den Bergh, Examens geëxamineerd, Dissertatie Universiteit van Amsterdam, 1989.

Recent zijn er enkele wijzigingen aangebracht in het Centraal Schriftelijk Examen Nederlands voor LBO- en MAVO-kandidaten. Die wijzigingen hebben betrekking op zowel het onderdeel tekstbegrip als het onderdeel schrijfvaardigheid. Voorheen bestond het onderdeel tekstbegrip voor MAVO-kandidaten voornamelijk uit open vragen, voor LBO-kandidaten uit zowel open als gesloten vragen. In de nieuwe regeling krijgen LBO- en MAVO-kandidaten precies dezelfde teksten met dezelfde vragen voorgelegd, waarbij het cijfer van de kandidaat voor 70% bepaald wordt door zijn antwoordden op de gesloten vragen en voor 30% door zijn antwoorden op de open vragen. Ook in de toetsing van het onderdeel schrijfvaardigheid zijn nogal ingrijpende wijzigingen aangebracht. Voorheen werd de schrijfvaardigheid van LBO- leerlingen helemaal niet centraal schriftelijk getoetst. Toetsing vond plaats in het schoolonderzoek. In de nieuwe regeling echter moeten de LBO-leerlingen drie à vier functionele schrijfopdrachten maken, opdrachten die toegespitst zijn op taalgebruikssituaties die in de dagelijkse praktijk van belang (kunnen) zijn. De MAVO-leerlingen kunnen in de nieuwe regeling voor het onderdeel schrijfvaardigheid kiezen tussen het schrijven van een ‘traditioneel’ opstel en het maken van zo'n functionele opdrachten.

In de serie empirische onderzoeken waarvan Van den Bergh in zijn dissertatie verslag doet, wordt nagegaan of de LBO- en MAVO-examens onder de oude en nieuwe regeling een beroep doen op dezelfde intellectuele vaardigheden. Concreet: worden bij het beantwoorden van open en gesloten vragen dezelfde intellectuele vaardigheden gemobiliseerd, en zijn bij het maken van functionele schrijfopdrachten dezelfde intellectuele vaardigheden betrokken als die bij het schrijven van een opstel?

Na de inleiding (hoofdstuk 1) waarin de centrale problematiek van het empirisch onderzoek uit de doeken wordt gedaan, komt in hoofdstuk 2 de constructie van de voor het onderzoek relevante meetinstrumenten aan de orde. Om aansluiting te zoeken bij de in het centraal schriftelijk eindexamen gangbare toetsen tekstbegrip voor LBO-MAVO, analyseert Van den Bergh allereerst de karakteristieke aard van de gestelde vragen in 19 ‘oude’ tekstbegripexamens Nederlands. Uit die classificatie kon de conclusie getrokken worden dat er bij de te construeren tekstbegriptoetsen voornamelijk vragen moesten worden gesteld die betrekking hebben op expliciet vermelde informatie, op de hoofdgedachte van een passage en op het volgen van de structuur van een tekst. Aan 480 leerlingen uit de derde klas van LBO en MAVO werden vervolgens 2 (concept) toetsen met elk 40 open vragen voorgelegd, die qua type correspondeerden met de resultaten van de eerder uitgevoerde classificatie. De psychometrische analyse resulteerde in twee equivalente tekstbegriptoetsen met elk 25 (open) vragen. De foute antwoorden van de leerlingen op de open vragen fungeerden als basis voor de constructie van afleiders ten behoeve van de twee tekstbegriptoetsen met gesloten vragen. Zodoende werden in totaal 4 tekstbegriptoetsen geconstrueerd: twee met elk 25 open vragen en twee toetsen met dezelfde vragen maar nu in vierkeuze-vorm. Voor de meting van de schrijfvaardigheid werden in totaal 5 toetsen geconstrueerd: twee ‘traditionele’ stelopdrachten en drie functionele schrijfopdrachten (Bijvoorbeeld: ‘Een sollicitatiebriefje’). Om een adequate vergelijking van intellectuele vaardigheden die betrokken zijn bij het maken van beide typen opdrachten mogelijk te maken (‘traditionele’ opstellen worden doorgaans holistisch nagekeken door de klasseleerkracht, functionele stelopdrachten daarentegen worden gescoord aan de hand van een analytisch scoringsvoorschrift) is het noodzakelijk dat beide typen opdrachten op dezelfde wijze beoordeeld worden. Om die reden construeert Van den Bergh voor drie van de vijf schrijfopdrachten zogenaamde opstelschalen

(in kwaliteitoplopende voorbeeldopstellen, aan de hand waarvan de opstellen beoordeeld moeten worden). Er werden schalen geconstrueerd voor drie aspecten: Globale kwaliteit, Taalgebruik en Inhoud en Organisatie.

Om na te kunnen gaan welke intellectuele vaardigheden differentieel betrokken zijn bij het beantwoorden van open versus gesloten vragen tekstbegrip en welke intellectuele vaardigheden differentieel betrokken zijn bij het maken van een traditionele schrijf- en een functionele schrijfopdracht, construeert Van den Bergh, uitgaande van het Structure-of- Intellect model van Guilford, 48 toetsen die gezamenlijk 18 SI-factoren beogen te meten (drie toetsen per vaardigheid). De keuze van juist deze 18 factoren, alle semantisch van aard, is gebaseerd op een analyse van de relevante onderzoeksliteratuur, van tekstbegripvragen en van hardop-schrijfprotocollen. De testbatterij wordt beproefd in 31 derde klassenvan het LBO en MAVO. De homogeniteiten van de toetsen blijken in het algemeen redelijk. De poging om voor elke SI-vaardigheid drie Rasch-homogene schalen te construeren (met onder meer als voordeel dat het aan een leerling aan te bieden aantal items drastisch beperkt kan worden) mislukt echter.

In hoofdstuk 3 wordt nagegaan, in hoeverre tekstbegriptoetsen met open en gesloten vraagvorm verschillen in moeilijkheidsgraad en in betrouwbaarheid. Na een kritische bespreking van de onderzoeksliteratuur die nogal wat tegenstrijdige conclusies oplevert, kiest Van den Bergh voor een gerandomiseerd design, waarin aan elk van 590 leerlingen uit de derde klas LBO-MAVO aselect één van de vier (in hoofdstuk 2 besproken) tekstbegriptoetsen wordt aangeboden (twee equivalente toetsen met 25 open, twee met 25 gesloten vragen; op de vraagvorm na zijn de open vragen identiek aan de gesloten). Twee docenten beoordeelden aan de hand van een scoringsvoorschrift de antwoorden op de open vragen. Hun interbeoordelaars- overeenstemming bleek hoog en ook de stabiliteit bleek bevredigend. Op de twee tekstbegriptoetsen met gesloten vragen presteerden de leerlingen beduidend beter dan op de equivalen-te toetsen met open vragen. Verder bleek dat tekstbegriptoetsen met open vragen betrouwbaarder (!) zijn dan equivalente toetsen met vierkeuze-vragen. Een verdere analyse aan de hand van logit-modellen bracht aan het licht dat de verschillen in moeilijkheidsgraad tussen toetsen met gesloten en open vragen het grootste zijn bij de moeilijke vragen. Logisch, aldus Van den Bergh, omdat bij moeilijke gesloten vragen de proportie leerlingen die naar het goede antwoord raadt groter is dan bij makkelijke vragen. Zijn eindconclusie luidt dat tekstbegriptoetsen met open en gesloten vragen niet exact hetzelfde meten.

Deze laatste conclusie wordt, m.i. terecht, in hoofdstuk 7 herroepen. Dat hoofdstuk is specifiek gewijd aan de relatie tussen de 16 intellectuele SI-vaardigheden en de leesvaardigheid van LBO/MAVO-leerlingen, gemeten met open en gesloten vragen. Dezelfde 590 leerlingen aan wie de 4 tekstbegriptoetsen zijn voorgelegd, maakten de opgaven van de toetsen ter meting van de SI-vaardigheden. Deze 16 verschillende intellectuele vaardigheden verklaarden tussen de 62 en 66% van de variantie in leesvaardigheid. Om na te gaan of er een substantieel verschil is in intellectuele vaardigheden tussen tekstbegriptoetsen met open en gesloten vragen, vergelijkt Van den Bergh op basis van covariantie structuur-analyse de passing van drie (concurrende) moddelen (schattingen volgens de kleinste kwadraten-methode, vanwege de non-normaliteit van de intellectuele vaardigheidsscores; passing geëvalueerd aan de hand van de ‘gfi’, de totaal door een model verklaarde hoeveelheid variantie en co-variantie en tevens geëvalueerd aan de hand van de RMR, de wortel uit de gemiddelde gekwadrateerde residuensom). Uit een vergelijking van de passingsmaten van de drie modellen bleek geen substantieel verschil in intellectuele vaardigheden aangetoond te kunnen worden tussen tekstbegriptoetsen met open en gesloten vragen. Via een inspectie van de regressiegewichten van de (latente) tekstbegripsscores op de (latente) SI-vaardigheden gaat Van den Bergh vervolgens na, in welke mate leesvaardigheid zoals gemeten door de twee tekstbegriptoetsen,

een beroep doet op de verschillende SI-vaardigheden. Geheugenvaardigheden blijken van groot belang voor de beantwoording van tekstbegripvragen, vooral de geheugenvaardigheid voor betekenisvolle systemen, een resultaat dat convergeert met recente inzichten over tekstbegrip. Verder blijkt uit de analyses dat het beantwoorden van gesloten vragen niet louter een kwestie is van het vergelijken en wegstrepen van alternatieven, maar dat ook convergente en divergente produktievaardigheden een substantiële rol spelen. Een ander belangwekkend resultaat is, dat voor het beantwoorden van open vragen niet louter produktievaardigheden gemobiliseerd moeten worden.

Aan de vraag, welke Sl-factoren een bijdrage leveren aan de variantie in tekstbegrip, gaat uiteraard de vraag vooraf of de 16 verschillende Sl-factoren wel adequaat geoperationaliseerd zijn. Deze preliminaire vraag wordt in hoofdstuk 6 beantwoord. De 48 toetsen ter meting van de 16 Sl-factoren werden voorgelegd aan 601 LBO/MAVO-leerlingen. Met behulp van LISREL werd vervolgens de passing van 5 ‘klassieke’ intelligentie-modellen nagegaan (en varianten daarop), modellen die elk pretenderen de correlationele structuur van intellectuele vaardigheden te kunnen beschrijven. Om kans-capi- talisatie te minimaliseren, werd de variabelver- zameling in drie delen opgesplitst; in elk van die drie variabelenverzamelingen werd telkens de passing van de 5 concurrerende modellen nagegaan, onder meer aan de hand van de gfi en de RMR. Geen van de orthogonale modellen blijkt de correlationele structuur van de variabelen adequaat te kunnen verklaren, reden waarom Van den Bergh zijn aandacht vervolgens richt op de oblique varianten daarvan. Na verdergaande analyses, waarin met name de passing van het oblique model van Cattell vergeleken werd met die van het oblique model van Guilford, bleek het laatste model duidelijk superieur. Verder bleken de parameterschattingen in dit model goed te interpreteren, en bleken de correlaties tussen de 16 vaardigheden overwegend laag positief.

In hoofdstuk 8 wordt de tweede onderzoeksvraag beantwoord (doen het maken van een functionele opdracht en het schrijven van een opstel en beroep op dezelfde SI-vaardighe- den?). Dezelfde 619 leerlingen uit hoofdstuk 6 en 7 maakten ook de 5 schrijfvaardigheidsopdrachten. Zowel de scoring van de functionele opdrachten als de beoordeling van de opstellen bleek betrouwbaar. Verder bleken de drie aspecten Globale Kwaliteit, Taalgebruik en Inhoud en Organisatie in beide typen stelprodukten aan de hand van opstelschalen redelijk betrouwbaar gemeten te kunnen worden. Uit de statistische analyses (opnieuw: kleinste kwadratenschattingen) bleek dat het schrijven van een opstel en het maken van een functionele opdracht een beroep doen op dezelfde SI-vaardigheden, mits beide schrijfopdrachten op identieke wijze beoordeeld worden (i.c. aan de hand van opstelschalen). Worden de functionele opdrachten gescoord en de opstellen beoordeeld - en dat is in de examensituatie het geval - dan zijn bij beide typen opdrachten andersoortige vaardigheden in het geding. Overigens heeft Van den Bergh eerder al, in hoofdstuk 4, aangetoond dat voor een betrouwbare meting van de schrijfvaardigheid in bij voorbeeld een examensituatie een leerling flink wat schrijfopdrachten moet uitvoeren (minimaal 14).

In het afsluitende hoofdstuk 9 wordt een kort overzicht gegeven van de onderzoeksresultaten, worden enkele nadere exploraties verricht, worden kritische kanttekeningen bij het onderzoek geplaatst en worden enkele implicaties van de onderzoeksresultaten voor het centraal schriftelijk eindexamen toegelicht.

Commentaar

Van den Bergh heeft een indrukwekkend proefschrift geschreven. Zowel op methodologisch als op psychometrisch en data-analytisch gebied heeft hij een prestatie van formaat geleverd. Met groot gemak hanteert hij complexe analyse-technieken (logit-modellen, variantieanalytische modellen, latente trekmodellen, covariantie structuur-analyses, enzovoort) waarbij hij, anders dan vele andere onderzoekers, een scherp oog heeft voor de aan die technieken ten grondslag liggende assumpties.

Bovendien beantwoordt hij zijn praktische vraagstelling niet op een ad-hoc empiricistische wijze, maar gaat in zijn onderzoek - terecht - expliciet uit van een theoretisch kader dat zijn verdienste ruimschoots heeft bewezen. De onderzoeksresultaten winnen als gevolg daarvan aan diepgang en betekenis. Verder zijn tal van Van den Berghs bevindingen van rechtstreeks belang voor de ‘onderwijspraktijk’. Om een voorbeeld te geven: voor een betrouwbare meting van de schrijfvaardigheid van leerlingen zijn minimaal 14 (!) schrijfopdrachten vereist.

Niettemin blijft er ruimte voor enige kritiek. Het proefschrift, een compilatie van verschenen en te verschijnen artikelen, is moeilijk leesbaar. Dit is niet alleen een gevolg van de gehanteerde complexe analyse-technieken, maar ook en vooral van de rapportagevorm. Elk hoofdstuk is, als artikel in een tijdschrift, relatief zelfstandig leesbaar. Maar de voordelen hiervan wegen niet op tegen de nadelen: de hoofdstukken hangen enigszins als los zand aan elkaar, er ontbreekt een hechte, doortimmerde structuur; verder zijn de hoofdstukken (gedwongen uiteraard, gezien de beperkte ruimte in tijdschriften) zeer compact geschreven waardoor relevante informatie soms niet verstrekt wordt c.q. kan worden. Zo zou je als lezer bij voorbeeld graag willen weten, hoe de twee geconstrueerde tekstbegriptoetsen in elkaar steken - zeker wanneer uit de analyses in hoofdstuk 7 blijkt dat het antwoordgedrag van de leerlingen meer beïnvloed wordt door de aard van de tekst waarbij de vragen gesteld worden, dan door de vraagvorm. Verder kost het je als lezer flink wat moeite om te achterhalen, dat de steekproef scholieren aan wie de testbatterij van SI-toetsen is voorgelegd (hoofdstuk 6), dezelfde is als die welke ter sprake komt in hoofdstuk 7 en 8. Maar niet alleen wordt relevante informatie soms (noodgedwongen) niet verstrekt, in andere gevallen is de geleverde informatie storend redundant. Zowel in hoofdstuk 2, 6, 7 als 8 wordt, uiterst summier, telkens weer eenzelfde uitleg van het Guilford-model gegeven. Bovendien valt het gehele hoofdstuk 4, waarin een methode wordt beschreven voor het bepalen van individuele beoordelaarsbetrouwbaarheden, buiten het bestek van de twee onderzoeksvragen. De onmiskenbare kwaliteit van dit proefschrift verdient m.i. een andere presentatievorm.

Een ander puntje van kritiek betreft de berekening van de beoordelaarsbetrouwbaarheid. In alle gevallen definieert Van den Bergh de (interbeoordelaars) betrouwbaarheid als de pmc tussen de oordelen van twee verschillende beoordelaars. Gezien zijn praktische vraagstelling raakt die definitie van betrouwbaarheid (interval-niveau) niet de kern waar het in een examensituatie primair om draait, namelijk de overeenstemming tussen zak/slaag percentages (nominaal niveau). Van den Bergh merkt zelf op dat een hoge interbeoordelaarsbetrouwbaarheid, gedefineerd in termen van een pmc, geenszins hoeft te betekenen dat de overeenstemming tussen beoordelaars over zakken/slagen ook hoog is. Gelet op de praktische implicaties van de onderzoeksresultaten voor de examensituatie zou het de voorkeur verdiend hebben indien de betrouwbaarheidsberekeningen niet alleen op interval, maar ook op ordinaal en nomiaal niveau hadden plaatsgevonden.

In de hoofdstukken 6, 7 en 8, de hoofdstukken waarin rechtstreeks wordt ingegaan op de beantwoording van de twee onderzoeksvragen, wordt telkens gebruik gemaakt van covariantie structuur-analyse. In hoofdstuk 9 bespreekt Van den Bergh in extenso de problemen, inherent aan deze analyse-techniek. Aangezien de SI-vaardigheden verre van normaal verdeeld zijn, kan de maximum likelihood methode voor het schatten van de modelparameters niet gehanteerd worden, met als gevolg dat er geen chikwadraat verdeelde toetsingsgrootheid berekend kan worden. Maar bij gebruik van de ongewogen kleinste kwadraten methode voor het schatten van de modelparameters hebben de passingsindices (‘gfi’ en RMR) een onbekende statistische verdeling. Het is derhalve moeilijk, zo merkt Van den Bergh terecht op, om de passing van een model te evalueren. Hij zoekt een uitweg uit dit netelige probleem door een pragmatische oplossing te kiezen (namelijk door een effectmaat te introduceren). Met de gekozen oplossing ben ik allerminst gelukkig. De

verschillen in passing tussen de verschillende getoetste modellen zijn in de regel extreem klein - waarom niet de conclusie getrokken dat er op basis van de beschikbare gegevens niet gediscrimineerd kan worden tussen de verschillende alternatieven? Het maakt in praktische zin bijzonder veel uit of men nu concludeert dat men niet kan beslissen of er nu wel of niet verschillende vaardigheden bij open en gesloten vragen betrokken zijn, danwel concludeert (zoals Van den Bergh) dat bij beide typen vragen dezelfde vaardigheden in het geding zijn. Bovendien zou een keuze ten gunste van een van de getoetste modellen aanmerkelijk gefundeerder zijn geweest indien Van den Bergh via simulatie-studies de ‘verdeling’ van de passingsmaten had nagetrokken (genereren van random data onder de assumpties van het alternatieve model, waarbij toetsing plaatsvindt onder het geprefereerde model). Gelet op de praktische implicaties van Van den Berghs onderzoek zou vervolgonderzoek in deze richting wenselijk zijn.

Een ander, wat zwaarwegender punt van kritiek betreft het volgende. De keuze van de 16 geoperationaliseerde SI-factoren wordt (te) weinig theoretisch onderbouwd. Anders dan bij voorbeeld Hoeks (1985) die vanuit procestheorieën over het lezen een SI-batterij ter prediktie van het begrijpend lezen samenstelt, baseert Van den Bergh zijn keuze van SI-factoren op voornamelijk empiricistische gronden (twee docenten Nederlands ontleenden de tekstbegripsvragen in SI-vaardigheden, overigens met matig succes). Het gevolg daarvan is dat de SI-testbatterij nogal willekeurig lijkt te zijn samengesteld. En wat hier gesteld is ten aanzien van het begrijpend lezen, geldt evenzeer voor de schrijfvaardigheid. Verder wordt procesonderzoek ook node gemist bij het onderzoek naar de vraag of open en gesloten vragen een beroep doen op dezelfde vaardigheid. In zijn pogingen de onderzoeksresultaten te verklaren, maakt Van den Bergh vrijwel zonder uitzondering gebruik van hypothesen over de ter zake relevante processen, i.c. hypothesen over hoe proefpersonen de taak in kwestie aanpakken.

Vervolgonderzoek waarbij die processen betrokken zouden worden, is ook hier wenselijk. Al met al had ik liever gezien dat Van den Bergh slechts één van de onderzoeksvragen zou hebben beantwoord, maar dan wel uitputtend, zowel produkt- als procesgericht. Dit alles neemt niet weg dat mijn eindoordeel over dit proefschrift zonder meer positief is.

B. Meuffels

I.M.A.M. Pröpper. Argumentatie en machtsuitoefening in onderzoek en beleid. Evaluatieonderzoek naar de WetInvesteringsrekening en het gebruik ervan in het beleidsproces. Dissertatie Universiteit Twente, Enschede, 1989, 400 pp.

De overheid laat zich bij het uitstippelen van beleid en bij de uitvoering en beoordeling ervan in toenemende mate leiden door resultaten van onderzoek. In de politieke discussie over beleid spelen ze vaak een dominante rol. Draagt de kwaliteit van dergelijk beleidsondersteunend onderzoek nu bij aan de kwaliteit van het beleidsproces? Die vraag heeft de bestuurskundige Pröpper trachten te beantwoorden voor het evaluatie-onderzoek naar de Wet Investeringsrekening (de beruchte WIR). Zijn antwoord op de vraag is in dit geval: ja. Maar interessanter dan dit antwoord is de wijze waarop Pröpper ertoe komt. Hij heeft namelijk zowel het evaluatie-onderzoek als het beleidsproces, in concreto de discussies over de WIR in de Tweede Kamer, opgevat als een argumentatieproces. De vraag wordt nu of de kwaliteit van het ene argumentatieproces (de argumentatie in het evaluatieonderzoek) bijdraagt aan de kwaliteit van het andere argumentatieproces (de Kamerdiscussies).

En om die vraag te kunnen beantwoorden dient het begrip ‘kwaliteit van argumentatie’ geoperationaliseerd te worden. Een buitengewoon lastige opgave. Hoe pakt Pröpper dat aan en lukt het hem?

Allereerst bouwt Pröpper een beperking in: hij beperkt zich tot de procedurele rationaliteit van de argumentatie: die is groter naarmate de manier van argumenteren meer voldoet aan discussieregels. De materiële rationaliteit van uitspraken of taalhandelingen, tot uitdrukking komend in de mate van aannemelijkheid of aanvaardbaarheid op basis van de gegeven argumenten, blijft buiten beschouwing.

Vervolgens is het natuurlijk de vraag wat in dit verband de relevante discussieregels zijn en hoe kan worden nagegaan of daaraan in een concreet argumentatieproces is voldaan. Bij de beantwoording van deze vraag toont Pröpper zich een creatief verzamelaar van normen uit recent argumentatie-onderzoek. In een modelprocedure van argumentatie formuleert hij zes hoofdregels met betrekking tot: gebondenheid (aan discussiedoel en eigen uitspraken en argumenten), motiveringsplicht, consistentie, relevantie, zakelijkheid en openheid. Op iets lager niveau levert dat 17 subregels op, een handzame compilatie van regels zoals die ook bij Alexy en Van Eemeren & Grootendorst zijn te vinden. Maar daarmee is natuurlijk nog niet duidelijk wanneer die regels overtreden worden of niet. Na een bemoedigend citaat van Grootendorst (‘Wie zoekt naar een uitputtende opsomming van alle manieren waarop mensen fouten kunnen maken, begint (...) aan een hopeloze zaak.’) presenteert Pröpper 69 drogredenen die een indicatie vormen voor de overtreding van een van de discussieregels. Tellen we ook hier subcategorieën mee, dan gaat het zelfs om 106 drogredenen. Om overtredingen op het terrein van relevantie op te sporen presenteert Pröpper ook nog als alternatief een beoordeling aan de hand van 16 schema's voor verschillende soorten argumentatie en in totaal 44 daarbij behorende evaluatievragen.

Gewapend met deze checklist van 150 items kan Pröpper nu de kwaliteit van een argumentatieproces vaststellen. Hij doet dat door drie scores te berekenen. De procedurele rationaliteit van een discussie(bijdrage) is groter naarmate deze minder uitspraken bevat waarin één of meer overtredingen van de modelprocedure voor argumentatie tot uitdrukking komen. Voor de berekening deelt Pröpper het aantal uitspra-ken zonder overtreding door het totaal aantal uitspraken; de score komt dus tussen 0 en 1 te liggen. Nu kunnen overtredingen natuurlijk het gevolg zijn van boos opzet of van onhandigheid; of in termen van Pröpper, van strategisch of onbekwaam handelen. Om dat tot uitdrukking te brengen hanteert hij nog twee andere scores: de strategische component en de communicatieve component van een discussie(bijdrage). De eerste is het aandeel van de uitspraken in het totaal waarin één of meer strategische overtredingen tot uitdrukking komen. De tweede is daaraan complementair: het aandeel van uitspraken zonder overtreding plus het aantal onopzettelijke overtredingen in het totaal.

De argumentatieve kwaliteit van een evaluatieonderzoek wordt nu vastgesteld door deze scores te berekenen voor de samenvattende paragrafen of hoofdstukken van het onderzoeksrapport. (Ik laat een tweede maat voor de ‘extrinsieke’ kwaliteit van evaluatieonderzoek hier buiten beschouwing). De kwaliteit van de argumentatie in het beleidsproces wordt vastgesteld op basis van de discussie in de Tweede Kamer, inclusief de schriftelijke stukken en de discussie in Vaste Kamercommissies. Hier beperkt de analyse zich tot die passages waarin direct wordt ingegaan op het onderzoek of op de discussie die daar direct op volgt.

Voor 10 evaluatie-onderzoeken die naar de Wet Investeringsrekening zijn gedaan, is op deze manier de kwaliteit van de argumentatie in het onderzoek en in het gebruik ervan vastgesteld. In zijn proefschrift brengt Pröpper gedetailleerd verslag uit van twee van die tien studies en hij presenteert de totaalresultaten. Wat blijkt?

Met de procedurele rationaliteit van de argumentatie zowel in het evaluatie-onderzoek als bij het gebruik ervan in de Kamer is het bedroevend gesteld. De procedurele rationaliteit van het evaluatie-onderzoek behaalt een score van 0.35; het gebruik ervan in de Kamer 0.30. Slechts een enkel onderzoek en een enkele discussie komt uit op een score van 0.5 of meer. In concreto: van de 327 gescoorde uitspraken uit de samenvattende paragrafen van evaluatie- onderzoeksrapporten zijn er 185 (56%) waarin

één of meer overtredingen tot uitdrukking komen. In het gebruik van het onderzoek in de Kamerstukken en -discussies ligt het niet veel anders: van de 402 door Pröpper beoordeelde uitspraken laten er 261 (65%) één of meer overtredingen zien.

Welke overtredingen worden nu het meeste door Pröpper aangetroffen? Van de zes hoofdregels wordt de regel van zakelijkheid veruit het meest frequent met voeten getreden, zowel in het evaluatie-onderzoek als in het gebruik ervan. (De regel is goed voor 63% resp. 53% van de overtredingen in onderzoek resp. gebruik). Daarbinnen levert vooral de subregel die tendentieuze presentatie door onjuiste of onvolledige informatie verbiedt, de meeste overtredingen op (58% resp. 44% van het totaal aantal overtredingen). Een goede tweede is zowel in het onderzoek als in het gebruik ervan de regel van motivering: die levert 20% resp. 19% van de overtredingen op.

Nu ging het Pröpper niet om een absoluut oordeel over de procedurele rationaliteit. De getallen zijn misschien ook minder alarmerend dan ze lijken; er is immers geen zinvol criterium ter vergelijking beschikbaar. Hoe zit het met het gezochte verband tussen onderzoek en Kamerdiscussie? Gelukkig is het resultaat hier iets bemoedigender. Pröpper kan inderdaad vaststellen dat een onderzoeksrapport waarvan de procedurele rationaliteit hoger scoort, ook in het gebruik in de Tweede Kamer tot een hogere procedurele rationaliteit leidt.

Die conclusie laat zich misschien ook wat minder abstract formuleren. Pröpper heeft alleen gekeken naar de concluderende gedeelten van onderzoeksrapporten en de analyse van de Kamerdiscussie beperkt tot gedeelten waarin direct over het evaluatie-onderzoek wordt gesproken. Als ik bovendien rekening houd met de aard van de meest frequente overtredingen, dan kom ik tot de volgende conclusie: een onderzoeksrapport waarin in samenvatting, conclusies en aanbevelingen zorgvuldiger met de onderzoeksresultaten wordt omgesprongen, leidt in de Tweede Kamer minder gemakkelijk tot een vertekende weergave en misbruik van de resultaten. Vermeldenswaard is vervolgens nog dat ambtelijk uitgevoerd onderzoek naar de WIR in dit opzicht hoger scoort dan het evaluatie-onderzoek van TNO en CPB.

Nu vallen of staan deze resultaten natuurlijk met de validiteit van de operationaliseringen. Is Pröpper erin geslaagd de kwaliteit van argumentatie op een bevredigende manier vast te stellen? Ik ben onder de indruk van de voortvarendheid waarmee Pröpper dit probleem heeft aangepakt, maar ik heb toch ook mijn vraagtekens bij het uiteindelijke resultaat. Laat ik het iets anders formuleren. Pröpper is er uitstekend in geslaagd een goed beargumenteerd oordeel te vellen over 10 evaluatie-onderzoeken en over de kwaliteit van het gebruik ervan in het beleidproces. Ik ben er echter niet van overtuigd dat een andere onderzoeker met hetzelfde instrumentarium in handen tot dezelfde conclusies zou komen. Daarvoor sluipt toch op te veel plaatsen het eigen oordeel van de onderzoeker binnen in de toepassing van de discussieregels en de identificatie van drogredenen. Eerlijk gezegd: ik denk dat dat onvermijdelijk is, ook al gaat van Pröppers aanpak een tegengestelde suggestie uit. Ik licht dit op twee punten toe.

Het onderscheid tussen materiële en procedurele rationaliteit is in eerste instantie volstrekt duidelijk. En met de beperking tot procedurele rationaliteit lijkt Pröpper een objectieve beoordeling mogelijk te maken. De materiële beoordeling van de aannemelijkheid of aanvaardbaarheid van uitspraken wil hij immers buiten beschouwing laten.

In de uitwerking van het begrip procedurele rationaliteit worden echter toch materiële oordelen gevraagd. Pröpper realiseert zich dat ook (p. 250). De onderzoeker ontkomt met name niet aan een materiële beoordeling als hij de argumentatie toetst aan de regel dat argumenten relevant moeten zijn (regel 4.1) en dat niet met behulp van onjuiste of onvolledige informatie een tendentieuze bijdrage mag worden geleverd (regel 5.4). Dat een oordeel over de juistheid van informatie een materiële aangelegenheid is, spreekt voor zich. Maar ook een oordeel over de relevantie van argumenten is geen procedurele aangelegenheid. Kortheidshalve: een oordeel over de relevantie van A voor de conclusie B vergt een materieel oordeel over de implicatie Als A dan B.

Op een ander niveau rijzen vragen bij de toepassing van de regels. Een probleem bij sommige drogredenen die Pröpper hanteert als indicatie van regelovertredingen, is dat het niet altijd evident is dat een zogenaamde drogreden afbreuk doet aan de rationaliteit van de discussie. Terecht gaat Pröpper na of bij gebruik van evaluatie-onderzoek in de beleidsdiscussie de resultaten en conclusies van het onderzoek niet worden verdraaid of onvolledig weergegeven. De minister die zijn beleid verdedigt op grond van onderzoeksresultaten moet natuurlijk op dat punt beoordeeld worden. Naar mijn oordeel maakt het voor de beoordeling van de ministeriële argumentatie nogal wat uit of het onderzoeksrapport ook voor alle deelnemers aan de discussie beschikbaar is of niet. (In drie van de tien gevallen moest de Kamer het doen met een ambtelijke of ministeriële samenvatting van de onderzoeksresultaten! Pröpper laat een aantal mooie staaltjes zien van een geleidelijke verschuiving van conclusies die daarbij optreedt). Pröpper maakt tussen die twee situaties geen onderscheid.

Wanneer Kamerleden de woorden van de minister weergeven of de minister de woorden van een Kamerlid, moet dat natuurlijk netjes gebeuren. Maar wanneer in dergelijke samenvattingen de nuances verdwijnen, maakt het nogal wat uit of ze vervolgens argumentatief worden misbruikt (als stroman bijvoorbeeld) of niet. Uit de voorbeelden die Pröpper geeft van zijn analyse (gedeeltelijk ook te vinden in zijn eerdere artikel in dit tijdschrift), maak ik op dat hij daartussen geen onderscheid maakt of de grenzen anders trekt dan ik zou doen.

Nu zou een dergelijke kanttekening bij een van de 150 beoordelingspunten niet erg zwaar hoeven te wegen, als nu juist niet dit type overtreding de grootste bijdrage levert aan de procedurele irrationaliteit die Pröpper vaststelt zowel in het evaluatie-onderzoek als in het beleidsproces. Het is de vraag of bij een iets andere opvatting van de regel van zakelijkheid de verbanden die Pröpper vindt tussen de kwaliteit van evaluatie-onderzoek en van het gebruik ervan in het beleidsproces er nog wel hetzelfde uitzien.

Bovenstaande opmerkingen beperken mijns inziens vooral de objectiviteit en betrouwbaarheid van Pröppers methode als beoordelingsinstrument. Ik wil daarmee de methode niet naar de prullenbak verwijzen. Ten eerste blijft staan dat Pröpper een goed overzicht biedt van de normen die in argumentatie-onderzoek zoal zijn beschreven of ontwikkeld. Ten tweede kan Pröpper op basis daarvan een weliswaar subjectief maar toch zeer goed controleerbaar oordeel over de kwaliteit van een argumentatieproces vellen. Ten derde weet ook ik niet hoe het anders zou moeten. Ik betwijfel of het mogelijk is een zinvol beoordelingsinstrument te construeren dat zich echt beperkt tot de procedurele rationaliteit en waar bij de toepassing van beoordelingscriteria geen grondig verschil van mening mogelijk is. De suggestie die Feteris (1989) in een discussie met Pröpper doet: een pragmadialectische verantwoording van analyse en beoordeling, biedt in dit opzicht ook geen soelaas.

In bovenstaande heb ik mij niet gewaagd aan een bespreking vanuit bestuurskundig gezichtspunt. Daardoor is de term machtsuitoefening in de titel van het proefschrift in de lucht blijven hangen. Toch is dat in het verhaal een centraal begrip. Pröpper stelt namelijk het gebruik van drogredenen c.q. het overtreden van discussieregels, mits dat niet aan onhandigheid van de betrokkene is te wijten, gelijk aan strategisch handelen. En vervolgens beschouwt hij strategisch handelen als een vorm van machtsuitoefening. Nu maakt hij terecht een scherp onderscheid tussen het bezitten van macht en het uitoefenen ervan. Maar als gevolg van zijn terminologische onderscheidingen zien we in Kamerdiscussies regelmatig Kamerleden zonder enige macht (Van Dis SGP, Beckers PPR) macht uitoefenen (want overtredingen begaan). Ook machtelozen kunnen zich schuldig maken aan laakbare vormen van machtsuitoefening. Dat is niet zozeer bestuurskundig als wel taalkundig een merkwaardige uitkomst van het onderzoek van Pröpper.

P.J. Schellens

Bibliografie

E.T. Feteris, De noodzaak van pragma-dialectische analyse en beoordeling voor kwantitatief onderzoek naar argumentatie. In: Tijdschrift voor Taalbeheersing 11, 1989, p. 60-65

I.M.A.M. Pröpper, Argumentatie en machts- uitoefening in discussies. In: Tijdschrift voor Taalbeheersing 10, 1988, p. 286-299

I.M.A.M. Pröpper, Een antwoord op: ‘De noodzaak van pragma-dialectische analyse en beoordeling voor kwantitatief onderzoek naar argumentatie.’ In: Tijdschrift voor Taalbeheersing 11, 1989, p. 66-68

Vorige Volgende