Tijdschrift voor Taalbeheersing. Jaargang 12

(1990)– [tijdschrift] Tijdschrift voor Taalbeheersing– rechtenstatus

Discussie
Valkuilen achter een rookgordijn
F.H. van Eemeren, R. Grootendorst en B. Meuffels

Reactie op: C. van Wijk, ‘Het leren begrijpen van argumentatie. Een reactie op empirisch onderzoek van Van Eemeren, Grootendorst en Meuffels.’ In: Tijdschrift voor Taalbeheersing 11 (1989) p. 280-292.

1 Taalkundig-psychonomisch versus onderwijskundig-psychometrisch onderzoek

In de vorige aflevering van dit tijdschrift reageert Van Wijk (1989) op ons empirisch onderzoek. Zijn commentaar spitst zich toe op twee uit een serie door ons uitgevoerde onderzoeken waarin de herkenning van argumentatie centraal staat.Ga naar eindnoot1 In zijn commentaar gaat Van Wijk niet alleen volledig voorbij aan de verschillen in de methodische opzet van deze twee onderzoeken en in de manier waarop de gegevens verwerkt zijn, maar ook aan de fundamentele verschillen in de doelstelling. Om verdere spraak- en denkverwarring te voorkomen, is het nodig zijn kritiek onder de loep te nemen. Dan zal duidelijk worden dat zijn bezwaren onterecht zijn.

De bedoeling van de serie empirische onderzoeken was na te gaan in hoeverre de herkenning van argumentatie vergemakkelijkt wordt door bepaalde factoren in de presentatie. Daar was nog maar weinig over bekend. Het onderzoek concentreerde zich in eerste instantie op het eenvoudigste geval: enkelvoudige argumentatie.Ga naar eindnoot2 Pas toen hierover wat meer duidelijkheid was ontstaan, had het zin meer complexe argumentatie, zoals indirecte argumentatie, te onderzoeken.Ga naar eindnoot3

Volgens Van Wijk past ons onderzoek geheel binnen een onderwijskundig-psycho- metrische invalshoek. Dit type onderzoek is naar zijn mening behept met een essentiële beperking: het wordt steeds weer met behulp van eenzelfde, niet-valide toets uitgevoerd. Van Wijk vindt dat een taalkundig-psychonomische benadering, waarin getracht wordt regelmatigheden te (re)construeren, de voorkeur verdient.

Daargelaten of Van Wijk hierin gelijk heeft, kan ons onderzoek naar de invloed van verbale factoren op de herkenning van argumentatie toch moeilijk als ‘onderwijskundigpsychometrisch’ worden afgedaan: noch de kwaliteit van het meetinstrument stond centraal noch de meting van (individuele verschillen in) taalprestaties. Ons onderzoek heeft wel een aantal interessante regelmatigheden bij het herkennen van argumentatie aan het licht gebracht - en het aan het licht brengen van zulke regelmatigheden is kenmerkend voor de door Van Wijk gepropageerde taalkundig-psychonomische benadering.Ga naar eindnoot4

Het door Van Wijk gesignaleerde ‘fundamentele meningsverschil’ over de gevolgde ‘onderzoeksstrategie’ lijkt hiermee afgedaan. Lijkt, want Van Wijk typeert de aard van ons onderzoek verkeerd door de verschillende onderzoeken over één kam te scheren. Het onderzoek waarbij hij zijn kritiek ter sprake brengt, Van Eemeren, Grootendorst & Meuffels (1987), heeft een heel andere probleemstelling en - in het verlengde daarvan - een ander design en statistische analyse dan de andere onderzoeken. In dit ene, ‘afwijken-

de’ onderzoek ging het nu juist niet om de invloed van verbale factoren op de herkenning van argumentatie, maar om de verschillen tussen MAVO-2 en 3 leerlingen in de vaardigheid in het herkennen van argumentatie. Ten onrechte doet Van Wijk het voorkomen alsof dit speciale onderzoek typerend is voor alle door ons uitgevoerde empirische onderzoeken.Ga naar eindnoot5

2 Bodem- en plafond-effecten

In Van Eemeren, Grootendorst & Meuffels (1987) staan twee vragen centraal die in Van Wijks typologie evenmin als onderwijskundig-psychometrisch kunnen worden gekarakteriseerd: (1) Kunnen leerlingen van de tweede en derde klas MAVO, zonder daarin systematisch te zijn onderwezen, enkelvoudige argumentatie herkennen?, (2) Is de vaardigheid in het herkennen van argumentatie een relatief zelfstandige en onafhankelijke vaardigheid? Deze vragen komen niet zomaar uit de lucht vallen, maar vloeien voort uit ons voorafgaand onderzoek.

In eerste instantie hebben wij de invloed van verbale factoren op de herkenning van argumentatie proberen te traceren met behulp van de pencil-and-paper methode. Zo'n methode verschaft alleen duidelijke informatie over de invloed van bepaalde factoren als de proefpersonen fouten maken. Voor ons type betoogjes bleek dat bij eerstejaars-studenten in de Neerlandistiek nauwelijks het geval te zijn. Er was dus sprake van een plafondeffect, waardoor de mogelijkheid om de invloed van verbale factoren op de herkenning van argumentatie vast te stellen, wordt geminimaliseerd.

Vervolgens hebben wij de pencil-and-paper methode beproefd bij jongere scholieren in de verwachting dat die meer fouten maken, zodat de eventuele invloed van de onderzochte factoren zich duidelijker zou manifesteren. Bij Atheneum-leerlingen uit de derde klas bleek opnieuw een plafond-effect, terwijl bij MAVO-scholieren uit de tweede klas juist een bodem-effect optrad: ze maakten buitensporig veel fouten, waardoor de invloed van mogelijke factoren evenmin kan worden aangetoond.

Dat we bij MAVO-3 leerlingen niet de pencil-and-paper methode toepasten maar onze toevlucht zochten tot een andere meetprocedure, had te maken met onze verwachting dat er opnieuw plafond-effecten zouden optreden.Ga naar eindnoot6 We zijn nagegaan (1) of er, zoals we vermoedden, in de betreffende leeftijdsperiode inderdaad sprake is van cognitief-intellectuele ontwikkelingen die bij MAVO-3 leerlingen aanzienlijk meer plafond-effecten veroorzaken dan bij MAVO-2 leerlingen en (2) of de vaardigheid in het identificeren van argumentatie een aparte vaardigheid is die niet afhankelijk is van andere intellectuele vaardigheden.

De toetsing van onze twee hypothesen vond plaats door aan 40 leerlingen uit de tweede en 82 leerlingen uit de derde klas van de MAVO 4 verschillende tests voor te leggen: (1) een test ter meting van de vaardigheid in het identificeren van argumentatie, (2) van ‘Verbaal Begrip’, (3) van ‘Verbaal Redeneren’ en (4) van ‘Algmeen Redeneervermogen’. De resultaten van het onderzoek bevestigden beide hypothesen.

Leest men Van Wijks reactie, dan krijgt men de indruk dat ons onderzoek om de volgende vragen draait: (1) of de cognitieve ontwikkeling in het herkennen van argumentatie sprongsgewijs verloopt dan wel geleidelijk en (2) of deze vaardigheid al of niet onafhankelijk is van ‘Verbaal Begrip’, ‘Verbaal Redeneren’ en ‘Algmeen Redeneervermogen’. Onze hypothese over differentiële bodem- en plafond-effecten bij MAVO-2 en MAVO-3 is bij hem geheel uit beeld verdwenen. De eerste onderzoeksvraag die Van Wijk ons toeschrijft, is onze onderzoeksvraag niet en zijn kritiek is er dus helemaal naast. De

tweede onderzoeksvraag die Van Wijk ons toeschrijft is wel de onze, maar zijn kritiek dat de data niet zouden sporen met de conclusies, is onjuist.

3 Een beetje rekenwerk over een alles-of-niets zaak

De drie tests voor het meten van ‘Verbaal Begrip’, ‘Verbaal Redeneren’ en ‘Algmeen Redeneervermogen’ dienden in dit onderzoek (onder meer) ter toetsing van onze hypothese over plafond- en bodemeffecten. De resultaten van deze test fungeerden als ‘baseline waartegen de verwachte ontwikkeling in de vaardigheid in het identificeren van argumentatie kan worden afgezet’. Of leerlingen ‘veel’ of ‘weinig’ vooruitgang in deze vaardigheid vertonen, kan alleen vergelijkenderwijs worden vastgesteld.

Wat waren de resultaten? Van de onderzochte vaardigheden bleek de argumentatieve test het sterkst te discrimineren tussen klas 2 en 3. Uit het feit dat er bij tweede klassers bodemeffecten en bij derde klassers plafondeffecten optraden (onze hypothese) krijgt men sterk de indruk dat het herkennen van argumentatie in deze leeftijdscategorie een alles-of- niets zaak is. Anders dan Van Wijk doet voorkomen, beweren wij in ons artikel nergens dat het herkennen van argumentatie in deze leeftijdscategorie een alles-of-niets zaak is. Hoe dit ook zij, een alles-of-niets zaak wordt door ons in elk geval uitdrukkelijk in relatieve zin opgevat: alleen tegen een bepaalde achtergrond, in dit geval vergeleken met de forse vooruitgang in ‘Verbaal Begrip’, kan de nog veel forsere vooruitgang in het herkennen van argumentatie als een alles-of-niets zaak worden beschouwd.

Maar ook al vat Van Wijk onze eerste onderzoeksvraag verkeerd op, dan nog zou het kunnen zijn dat hij bij zijn heranalyse van onze empirische gegevens op een interessant fenomeen is gestuit. Hij is van oordeel dat de door ons gerapporteerde data ‘op twee manieren evidentie leveren voor een geleidelijke toename van de vaardigheid in het begrijpen van argumentatieve verbanden’.

Van Wijk onderscheidt 4 respondenttypen: (1) respondenten die gokken; deze scoren vanaf 31 tot 70% correct, (2) respondenten met een volledig begrip, scorend van 91 tot 100% correct, (3) respondenten met een partieel begrip, scorend van 71 tot 90% correct en (4) respondenten die anomalistisch, scorend van 0 tot 30% correct. In een bijgevoegde tabel geeft Van Wijk de verdeling aan van de proefpersonen over de vier respondenttypen. Naar aanleiding van deze tabel merkt hij onder meer op dat een aanzienlijk aantal leerlingen een partieel begrip vertoonde: ‘bij de Detectie-score van klas 2 liep hun aandeel zelfs op tot 42 procent’. De alles-of-niets hypothese wordt hiermee volgens hem weerlegd.

Dit klinkt allemaal heel plausibel, maar aan de tabel en de daaraan verbonden conclusie liggen enkele kapitale blunders op het vlak van statistiek en testtheorie ten grondslag. Wanneer men, zoals Van Wijk, niet beschikt over de precieze leeftijdsverdeling van de leerlingen over de verschillende respondenttypen, is een interpretatie van de betreffende gegevens bovendien nogal hachelijk. Stel dat de proefpersonen met een partieel begrip in klas 2 zonder uitzondering zittenblijvers zijn, en dus qua leeftijd bij de leerlingen in klas 3 horen.Ga naar eindnoot7 Dan wordt het percentage tweede klassers met een partieel begrip tot 0 gereduceerd. Stel verder dat de gokkers in klas 3 gemiddeld 14,7 jaar en de leerlingen met volledig begrip 14,9 jaar zijn. Wat blijft er dan nog over van de door Van Wijk geclaimde ‘geleidelijke ontwikkeling’, die zich immers in pakweg twee maanden voltrekt?

Zelfs als we, for the sake of argument, aannemen dat het met de leeftijdsverdeling wel goed zit, dan nog kan uit de gegevens in de tabel niet worden afgeleid dat er bij het herkennen van argumentatie sprake is van een geleidelijke ontwikkeling. De indeling in 4 respondenttypen met gespecificeerde score-grenzen deugt niet. Het is gewoon niet waar

dat proefpersonen met een volledig begrip tussen de 91 en 100% goed scoren, net zo min als het waar is dat gokkers tussen de 31 en 70% goed hebben of dat personen met een partieel begrip een score tussen de 71 en 90% halen. Volgens Van Wijk zijn de fouten die proefpersonen met een volledig begrip maken ‘toevalsfouten’ (‘vergissen is menselijk’). Onze eerstejaars-studenten behaalden een score van gemiddeld 94% correct - niettemin vertoonden hun fouten een systematisch patroon.Ga naar eindnoot8

Maar er is meer aan de hand met de door Van Wijk voorgestelde classificatie. Ook de indeling van gokkers in de score-categorie 31-70 deugt niet. ‘Wie op de gok respondeert, scoort van 30 tot en met 70 procent correct’, aldus Van Wijk. In deze stellige formulering is deze uitspraak zonder meer onjuist. Hij moet als volgt luiden: als iemand bij de beantwoording van 20 (!) dichotome items volledig gokt, dan is de kans dat de score van die persoon tussen de 30 en 70 ligt gelijk aan 95%. In de eerste plaats wordt nu duidelijk dat, uitgaande van deze grenzen (31-70), er een kans is van 5% dat een gokker onjuist geclassificeerd wordt (bijvoorbeeld: een gokker behaalt een score van 80%, en wordt op grond van die score ten onrechte geclassificeerd als iemand die partieel begrip vertoont). In de tweede plaats wordt duidelijk dat de door Van Wijk gespecificeerde score-grenzen van een gokker geen constante zijn; ze variëren afhankelijk van de grootte van de kans, i.e. de mate van zekerheid die een onderzoeker bij zijn classificatie van personen als gokkers wenst na te streven. In onderstaande tabel staan ter verduidelijking de score-grenzen van gokkers met de door een onderzoeker gewenste zekerheidsmarge gespecificeerd (linker kolom).

zekerheidsmarge	score-grenzen gokker	klas 2	klas 3
99.99%	10-90	95	66
99%	20-80	70	48
95%	30-70	50	28
74%	40-60	23	12

Tabel 1: Verdeling van proefpersonen, die als gokker geclassificeerd moeten worden, afhankelijk van de gewenste zekerheidsmarge (scores zijn percentages)

Het percentage gokkers in een klas varieert kennelijk, afhankelijk van de gewenste zekerheidsmarge die een onderzoeker nastreeft: met een kans van 95% worden door Van Wijk proefpersonen met een score tussen de 30 en 70 terecht als gokker geclassificeerd en uitsluitend en alleen in dit geval bedraagt het percentage gokkers in klas 2 50% en in klas 3 28%. Maar als een onderzoeker meer zekerheid nastreeft, bijvoorbeeld 99%, veranderen de score-grenzen van een gokker (20-80) en bedraagt het percentage gokkers in klas 2 70% en in klas 3 48%. Met de gewenste zekerheidsmarge variëren niet alleen de score-grenzen van een gokker en de geschatte aantallen gokkers in klas 2 en klas 3, maar ook - en daar gaat het hier om - de geschatte aantallen proefpersonen die partieel begrip vertonen of anomalistisch reageren (zie tabel 2, waarin we uitsluitend de geschatte percentages proefpersonen met partieel begrip vermelden).Ga naar eindnoot9

zekerheidsmarge	score-grenzen gokker	score-grenzen partieel begrip	klas 2	klas 3
99.99	10-90	-	0	0
99%	20-80	80-90	25	18
95%	30-70	70-90	42	37
74%	40-60	60-90	55	51

Tabel 2: Verdeling van de proefpersonen die als pp met partieel begrip geclassificeerd worden, afhankelijk van de gewenste zekerheidsmarge bij de classificatie van gokkers (scores zijn percentages)

Streeft een onderzoeker bijna volledige zekerheid na bij de classificatie van proefpersonen als gokker, dan daalt het percentage proefpersonen met partieel begrip tot 0%. Een fraaie ‘bevestiging’ van de alles-of-niets claim!

Eén van de fundamentele blunders die aan Van Wijks classificatie ten grondslag ligt, is dat hij met zijn zekerheidsmarge van 95% slechts rekening houdt met één type fout die men bij de classificatie van proefpersonen als gokkers kan maken: als men proefpersonen met een score tussen de 30% en 70% correct als gokker typeert, dan classificeert men ten onrechte 5% van de proefpersonen niet als gokker die een score lager dan 30% of hoger dan 70% hebben (i.e. de zogenaamde fout van de eerste soort). Maar bij de classificatie kan ook een heel ander type fout gemaakt worden, de zogenaamde fout van de tweede soort: het ten onrechte als gokker classificeren van een proefpersoon die een score tussen de 30% en 70% correct heeft! De stelling: ‘Als proefpersonen gokken, dan behalen ze een score tussen de 30 en 70% (als p, dan q; p, dus q) kan natuurlijk niet zonder meer omgedraaid worden (als p, dan q; dus p - drogreden van bevestiging van de consequens). Er bestaat een (te berekenen) kans dat een proefpersoon die ‘in werkelijkheid’ eigenlijk partieel begrip vertoont toch een score behaalt die tussen de 30% en 70% ligt, zodat die proefpersoon ten onrechte als gokker geclassificeerd wordt. En die kans is, bij een test die slechts uit 20 items bestaat, veel groter dan 0.Ga naar eindnoot10

Er kunnen nog wel andere methodologische en psychometrische argumenten worden aangevoerd om te illustreren dat Van Wijks classificatie (met de daaraan verbonden conclusie) niet deugt.Ga naar eindnoot11 De hier genoemde argumenten mogen afdoende zijn om Van Wijks kwalitatieve uitspraken op zijn merites te beoordelen. ‘Een beetje rekenwerk volstaat om de theoretische claims van Van Eemeren, Grootendorst en Meuffels te ondergraven’. Tja, een beetje rekenwerk.

4 Het herkennen van argumentatie als onafhankelijke vaardigheid

Van Wijk zet zich opnieuw aan het rekenen om aan te tonen dat de vaardigheid in het herkennen van argumentatie geen relatief onafhankelijke status kan worden toegekend. Hij erkent dat de correlaties tussen de argumentatietest en de tests voor ‘Verbaal Begrip’, ‘Verbaal Redeneren’ en ‘Algemeen Redeneren’ niet spectaculair hoog zijn, maar volgens hem is dit (onder meer) het gevolg van de onbetrouwbaarheid van de vier tests. Nadat hij deze correlaties voor onbetrouwbaarheid heeft gecorrigeerd, met als voorspelbaar resultaat dat ze hoger worden, concludeert hij dat ‘van onafhankelijkheid geen sprake blijkt te zijn’. In tabel 3 staan de oorspronkelijke correlaties en de door Van Wijk gecorrigeerde.

	oorspronkelijk	gecorrigeerd
Verbaal Begrip	.31	.44
Verbaal Redeneren	.33	.44
Algemeen Redeneren	.20	.23

Tabel 3: Oorspronkelijke en gecorrigeerde correlaties

‘Met name de relatie met de beide verbale vaardigheden wint (op het oog) aan belang’, aldus Van Wijk. Het is natuurlijk fraai dat correlaties na zijn ingreep opeens hoger worden, maar kan dat allemaal maar zo? Stel dat de correlatie tussen twee tests .80 bedraagt en dat de betrouwbaarheid van elk van die tests .60 is. Corrigeren we nu de correlatie voor de onbetrouwbaarheid van de twee tests (met behulp van dezelfde formule uit de klassieke testtheorie die Van Wijk gebruikt heeft), dan vinden we een correlatie van 1.33! Een curieus resultaat, aangezien de maximale waarde die een correlatie kan aannemen 1 bedraagt.

De manier waarop Van Wijk de formule voor correctie voor attenuatie hanteert, is ondeugdelijk. Sinds jaar en dag is uit de (klassieke) testtheorie bekend dat de betrouwbaarheid, gedefinieerd als interne consistentiemaat, een onderschatting is van de ‘werkelijke’ betrouwbaarheid. Het gevolg daarvan is dat correlaties die gecorrigeerd worden voor onbetrouwbaarheid, in onbekende mate, overschat worden. Ook dat is allang bekend.

Dat de door Van Wijk gehanteerde formule tot zinloze resultaten, zoals correlaties groter dan 1, kan leiden, betekent overigens niet dat die formule onder alle omstandigheden onbruikbaar is. Volgens de psychometrie-handboeken kan hij zinvol gebruikt worden wanneer een onderzoek zich nog in de fase van testconstructie bevindt. Blijken de betrouwbaarheden (interne consistenties) erg laag en valt de hoogte van een correlatie erg tegen, dan heeft het zin om, gebruikmakend van de formule voor correctie voor attenuatie, de correlatie te schatten. Een onderzoeker kan op deze manier nagaan of het wel zin heeft om de betrouwbaarheid van de tests te optimaliseren. Verder verkrijgt hij informatie over de mate waarin de betrouwbaarheden van de tests geoptimaliseerd dienen te worden.

Waarom biedt Van Wijk de lezer bewust vertekende resultaten: artefacten die afbreuk lijken te doen aan onze hypothese? Laten we maar naar de oorspronkelijke correlaties kijken en de artefacten verder vergeten.

Van Wijk vraagt zich af waarom we de drie niet-argumentatieve tests afzonderlijk als prediktor nemen; het is toch heel goed mogelijk dat het begrijpen van argumentatie vaardigheid vereist op ieder van de aspecten die door de subtests wordt gemeten? Als indicatie voor het collectieve prediktieve vermogen presenteert hij vervolgens de multiple correlatie (.43). Dat betekent dat de drie niet-argumentatieve tests gezamenlijk circa 18% van de variantie in het herkennen van argumentatie verklaren. Van onafhankelijkheid kan volgens Van Wijk dus geen sprake zijn.

Nou en? Moeten we tot afhankelijkheid besluiten wanneer 18% van de variantie (in scores op de argumentatietest) voorspeld wordt door de drie andere tests? Van Wijk verwart hier statistische afhankelijkheid (scores op de ene test kunnen voorspeld worden door scores op een andere test of een combinatie van die tests) met conceptuele afhankelijkheid. Als de grootte van een brand voorspeld kan worden uit het aantal brandweerlieden, dan kan men daar toch niet uit afleiden dat de grootte van een brand in conceptuele zin afhangt van het aantal aanwezige brandweerdlieden?

Van Wijk abstraheert bij zijn heranalyse ten onrechte van de variabele ‘leeftijd’, die als een verwarrende draad door de correlaties heen loopt. De vooruitgang in het herkennen van enkelvoudige argumentatie kan naar onze mening niet verklaard worden uit de factoren ‘Verbaal Begrip’, ‘Verbaal Redeneren’ of ‘Algemeen Redeneren’. Als we de correlatie tussen leeftijd en het herkennen van argumentatie berekenen, dan blijkt deze .35 te bedragen. Als we nu de factoren ‘Verbaal Begrip’ enzovoort uitpartiëren, dan blijft die correlatie hoog (.31).

Wat wil dit zeggen? Oudere leerlingen zijn in de regel kennelijk beter in staat enkelvoudige argumentatie te herkennen dan jongere (correlatie .35). Maar dat kan niet verklaard worden uit het feit dat ze ook beter zijn in ‘Verbaal begrip’ enzovoort. Immers, als we (in statistisch opzicht) net doen alsof de oudere leerlingen in ‘Verbaal Begrip’ enzovoort precies even goed zijn als de jongere, dan blijven de oudere leerlingen enkelvoudige argumentatie nog steeds beter herkennen dan jongere. De conclusie die aan dit beetje rekenwerk, dat Van Wijk ook had kunnen uitvoeren, verbonden moet worden, is dat het herkennen van argumentatie onafhankelijk is van ‘Verbaal Begrip’, ‘Verbaal Redeneren’ en ‘Algemeen Redeneren’.

5 Het nut van een multiple regressie-analyse

Van Wijk meent dat wij de mogelijkheid voorbij hebben laten gaan om een observatie van theoretisch belang te doen door de gevonden correlaties niet verder te analyseren. Hij voert op de correlatiematrix een stapsgewijze multiple regressie-analyse uit, constateert dat bij detectie (het herkennen van argumentatie) ‘Verbaal Begrip’ 20% en ‘Verbaal Redeneren’ 10% van de variantie ‘verklaart’ terwijl bij identificatie (het onderscheiden van standpunt en argument) ‘Verbaal Redeneren’ 20% en ‘Verbaal Begrip’ 5% van de variantie ‘verklaart’ en concludeert hieruit dat detectie en identificatie twee te onderscheiden mentale bewerkingen zijn.

Het is natuurlijk bijzonder vleiend voor ons dat Van Wijk onze verwachtingen bevestigt. Al in het verslag van ons eerste onderzoek merkten wij op dat er onderscheid dient te worden gemaakt tussen vaststellen dat er geargumenteerd wordt en vaststellen wat het argument is. Dat was ook de reden waarom wij de proefpersonen niet alleen vroegen om aan te geven of er van argumentatie sprake was, maar ook om het argument te onderstrepen. Minder vleiend voor ons is natuurlijk dat het Van Wijk ontgaan is dat wij deze belangrijke theoretische observatie gedaan hebben.

Een nadere beschouwing van de wijze waarop Van Wijk zijn ‘beetje rekenwerk’ verricht heeft, zal overigens duidelijk maken waarom wij welbewust hebben af gezien van de door hem aanbevolen stapsgewijze analyse: ‘in de eerste stap fungeert alleen de subtest met de hoogste correlatie als predictor; in de volgende stappen wordt dan uit de subtests die nog niet deel uitmaken van de regressievergelijking, steeds de subtest toegevoegd met de grootste bijdrage aan een verhoging van het percentage verklaarde variantie’. Op deze naïef-mechanische manier moet men natuurlijk geen stapsgewijze regressie uitvoeren. De gekwadrateerde semi-partiële correlaties en dus het percentage variantie dat elke variabele ‘verklaart’, is volledig afhankelijk van de volgorde waarin de variabelen in de regressievergelijking worden gestopt. Een andere volgorde, dan ook andere percentages ‘verklaarde’ variantie.Ga naar eindnoot12 Disraeli wist het al: ‘There are three kinds of lies: lies, damned lies and statistics’ - met statistiek kun je alles bewijzen.

Laten we Kerlinger en Pedhazur, twee autoriteiten op het gebied van de multiple regressie-analyse, aan het woord laten over de door Van Wijk aanbevolen procedure:

A weakness of multiple regression analysis (...) is the tendency of researchers to throw variables indiscriminately into the multiple regression pot and thus let the method and the computer do one's thinking (...). The practice of throwing many variables into the research pot is still with us, although not as much as it used to be. This is, in effect, a shotgun approach: shoot enough shots often enough and you are bound to hit something (...) Such an approach is rarely justified. It is based on naive and false assumptions on what research is and should be (...). Always try to enter variables according to the dictates of the theory (1973: p. 442-443).

6 Zorgvuldig rapporteren en onzorgvuldig citeren

Van Wijk noemt onze reportage weinig zorgvuldig wat betreft de beschrijving van het materiaal. Voorzover het gaat om de rapportage van de kwantitatieve gegevens kan Van Wijk weinig te klagen hebben, want juist de uitgebreidheid en gedetailleerdheid bieden hem de mogelijkheid de gegevens te heranalyseren en er andere ‘conclusies’ aan te verbinden.

Ter illustratie van zijn klacht over de beschrijving van de items citeert Van Wijk (in noot 4) twee zinnen uit Van Eemeren, Grootendorst & Meuffels (1987). Als dat werkelijk onze complete beschrijving zou zijn, dan zou zijn klacht inderdaad terecht zijn. Maar ook hier stelt Van Wijk de zaken verkeerd voor. Onze beschrijving is veel uitgebreider en is ook voorzien van een voorbeeld.

Eén voorbeeldje is wellicht wat weinig, zal menigeen denken. Maar in ons artikel wordt expliciet vermeld dat de 40 tekstjes die aan de MAVO-scholieren werden voorgelegd, geselecteerd waren uit 150 tekstjes die eerder aan de eerstejaars-studenten waren voorgelegd en in het artikel over dat oorspronkelijk onderzoek worden liefst vijf pagina's plus een aantal noten (met tal van voorbeelden) aan de karakterisering van de argumentatieve en niet-argumentatieve tekstjes besteed. Kennelijk heeft Van Wijk dit artikel wel gelezen, want hij citeert er zelfs uit (in noot 17).

7 Theoretische achtergronden

Van Wijks belangrijkste bezwaar tegen ons empirisch onderzoek betreft onze operationalisering van het begrip ‘argumentatie’: ‘Bij de formulering van de toetsitems denkt men genoeg te hebben aan de eigen intuïtie. Er wordt niet uitgegaan van een bepaalde theoretische notie’. Dat wordt er wèl. Al in Van Eemeren, Grootendorst & Meuffels (1984) wordt er juist op gewezen dat empirisch onderzoek naar argumentatie niet van de grond kan komen zonder een adequate theoretische conceptie van argumentatie. Bij ons eigen onderzoek gingen we daarom expliciet uit van zo'n theoretische conceptie.Ga naar eindnoot13

Van Wijk is kennelijk helemaal niet op de hoogte van de argumentatietheoretische achtergronden van ons empirisch onderzoek. Dat zal er wel debet aan zijn dat hij een inconsistentie meent te bespeuren in het feit dat in Van Eemeren en Kruiger (1985) sprake is van een argumentatieve oorzaak-gevolg relatie, terwijl in het empirisch onderzoek naar het herkennen van indirecte argumentatie sprake is van een niet-argumentatieve oorzaak- gevolg relatie. Argumentatie kan gerealiseerd worden met behulp van een oorzaak-gevolg relatie, maar dat betekent uiteraard niet automatisch dat elke oorzaak-gevolg relatie argumentatief is. Van Wijk weet toch ook wel dat collega's vrienden kunnen zijn, maar dat niet elke vriend een collega is.

Van Wijk meent ook onduidelijkheden te bespeuren in ons gebruik van het begrip ‘indirecte argumentatie’. In de theorie waarvan wij bij ons onderzoek uitgaan, wordt indi-

recte argumentatie op soortgelijke wijze geanalyseerd als indirecte uitvoeringen van taalhandelingen zoals ‘verzoeken’, ‘beweren’ enzovoort. Over de taalhandelingstheorie is inmiddels een hele boekenkast volgeschreven; het heeft weinig zin om alle theoretische achtergronden hier nog eens uit de doeken te doen. Ons gebruik van de notie ‘indirecte taalhandeling’ sluit aan bij de gangbare opvatting en daar hoeft Van Wijk uiteraard niet in mee te gaan, maar duidelijk is deze opvatting in elk geval wel.

Tot slot Van Wijks commentaar op de scoring van de items: een antwoord is niet simpelweg goed of fout. Ten ‘bewijze’ daarvan presenteert hij een aantal tekstjes, zoals (1) (verzonnen door Van Wijk) en (2) (afkomstig uit onze argumentatie-test):

(1)	Ik hang mijn was in de voortuin. Mijn fiets zet ik altijd achter.
(2)	Op deze foto staat oom Wouter tegen de pilaar geleund, terwijl tante Marian naast de gids zit.

Aan het begin van zijn artikel presenteert Van Wijk tekstje (1) als voorbeeld van non-argumentatie. Aan het eind van zijn artikel stelt hij dat (1) opgevat kan worden als argumentatie. Hierin heeft hij volkomen gelijk. Daarom zouden wij (1) ook nooit in onze argumentatie-test hebben opgenomen. Wij hebben geprobeerd onze tekstjes zó te construeren dat in principe ondubbelzinnig kan worden vastgesteld of ze wel of niet argumentatief zijn. Om te controleren of dat gelukt was, hebben wij voorafgaande aan de uitvoering van de empirische onderzoeken alle tekstjes voorgelegd aan enkele proefpersonen met het verzoek de items hardop denkend op te lossen, zodat onduidelijke items geëlimineerd konden worden. Uit het vooronderzoek bleek dat vrijwel alle proefpersonen in twijfelgevallen de strategie van de maximaal argumentatieve interpretatie hanteren. Mede op grond van deze en andere informatie uit de analyse van het hardop-denken hebben wij ervoor kunnen zorgen dat in onze test geen tekstjes zoals (1) voorkomen.

Van Wijk laat een denkbeeldige proefpersoon aan het woord die in het door ons als niet- argumentatief bedoelde tekstje (2) toch argumentatie ziet. Zijn ‘proefpersoon’ begrijpt dat menselijk gedrag vaak traceerbare oorzaken heeft, maar het begrip ‘argumentatie’ heeft hij nog niet helemaal onder de knie. Onze hardop-denkende proefpersonen (studenten en MAVO-scholieren) blijken niet alleen minder te psychologiseren, ze zien in (2) ook allemaal non-argumentatie. Als het werkelijk zo was dat argumentatie in onze argumentatieve tests door de proefpersonen nu eens als argumentatie werd opgevat en dan weer als non-argumentatie (en non-argumentatie nu eens als non-argumentatie en dan weer als argumentatie), dan zouden we bovendien nooit enig effect hebben kunnen aantonen van de door ons gemanipuleerde variabelen.

Voordat een betoog op een adequate wijze beoordeeld kan worden, zal er eerst een analyse moeten worden gemaakt van de verschillende standpunten en argumenten die naar voren zijn gebracht. Maar hoe weet een taalgebruiker of een concrete uitspraak in een betoog als argumentatie geïdentificeerd moet worden?

Argumentatie wordt in de praktijk meestal niet expliciet als zodanig gepresenteerd. In Van Eemeren, Grootendorst & Kruiger (1983) worden aan aantal middelen onderscheiden die in betogen gebruikt kunnen worden om duidelijk te maken dat er van argumentatie sprake is. Doel van onze serie empirische onderzoeken was na te gaan in hoeverre herkenningsmiddelen die op analytische gronden onderscheiden zijn, in de praktijk inderdaad van invloed zijn op de herkenning van argumentatie. Uit het empirisch onderzoek blijkt dat taalgebruikers onder bepaalde condities van zulke herkenningsmiddelen gebruik ma-

ken. Zowel degenen die een betoog moeten analyseren en beoordelen als degenen die er één in elkaar moeten zetten, kunnen hun voordeel doen met meer informatie over wat deze condities precies inhouden.

Dit is, kort gezegd, de ‘verderliggende’ achtergrond van ons empirisch onderzoek en de mogelijke waarde van de resultaten moet in dit perspectief bezien worden. Van Wijk daarentegen suggereert dat wij uit zouden zijn op het construeren van een selectieve toets, maar ons stond bij ons onderzoek, eerlijk gezegd, een meer academische doelstelling voor ogen.Ga naar eindnoot14

Bibliografie

Cronbach, L., The two disciplines of scientific psychology, in: The American Psychologist, 1957, p. 671-684

Darlington, R.B., Multiple regression in psychological research and practice, in: Psychological Bulletin 69, 1968, p. 161-182

Eemeren, F. van, R. Grootendorst, F. Jungslager & B. Meuffels, De herkenning van indirecte argumentatie, in: Spektator 16, 1987, p. 457-471

Eemeren, F. van, R. Grootendorst & B. Meuffels, Het identificeren van enkelvoudige argumentatie, in: Tijdschrift voor Taalbeheersing 6, 1984, p. 297-310

Eemeren, F. van, R. Grootendorst & B. Meuffels, Gedifferentieerde replicaties van identificatieonderzoek, in: Tijdschrift voor Taalbeheersing 7, 1985, p. 241-257

Eemeren, F. van, R. Grootendorst & B. Meuffels, Identificatie van argumentatie als vaardigheid, in: Spektator 16, 1987, p. 369-379

Eemeren, F. van, R. Grootendorst & T. Kruiger, Argumentatieleer I; het analyseren van een betoog. Wolters-Noordhoff, Groningen, 1983

Eemeren, F. van & R. Grootendorst, Regels voor redelijke discussies. Diss. Universiteit van Amsterdam, 1982

Eemeren, F. van & T. Kruiger, Het identificeren van argumentatieschema's, in: W. Koning (red.) Taalbeheersing in theorie en praktijk, Foris, Dordrecht, 1985, p. 55-66

Kerlinger, F.N. & E.J. Pedhazur, Multiple Regression in Behavioral research, Holt, Rinehart & Winston, New York, 1973

eindnoot1: De twee bedoelde onderzoeken zijn: Van Eemeren, Grootendorst & Meuffels (1987) en Van Eemeren, Grootendorst, Jungslager & Meuffels (1987). De serie bestaat verder uit: Van Eemeren, Grootendorst & Meuffels (1984) en Van Eemeren, Grootendorst & Meuffels (1985).

eindnoot2: Van Eemeren, Grootendorst & Meuffels (1984) en (1985).

eindnoot3: Van Eemeren, Grootendorst, Jungslager & Meuffels (1987).

eindnoot4: Een voorbeeld van zo'n regelmatigheid: als argumentatieve indicatoren ontbreken, vergemakkelijkt de markering van het standpunt, zij het in zwakke mate, de identificatie van (enkelvoudige) argumentatie. Zijn die indicatoren wel aanwezig, dan vergemakkelijken ze de identificatie in sterke mate en heeft de markering geen enkele invloed.

eindnoot5: In de andere onderzoeken werd de between-variantie gemaximaliseerd en de within-variantie geminimaliseerd, in het ene afwijkende onderzoek gebeurde precies het omgekeerde. Uitgedrukt in de terminologie van Cronbach: het ‘afwijkende’ onderzoek is correlationeel van aard, de rest experimenteel. De karakterisering die Cronbach van de twee binnen empirisch sociaalwetenschappelijk onderzoek vigerende strategieën geeft, is overigens niet alleen veel duidelijker dan die van Van Wijk, maar ook veel genuanceerder. In Van Wijks typering is het bijvoorbeeld onduidelijk of er alleen sprake is van methodische verschillen tussen de twee benaderingen of ook van theoretisch-inhoudelijke. Anders dan Van Wijk, die slechts twee antipoden ziet en overduidelijk voor één daarvan opteert, stelt Cronbach: ‘Kept independent, they can give only wrong answers or no answers at all’ (1957: p. 673). Wij passen beide benaderingen toe. Nu bekend is welke factoren van invloed zijn op de herkenning van argumentatie, wordt onderzoek verricht naar de vraag hoe dergelijke factoren (vanuit informatie-theoretisch oogpunt) een rol spelen bij de verwerking van argumentatie. Dit onderzoek wordt in een AIO-project uitgevoerd door F.S. Jungslager.

eindnoot6: Die andere procedure bestond uit het meten van reactietijden. Uitgangspunt hierbij was dat moeilijker te identificeren argumentaties meer fouten zouden opleveren en ook meer tijd zouden kosten. Bodem- en plafond-effecten zijn bij deze procedure vrijwel uitgesloten. Studenten Informatica (HTS) moesten via een reactiesleutel zo snel mogelijk reageren op de vraag of een op een computerscherm geprojecteerde tekst wel of geen argumentatie bevatte. Met deze meetprocedure werden al onze voorspellingen over de invloed van de gemanipuleerde variabelen op de herkenning van argumentatie bevestigd (Van Eemeren, Grootendorst & Meuffels 1985).

eindnoot7: Zelfs als de gemiddelde leeftijd in klas 3 (14.8) hoger is dan in klas 2 (13.6), kan uit de door ons gerapporteerde standaarddeviaties worden afgeleid dat er overlap is: sommige leerlingen in klas 2 zijn ouder dan die in klas 3 of even oud.

eindnoot8: Ontbraken argumentatieve indicatoren, dan identificeerden ze ruim 90% van de argumentaties correct; was er een indicator in ruimere zin aanwezig, dan liep dit percentage op tot bijna 98%.

eindnoot9: In tabel 1 en 2 worden uitsluitend resultaten gerapporteerd die betrekking hebben op wat Van Wijk ‘detectie’ noemt. Onze bezwaren gelden echter ook voor de categorie ‘identificatie’.

eindnoot10: Van Wijk lijkt tot zijn conclusie gekomen te zijn doordat hij er ten onrechte van uitgaat (zie zijn noot 7) dat onze formulering ‘33% van de leerlingen in klas 2 (...) haalt niet eens het kansniveau (p<.50)’ impliceert dat iemand of op kansniveau kan scoren of niet (dus met volledig begrip). Dat is niet zo. Een leerling kan een score van 80% behalen, maar desalniettemin gegokt hebben (fout van de eerste soort), en omgekeerd, iemand kan een score van 40% halen, terwijl hij toch niet gegokt heeft (fout van de tweede soort). Kansniveau wordt door ons uitsluitend in tech- nisch-statistische zin opgevat: het niveau dat gepresenteerd wordt door de (beste) puntschatting van een gokker.

eindnoot11: Hoe naïef Van Wijk classificatie uit psychometrisch oogpunt wel is, moge ook uit het volgende blijken. De eerste stap in zijn classificatie is de constructie van een zogenaamd 95% betrouwbaarheidsinterval rond het kansniveau (=50% correct). Dit leidt dan tot de score-grenzen voor de gokker van 31 tot 70% correct. Vervolgens stelt hij domweg (een strikt statistisch of psychometrisch argument kan er niet voor gegeven worden) dat iemand met volledig begrip slechts 1 fout maakt (dus een score van 95% correct behaalt). Dan ‘construeert’ hij een ‘betrouwbaarheidsinterval’ rond die 95% correct (van 90 tot 100) en vervolgens ligt alles vast. Wie beneden de 30% scoort, wordt als ‘anomalistisch’ getypeerd en wie tussen de vastgelegde grenzen van 70 (bovengrens gokker) en 90 (ondergrens volledig begrip) scoort, wordt gekarakteriseerd als iemand met partieel begrip. Waarom construeert Van Wijk een 95% betrouwbaarheidsinterval voor de gokker, en (nota bene!) een 74% en een 70% betrouwbaarheidsinterval voor respectievelijk de partiële begrijper en de volledige begrijper? Had hij, zoals het hoort, een constant betrouwbaarheidsinterval aangehouden (bijvoorbeeld 95%), dan zou niet alleen heel andere score-grenzen voor de vier respondenttypen hebben gevonden (respectievelijk: 1.0-30 2. 31 -70 3.62-98 4. 86-100), maar ook hebben ingezien dat er overlap bestaat tussen de verschillende categorieën.

eindnoot12: Er is geen ‘foolproof’ methode om de bijdrage van de onafhankelijke variabelen aan de variantie van de afhankelijke variabele te bepalen (zie Darlington 1968). Verder is het onjuist om, zoals Van Wijk doet, het belang en de ‘betekenis’ van variabelen af te meten aan het door deze variabele verklaarde percentage variantie.

eindnoot13: Zie voor een beschrijving van onze pragma-dialectische benadering van argumentatie onder meer Van Eemeren & Grootendorst (1982) en Van Eemeren, Grootendorst & Kruiger (1983).

eindnoot14: Dergelijke controles vooraf behoren tot de standaardprocedure bij testconstructie (en ook bij laboratoriumonderzoek). Voorafgaande aan het eigenlijke onderzoek gaat men na of de vragen wel begrepen worden, of de items duidelijk zijn, of de instructie wel begrepen wordt enzovoort. Juist omdat dergelijke controles tot de standaardprocedure behoren en stilzwijgend worden voorondersteld, worden ze in de rapportage van empirisch onderzoek nooit beschreven. Aan het hardop-denken van de proefpersonen kennen wij, anders dan Van Wijk, uitsluitend een hypothese-genererende functie toe.

Vorige Volgende

Tijdschrift voor Taalbeheersing. Jaargang 12

Discussie
Valkuilen achter een rookgordijn
F.H. van Eemeren, R. Grootendorst en B. Meuffels

1 Taalkundig-psychonomisch versus onderwijskundig-psychometrisch onderzoek

2 Bodem- en plafond-effecten

3 Een beetje rekenwerk over een alles-of-niets zaak

4 Het herkennen van argumentatie als onafhankelijke vaardigheid

5 Het nut van een multiple regressie-analyse

6 Zorgvuldig rapporteren en onzorgvuldig citeren

7 Theoretische achtergronden

Bibliografie

Over dit hoofdstuk/artikel

auteurs

Discussie Valkuilen achter een rookgordijn F.H. van Eemeren, R. Grootendorst en B. Meuffels

1 Taalkundig-psychonomisch versus onderwijskundig-psychometrisch onderzoek

2 Bodem- en plafond-effecten

3 Een beetje rekenwerk over een alles-of-niets zaak

4 Het herkennen van argumentatie als onafhankelijke vaardigheid

5 Het nut van een multiple regressie-analyse

6 Zorgvuldig rapporteren en onzorgvuldig citeren

7 Theoretische achtergronden

Bibliografie

Over dit hoofdstuk/artikel

auteurs

Discussie
Valkuilen achter een rookgordijn
F.H. van Eemeren, R. Grootendorst en B. Meuffels