Tijdschrift voor Taalbeheersing. Jaargang 14
(1992)– [tijdschrift] Tijdschrift voor Taalbeheersing– Auteursrechtelijk beschermd
[pagina 30]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1 InleidingIn verschillende takken van sport (kunstschaatsen, schoonspringen, dressuur, turnen, boksen, judo en dergelijke) ontbreken objectieve maatstaven waaraan de kwaliteit van de geleverde prestaties afgemeten kan worden. In dergelijke gevallen worden de verrichtingen van de sporters beoordeeld door een jury, samengesteld uit ter zake kundigen. Om de objectiviteit van het jury-oordeel te waarborgen, moeten uiteraard verschillende voorzorgsmaatregelen worden getroffen. Vaak worden de twee meest extreme beoordelingen uitgesloten bij de berekening van het jury-oordeel (normaliter de som of het gemiddelde van de afzonderlijke jury-oordelen), in de hoop daarmee het effect van de persoonlijke vergelijking te reduceren (i.e. verschillen in strengheid). Met het oog op het vermijden van contaminatie-effecten poogt men de jury zo samen te stellen dat de leden daarvan een andere nationaliteit bezitten dan die van de sporters. Lukt dat laatste niet of niet geheel, dan geldt vaak de regel dat het jurylid wiens nationaliteit dezelfde is als die van de sportman, zich van oordelen dient te onthouden. Alle zorgvuldigheid en voorzorgsmaatregelen om de kwaliteit van de beoordelingsprocedure te optimaliseren kunnen niet voorkomen dat sporters in de betreffende takken van sport bij tijd en wijle openlijk twijfelen aan de objectiviteit van het jury-oordeel. Niet alleen beklagen zij soms over de stuitende partijdigheid van de jury als geheel (‘Sportlieden met een gevestigde reputatie worden voorgetrokken’) of over die van een specifiek lid in het bijzonder (‘Dat jury-lid trekt alle sporters uit het Oostblok voor, omdat hij zelf uit een communistisch land komt’), ook uiten zij soms minder voor de hand liggende, meer subtiele ‘beschuldigingen’ aan het adres van de jury. Eén daarvan betreft de contaminerende invloed van de specifieke volgorde, waarin de sportprestaties beoordeeld worden. Turners bij voorbeeld beschouwen het als een apert nadeel om het spits te moeten afbijten; liever zouden ze als tweede of derde in de rij hun verrichtingen willen demonstreren, of als laatste - als ze maar niet als eerste de mat op hoeven. Die specifieke voorkeur van de turners vindt zijn oorsprong in het vermoeden dat de jury bij de oordeelsvorming onderhevig is aan een (specifiek soort) sequentie-effect, een effect wat ik hier verder zal typeren als begineffect: de jury kent, bewust danwel onbewust, aan de prestaties van de sportman met volgnummer 1 een uit objectief oogpunt te laag cijfer toe. Dit type volgorde-effect kan uiteraard ook een rol spelen bij de beoordeling van opstellen, de materie die hier centraal staat. Of deze theoretische mogelijkheid zich in de praktijk van opstelbeoordeling ook voordoet, zal echter uit empirisch onderzoek moeten blijken. In dit artikel wordt rapport gedaan van empirisch onderzoek naar die existentie van (onder andere) het begin-effect bij het beoordelen van opstellen. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 31]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Naast het begin-effect kunnen andere typen sequentie-effecten onderscheiden worden, zoals het contrast-effect. Een contrast-effect treedt onder meer op, wanneer een beoordelaar na lezing en beoordeling van een reeks bijzonder slechte produkten bij een opstel van middelmatige kwaliteit een zucht van verlichting slaakt - en dit opstel dan ten onrechte een te hoog cijfer geeft. Een derde type dat in de literatuur over opstelbeoordeling onder het hoofd ‘volgorde-effect’ wordt geschaard, treedt op (c.q. kan optreden) bij een extreem grote hoeveelheid na te kijken en te beoordelen opstellen. Wanneer er tientallen opstellen achter elkaar beoordeeld moeten worden, zonder ampele mogelijkheid om uitgebreid te pauzeren, dan neemt tegen het eind de animo enigszins af, de irritatie over telkens weer dezelfde fouten neemt wat toe, met als mogelijk gevolg dat de strengheid in de beoordeling toeneemt. Anders dan het begin-effect en het contrast-effect is dit laatste type volgorde-effect door mij niet empirisch onderzocht, en wel om uiteenlopende redenen. In de eerste plaats is er bij dit type sequentie-effect helemaal geen sprake van de perverterende invloed van de volgorde per se, maar veeleer van beoordelaarsmoeheid - en factoren als moeheid, stemming, lichamelijke en/of geestelijke conditie enzovoort die elk op zich de objectiviteit van de beoordeling kunnen aantasten, horen eerder onder de noemer ‘normal input-output’ condities voor het beoordelen thuis. In de tweede plaats - en dit is een veel minder principieel argument - zou de ecologische validiteit van empirisch onderzoek naar effecten van beoordelaarsmoeheid (i.e. de mogelijkheid om de resultaten te generaliseren naar een situatie in de ‘alledaagse’ werkelijkheid) op voorhand kwestieus zijn. Waar vinden we de leerkracht die gewoon is tientallen opstellen achter elkaar in één ruk te beoordelen, en dat op serieuze en verantwoorde wijze?Ga naar eindnoot1 Bovendien zijn, ten derde, de effecten van beoordelaarsmoeheid, anders dan die van het begin- en contrast-effect, empirisch relatief goed gedocumenteerd. Kan ook de existentie van het begin- en contrast-effect empirisch aangetoond worden? En aangenomen dat deze effecten bij de beoordeling van opstellen inderdaad een rol spelen, in welke mate contamineren ze dan het oordeel? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2 Het ontbreken van een referentie-puntEr is nauwelijks systematisch onderzoek verricht naar de existentie van het begin-effect bij het beoordelen van opstellen. Voorzover mij bekend, is het onderzoek van Baurmann (1975) de enige empirische studie waarin dit sequentie-effect onderwerp van onderzoek is. Op een ‘Kreislehrerkonferenz’ legde Baurmann aan 200 leerkrachten elk drie opstellen voor, waarbij de volgorde zo werd gevarieerd dat bij benadering een gelijk aantal leerkrachten (zo'n 50) één van de zes mogelijke volgorden ter beoordeling kreeg aangeboden. De leerkrachten bleken consistent een opstel dat als eerste van de drie beoordeeld moest worden, slechtere cijfers toe te kennen dan wanneer datzelfde opstel als laatste werd gecorrigeerd. Op Baurmanns conclusie dat beoordelaars onderhevig zijn aan een begin-effect, valt wel het een en ander af te dingen. Hoewel Baurmann consequent over ‘Reihenfolge-Effect’ spreekt en het begrip ‘begin-effect’ nergens als zodanig typeert, blijkt uit de praktische aanbevelingen die hij aan zijn onderzoek meent te moeten verbinden niettemin duidelijk dat hij met dat ‘Reihenfolge-Effect’ wel degelijk een begin-effect voor ogen heeft. ‘Jeder Beurteiler’, aldus Baurmann, ‘sollte gerade die zuerst durchgesehenen und evtl. begutachteten Aufsätze zum Schluss sorgfältig gegenüber allen anderen Arbeiten abwägen’ o.c. 183; onderstreping B.M.).Ga naar eindnoot2 Maar waarom zouden juist de eerst nagekeken | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 32]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
opstellen opnieuw beoordeeld moeten worden, en niet ook de laatste? Het is toch niet alleen zo, dat een opstel in Baurmanns onderzoek strenger wordt beoordeeld wanneer dit volgnummer 1 heeft, maar ook dat ditzelfde opstel coulanter wordt beoordeeld wanneer het nummer 3 in de reeks is? Het methodologische probleem waar het hier om gaat is dat een begin-effect (i.c. beoordeling aan het begin die strenger is dan objectief wenselijk zou zijn) verstrengeld is met wat genoemd zou kunnen worden een eind-effect (i.c. beoordeling aan het eind die coulanter is dan objectief wenselijk zou zijn). Er ontbreekt met andere woorden een referentie-punt, een base-line waartegen de kwaliteit van het opstel met volgnummer 1 (en eventueel met volgnummer 3, wanneer men bij drie opstellen al een eind-effect veronderstelt) afgezet kan worden. Zonder zo'n base-line kan op basis van de resultaten in Baurmanns experiment niet gediscrimineerd worden tussen drie mogelijkheden:
Een ander probleem in Baurmanns onderzoek - iets wat hij zelf ook met zoveel woorden toegeeft - betreft het feit dat in de gekozen proefopzet de leerkrachten vrij werden gelaten in het moment, waarop ze tot cijfergeving van de drie opstellen overgingen. Het is mogelijk dat de leerkrachten pas cijfers aan de drie opstellen hebben toegekend ná lezing van de volledige reeks, maar het is evengoed denkbaar dat ze telkens, na lezing van een opstel, onmiddellijk daarop een cijfer hebben gegeven. In het eerste geval kan er natuurlijk geen sprake zijn van een begin-effect, althans geen begin-effect in de hier bedoelde zin (strengere beoordeling van een eerste opstel dan objectief gewenst, als gevolg van het feit dat een beoordelaar geen weet heeft van de kwaliteit van het restant). Om interpretatieproblemen van dit type te vermijden, zou een strakkere proefopzet gekozen moeten worden waarin de beoordelaars gedwongen zijn een oordeel uit te spreken over het opstel met volgnummer 1, zonder dat ze enige notie hebben van de kwaliteit van de resterende te beoordelen opstellen. Een derde probleem met het hier besproken onderzoek betreft de ecologische validiteit, iets wat overigens ook door Baurmann zelf wordt onderkend. Een aantal van drie te beoordelen opstellen kan men bezwaarlijk karakteristiek achten voor de hoeveelheid opstellen die de ‘modale’ leerkracht onder normale omstandigheden heeft na te kijken. ‘Die Anzahl der zu beurteilenden Arbeiten’, aldus Baurmann, ‘müsste tatsächlichen Verhältnissen angeglichen werden - also erheblich erhöht werden’ (o.c. 173).Ga naar eindnoot3 Uiteraard is het vrij simpel om in een empirisch onderzoek een wat realistischer aantal opstellen te betrekken, zeg een tiental, maar daarmee - en dat verzuimt Baurmann helaas te vermelden - gaat wel de methodische elegantie van zijn onderzoeksontwerp verloren (i.c. het aanbieden van een serie opstellen in elk denkbare volgorde, en elke volgorde door zo'n 50 beoordelaars laten nakijken zodat het effect van de persoonlijke vergelijking praktisch gesproken teniet wordt gedaan). Stel dat je, precies zoals Baurmann, de opstellen in elk denkbare volgorde wil aanbieden, dan zit je zelfs al bij een mimiem aantal van vier opstellen als empirisch onderzoeker opgezadeld met een in onderzoekstechnisch opzicht nauwelijks te implementeren aantal van 24 verschillende volgordes - en bij een wat meer realistisch aantal van tien te beoordelen opstellen zou rekening gehouden moeten worden met meer dan drie en een half miljoen verschillende volgorden. Baurmann verzuimt niet alleen mee te delen, hoe hij zich zo'n onderzoek met een realistisch aantal te beoordelen opstellen voorstelt, voorzover mij bekend heeft hij ook nooit een dergelijke replicatie geëntameerd en uitgevoerd. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 33]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3 Begin- of eind-effecten?De analyse van het empirisch onderzoek van Baurmann biedt de nodige aanknopingspunten voor een ‘altered replication’ naar begin-effecten. In totaal werden aan 48 proefpersonen (doktoraalstudenten Taalbeheersing) negen opstellen ter beoordeling aangeboden, waarbij de ene groep beoordelaars deze in de volgorde 1 t/m 9 nakeek, terwijl de andere groep precies de omgekeerde volgorde kreeg voorgelegd.Ga naar eindnoot4 De beoordelaars die op basis van vrijwilligheid aan het onderzoek meededen, werden aselect aan één van beide groepen toegewezen. Om een eventueel te constateren begin-effect eenduidig toe te kunnen schrijven aan de onwetendheid van de beoordelaar met betrekking tot de kwaliteit van de resterende opstellen, kortom om interpretatieproblemen van het type Baurmann te vermijden, werd het de proefpersonen nadrukkelijk verboden eerst de volledige reeks opstellen te lezen en pas daarna, vergelijkenderwijze, te cijferen; een eenmaal beoordeeld opstel moest omgekeerd op tafel worden gelegd, zodat inzage verder onmogelijk was; eenmaal gegeven cijfers mochten onder geen beding meer worden gewijzigd. Een proefleider bleef bij de afnamesessie aanwezig om te controleren, of de beoordelaars strikt de hand hielden aan de instructie. Twee beoordelaars konden het niet nalaten om toch veranderingen in hun cijfergeving aan te brengen, ze werden verder uit het proefpersonenbestand verwijderd. Ook in de hier geschetste proefopzet is het niet goed mogelijk begin-effecten van eind-effecten te onderscheiden. Om deze twee effecten toch te kunnen ontrafelen, is gebruik gemaakt van het oordeel van een (uit 18 student-beoordelaars bestaande) jury over de negen ter beoordeling voorgelegde opstellen. Dit jury-oordeel zal hier als base-line fungeren. De negen opstellen waren overigens geselecteerd uit een groter bestand van 65 opstellen (geschreven door 6-vwo leerlingen), onder meer op grond van het criterium dat de leden van de jury in redelijke mate moesten overeenstemmen in hun oordeel over de kwaliteit ervan.Ga naar eindnoot5 Onder de aanname dat het jury-oordeel over de negen opstellen betrouwbaar en valide is, en onder de aanname dat zowel een begin- als het eindeffect existeert, mag men verwachten dat
Over de aard en kwaliteit van de negen aangeboden opstellen het volgende. Heel wat student-beoordelaars, zo leert de ervaring, hebben een hekel aan het toekennen van onvoldoendes, zelfs wanneer hen gewezen wordt op het feit dat de gegeven cijfers geen enkele consequentie voor de betrokken opstelschrijvers hebben. Stel dat het opstel dat als eerste beoordeeld moet worden, van de jury een 6 heeft gekregen. Zelfs wanneer een begin-effect ‘in werkelijkheid’ zou bestaan, dan zou dit effect onder deze condities wel eens niet aangetoond kunnen worden (i.c. cijfers die systematisch en substantieel lager zijn dan 6) louter op grond van de omstandigheid dat de student-beoordelaars weigeren onvoldoendes toe te kennen. Dit is één van de redenen dat voor de als eerste (c.q. laatste) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 34]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
te beoordelen opstellen die opstellen gekozen zijn die door de jury met tenminste een 7 zijn gewaardeerd. De andere reden is, dat in theoretische zin verondersteld wordt dat een begin-effect vooral (of wellicht zelfs uitsluitend) optreedt bij een relatief goed produkt. Een beoordelaar kent, onbewust en onwillekeurig, aan dit produkt een te laag cijfer toe uit de latent aanwezige angst om bij een reëel, objectief cijfer (zeg een 9) een te klein gedeelte van de cijferschaal over te houden om nog te kunnen differentiëren tussen kandidaten die misschien nóg beter zijn. In dit verband moet worden opgemerkt dat een opstel dat door een jury van 18 personen met (tenminste) een 7 is gewaardeerd, niet als ‘ruim voldoende’ moet worden getypeerd, maar eerder als ‘goed’ tot ‘zeer goed’. Immers, doordat de 18 jury-leden het niet volledig met elkaar eens zijn, krimpt bij middeling van de afzonderlijke jury-oordelen de effectieve range van de 65 beoordeelde opstellen (i.e. het verschil tussen het best en het slechtst beoordeelde opstel), met als gevolg dat een opstel met bij voorbeeld jury-cijfer 5 als heel slecht en een opstel met cijfer 7 als heel goed moet worden beschouwd. Over de kwaliteit van de resterende zeven opstellen kan tot slot nog worden opgemerkt, dat deze tussen de 6+ en de 7- lag. Er komen dus, met opzet overigens, geen onvoldoendes in de reeks te beoordelen opstellen voor, en evenmin zijn de kwaliteitsverschillen tussen de opstellen met opeenvolgende volgnummers groot te noemen. Zou dat laatste wel het geval zijn, dan bestaat het risico dat er contrast-effecten geïnduceerd worden, wat weer tot gevolg kan hebben dat begin- en eindeffecten verstrengeld raken met contrast-effecten. In Tabel I staan de beoordelingsresultaten van de 46 student-beoordelaars (tussen haakjes het volgnummer van elk opstel).
Tabel 1: Gemiddeld oordeel over negen opstellen, door de jury (n=18), groep I (n=23; volgorde 1 t/m 9) en groep II (n=23; volgorde 9 t/m 1); tussen haakjes het volgnummer van het betreffende opstel Het door groep I als eerste beoordeeld opstel (7.08) krijgt, conform de voorspellingen, een substantieel lager cijfer dan wanneer ditzelfde opstel, door groep II, als laatste in een reeks wordt beoordeeld (7.73); omgekeerd, het door groep I als laatste beoordeeld opstel krijgt een beduidend hoger cijfer (7.71) dan wanneer ditzelfde opstel als eerste wordt beoordeeld (door groep II: 7.03). Verder valt te constateren dat het als eerste beoordeelde opstel door beide groepen (7.08 resp. 7.03) lager wordt beoordeeld dan door de jury (7.43) (t=1.93 resp. 1.97 bij df=22; p<0.05 eenzijdig), terwijl het als laatste beoordeelde opstel (jury: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 35]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
7.45) hoger wordt beoordeeld (7.71 resp. 7.73) (t= 1.60 resp. 1.94 bij df=22; n.s. resp. p<.10 eenzijdig). Voor de opstellen met volgnummer 2 t/m 8 zijn er, door de bank genomen, niet van dergelijke, van de jury substantieel afwijkende oordelen. Deze resultaten wijzen sterk in de richting van een begin-effect. Of er daarnaast sprake is van een eind-effect valt veel lastiger te concluderen. Niet alleen zijn de uitslagen van de statistische toetsingen bij het eind-effect minder eenduidig, de cijfers voor het allerlaatste opstel in de reeks kunnen evengoed te hoog zijn uitgevallen als gevolg van contrastwerking met de lange, daaraan voorafgaande reeks van zeven middelmatige opstellen. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4 GeneralisatiesDe verkregen resultaten kunnen niet ongekwalificeerd gegeneraliseerd worden, gesteld al dat men ze überhaupt zou willen generaliseren. Het hier aangetoonde begin-effect berust op de veronderstelling dat dit effect zich alleen manifesteert als de kwaliteit van het als eerste in een reeks te beoordelen object bovengemiddeld goed is (verderop zal aan de hand van empirisch materiaal evidentie voor deze veronderstelling aangedragen worden). Generalisaties gelden dus uitsluitend voor die situatie, waarin dat eerste te beoordelen produkt ook daadwerkelijk de kwalificatie ‘goed’ of ‘superieur’ verdient. Overigens zou men zich met recht kunnen afvragen of het hier geconstateerde begin-effect wel gegeneraliseerd mág worden naar een ‘alledaagse situatie in de werkelijkheid’. Moet dit effect niet veeleer beschouwd worden als een experimenteel artefact dat zich uitsluitend onder strikt onder controle gehouden laboratoriumcondities voordoet (terugkijken naar eerder nagekeken opstellen verboden, veranderingen aanbrengen in eerder toegekende cijfers uitgesloten en, last but not least, een cijfer toekennen zonder enige notie van de kwaliteit van het restant)? Voor deze opvatting pleit het gegeven dat voor twee student-beoordelaars de beoordelingssituatie kennelijk zo onnatuurlijk was dat zij handelden tegen de instructie in. Bovendien bleek uit navraag achteraf dat vrijwel alle beoordelaars liever tot toekenning van de cijfers waren overgegaan, als ze zich een indruk hadden kunnen vormen van het totaal. Niettemin blijken neerlandici in de praktijk, althans sommigen, beoordelingsgedrag te vertonen dat sterke gelijkenis vertoont met de in dit experiment gehanteerde condities. Uit een kleine, informele enquete onder tien leraren Nederlands (minimaal vijf jaar leservaring) bleek, dat vier van hen de opstellen altijd in alfabetische volgorde nakeken (‘makkelijk, want zo kun je de cijfers rechtstreeks in je lerarenagenda overnemen’), en twee van hen altijd in de volgorde waarin ze waren ingeleverd (zodat de snelle schrijvers, of zij die weinig te vertellen hebben, altijd als eerste beoordeeld worden). Verder beweerde het merendeel meteen tot cijfergeving over te gaan, zonder zich eerst een indruk te hebben gevorm van het totaal (met als argument: ‘als je zoveel ervaring hebt, weet je wat je kunt en mag verwachten’). Eenmaal gegeven cijfers werden niet meer veranderd. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5 Een duister onderzoek naar contrast-effectenOok naar contrast-effecten is bijzonder weinig empirisch onderzoek verricht. De enige mij bekende studie is die van Bonniol (1973) die claimt dit type sequentie-effect te hebben aangetoond. Zijn voornaamste bevindingen komen op het volgende neer: na drie proef-werken van slechte resp. goede kwaliteit wordt het daaropvolgende proefwerk over-resp. ondergewaardeerd. Bovendien treedt dit fenomeen niet alleen op bij een reeks van drie proefwerken, maar zelfs al, zij het in zwakkere vorm, na één proefwerk. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 36]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Het door Bonniol gegeven verslag van dit empirisch onderzoek is niet erg verhelderend. Niet alleen wordt er geen enkel cijfermateriaal verstrekt en wordt er geen enkele informatie gegeven over de aard en uitkomsten van de statistische toetsing, evenmin wordt duidelijk van hoeveel proefpersonen Bonniol gebruik maakt, wat de precieze aard is van de te beoordelen proefwerken (door wie geschreven, van welke leeftijd en welk school-type?) en, niet minder belangrijk met het oog op sequentie-effecten, hoe het experiment feitelijk werd afgenomen. Kregen de proefpersonen het beoordelingswerk soms mee naar huis? Bestond er gelegenheid achteraf, na correctie van een reeks proefwerken, de eerder nagekeken proefwerken qua cijfergeving te corrigeren? Verder wordt in het geheel niet duidelijk, hoe de proefwerken aan de qualificatie goed, middelmatig of slecht komen. Zijn deze soms gebaseerd op de oordelen van een jury, waarvan de leden geselecteerd zijn, of berusten ze louter op intuïtie? Er is nog veel meer commentaar op Bonniols onderzoek mogelijk, maar zoveel mag inmiddels wel duidelijk zijn dat de gebrekkige rapportage van dit onderzoek het onmogelijk maakt Bonniols conclusie (‘Les résultats confirment dans l'ensemble les hypothèses. Des effets se produisent, qui sont des effets de contraste’ o.c. 204) op zijn waarde te schatten. Eén van de problemen bij empirisch onderzoek naar contrast-effecten betreft de vaagheid die de beschrijving van dit type effecten kenmerkt. Een strikte definitie wordt niet gegeven, men volstaat er veelal mee het contrast-effect te illustreren aan de hand van een concreet, suggestief voorbeeld: ‘Het sequentie-effect ontstaat door de nawerking van voorafgaande beoordelingen op het oordeel over de kwaliteit van een opstel. Na een aantal bijzonder slechte opstellen is een redelijk opstel een verademing voor de beoordelaar. In plaats van de ‘redelijke’ 7 geeft hij in zulke situaties een 8 of meer. Omgekeerd kan een aantal zeer goede opstellen achter elkaar de revue passeren, en vervolgens een middelmatig. Dit laatste opstel krijgt dan geen middelmatige 6, doch een 5 of minder’ (Zondervan 1974, p. 10). Voor wie empirisch onderzoek naar contrast-effecten wil uitvoeren, is deze ‘definitie’ om verschillende redenen onbevredigend. In de eerste plaats worden, geheel ten onrechte, sequentie-effecten gelijkgeschakeld met het contrast-effect (‘Het sequentie-effect ontstaat’), alsof er in het geheel geen andere typen sequentie-effecten zouden zijn (die definitorische gelijkschakeling is overigens karakteristiek voor het Nederlandse taalgebied, waar de ene na de andere auteur kritiekloos de oorspronkelijke, door A.D. de Groot gegeven omschrijving van sequentie-effect overneemt: beoordelaars ‘zullen de neiging hebben om na een reeks van bijvoorbeeld drie bijzonder zwakke produkten een zucht van verlichting te slaken als het volgende antwoord behoorlijk is, en er met die zucht, een 8 in plaats van een 6 of 7 aan toe te kennen’, De Groot 1981, p. 243). In de tweede plaats wordt niet gespecificeerd, hoe groot dat aantal ‘bijzonder slechte opstellen’ of ‘zeer goede opstellen’ behoort te zijn, wil een contrast-effect optreden - is een aantal van twee goede of van twee slechte opstellen al voldoende, of moet de reeks wellicht uit vijf opstellen bestaan? Zonder specificatie van de condities waaronder contrast-effecten optreden, is de existentie van deze effecten in principe ontoetsbaar, dus onweerlegbaar. In de derde plaats is niet duidelijk, althans wanneer men de uitspraken van verschillende onderzoekers over contrast-effecten naast elkaar legt, of dergelijke effecten uitsluitend optreden na een reeks slechte produkten (zoals in de omschrijving van De Groot wordt gesuggereerd), of ook na een reeks die uit goede produkten bestaat (zoals Zondervan veronderstelt). Ik voorspel dat, als het contrast-effect al optreedt, dat dan maar in één richting opereert: na een reeks slechte opstellen wordt een matig opstel overgewaardeerd Het omgekeerde - onderwaardering na een reeks goede opstellen - zal zich niet voordoen, en wel op grond van de eerder gesignaleerde aversie onder beoordelaars om onvoldoendes uit te delen. In de vierde plaats | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 37]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
wordt er in de omschrijving van dit specifiek type sequentie-effect ten onrechte vanuit gegaan, dat de nawerking van voorafgaande beoordelingen op het oordeel over de kwaliteit van een opstel zich uitsluitend zal manifesteren als contrast - maar waarom zou assimilatie, een begrip dat zowel in theoretische als empirische zin tot hetzelfde domein als het begrip ‘contrast’ moet worden gerekend, tot de onmogelijkheden moeten horen? Waarom zou een beoordelaar niet worden ‘meegezogen’ door de kwaliteit van (bij voorbeeld) drie goede opstellen, en wel zo dat het daarop volgende middelmatige opstel een te hoog cijfer wordt toebedeeld? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6 Contrast- of assimilatie-effecten?In drie separate onderzoeken zijn we nagegaan, of er evidentie gevonden kan worden voor de existentie van een contrast - dan wel assimilatie-effect. In het eerste onderzoek, uitgevoerd door Elst, Kramer en Mok (1987)Ga naar eindnoot6, kregen 36 studenten 30 opstellen voorgelegd die ze thuis mochten beoordelen. De 30 opstellen waren geselecteerd op basis van de oordelen van een jury, zodat een manipulatie van de volgorde in kwaliteit mogelijk was: clusters van steeds drie opstellen van goede en van slechte kwaliteit werden telkens afgewisseld door een cluster van middelmatige kwaliteit. De volledige reeks opstellen opende met vier opstellen van middelmatige kwaliteit, teneinde de proefpersonen te laten wennen aan het niveau; gehoopt werd dat daardoor het effect van de persoonlijke vergelijking zou worden gereduceerd. De reeks van 30 eindigde met vijf middelmatige opstellen. De resultaten waren teleurstellend, en wezen noch eenduidig in de richting van een contrast-, noch in de richting van een assimilatie-effect. Eén van de verklaringen kan misschien gevonden worden in het feit dat de proefpersonen de clusters niet als zodanig herkenden (d.w.z. een cluster slechte of goede opstellen werd niet door elke beoordelaar als slecht resp. als goed beoordeeld), een noodzakelijke voorwaarde voor het optreden van een contrast- of assimilatie-effect. Een andere verklaring moet waarschijnlijk gezocht worden in het, van de instructie afwijkende, beoordelaarsgedrag. Anders dan geïnstrueerd keek een flink gedeelte van de proefpersonen, zo bleek uit navraag achteraf, de opstellen niet in één keer na. Wellicht is het ook wel wat teveel gevraagd om 30 opstellen in één sessie na te kijken.
Dit onderzoek werd gerepliceerd door Endeveld (1990), met dien verstande dat getracht werd de veronderstelde nadelen in de onderzoeksopzet van Elst, Kramer en Mok te ondervangen. Bij de afname van de opstellen aan 28 beoordelaars was nu, anders dan in het onderzoek van Elst, Kramer & Mok, wèl een proefleider aanwezig. In vergelijking met het vorige onderzoek werd het aantal ter beoordeling aangeboden opstellen flink gereduceerd (negen in plaats van 30), zodat de proefpersonen nu wel in staat geacht mochten worden de opstellen in één sessie na te kijken. Verder werd er, meer dan voorheen, aandacht besteed aan de selectie van de jury-leden ten behoeve van de samenstelling van een betrouwbare en valide jury, en aan de selectie van de negen opstellen (op basis van jury-oordelen). De helft van de 28 proefpersonen kreeg de opstellen aangeboden in de volgorde: één middelmatig (M), drie slecht (SSS), één middelmatig (M), drie goed (GGG), en één middelmatig (M). De andere helft van de proefpersonen kreeg precies de omgekeerde volgorde. Als contrast- dan wel assimilatie-effecten, onder de hier gespecificeerde condities, optreden, dan moeten zij zich manifesteren bij het vijfde en het negende opstel | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 38]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
in de reeks - dit zijn immers de opstellen van middelmnatige kwaliteit die op de reeks goede en de reeks slechte opstellen volgen. De resultaten staan in Tabel 2.
Tabel 2: Gemiddeld oordeel over negen opstellen (M=middelmatig; S=slecht; G=goed); groep I (volgorde I t/m 9) en groep II (volgorde 9 t/m 1). Volgorde tussen haken weergegeven. Uit de resultaten in Tabel 2 blijkt ten eerste, dat een begin-effect niet optreedt wanneer een opstel dat als eerste in een reeks beoordeeld moet worden, van middelmatige kwaliteit is. Verder wordt duidelijk, dat de beoordelaars van zowel groep I als van groep II de clusters opstellen waaraan krachtens het jury-oordeel de qualificatie goed resp. slecht is verbonden (en op basis waarvan specifieke volgordes zijn samengesteld), ook als zodanig hebben herkend en gewaardeerd: wat de jury slechte of goede opstellen vindt, wordt over het algemeen ook door elk van beide groepen als onvoldoende resp. goed beoordeeld. Anders dan in het onderzoek van Elst, Kramer en Mok is hiermee in ieder geval al aan één van de voorwaarden voor het optreden van contrast- dan wel assimilatie-effecten voldaan. Als we onze analyse in eerste instantie beperken tot de oordelen over het cruciale opstel nr. 5 (dat opstel dat zowel in groep I als groep II precies hetzelfde volgnummer 5 heeft, maar in groep I op drie slechte, en in groep II op drie goede opstellen volgt), dan lijkt het er veel op dat hierbij sprake is van een contrast-effect, en wel een in de door ons voorspelde richting. Immers, dit middelmatige opstel nr. 5 wordt na drie relatief slechte opstellen in groep I overgewaardeerd, terwijl dit opstel in groep II na drie relatief goede opstellen niet wordt ondergewaardeerd (althans niet in statistisch significante zin). De overwaardering in groep I blijkt zowel bij vergelijking met het jury-oordeel (t=2,71 bij df=8; p<0.05) als bij vergelijking met de oordelen over ditzelfde opstel in groep II (t=2.37 bij df=26; p<0.05). | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
7 AnomalieënGeven de onderzoeksresultaten in Tabel 2 op het eerste gezicht aanleiding om te concluderen dat contrast-effecten bij het beoordelen van opstellen optreden, zij het onder | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 39]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
specifieke omstandigheden en maar in één richting, een nadere beschouwing van die resultaten leert echter, dat een aantal factoren deze interpretatie dubieus maakt. In de eerste plaats is de vergelijking van de oordelen in groep I met die van groep II gecontamineerd vanwege het feit dat in groep I vrijwel élk opstel, en niet alleen het cruciale opstel nr. 5, stelselmatig hoger wordt beoordeeld dan in groep II (groep I beoordeelt alle opstellen ‘overall’ significant hoger dan groep II: t=2.40 bij df=26; p<0.05). In de tweede plaats is ook de vergelijking van de oordelen in groep I met die van de jury vertroebeld vanwege het feit dat groep I in zijn algemeenheid ook hoger cijfert dan de jury. In de derde plaats, en die anomalie roept om een verklaring, oordeelt groep I niet alleen hoger over het cruciale opstel 5, maar ook al, anders dan voorspeld, over opstel 4 (en in groep II doet zich een soortgelijk verschijnsel voor, waar ook het opstel met volgnummer 4 al lager wordt beoordeeld, en niet alleen dat met volgnummer 5). Het is mogelijk dat de proefpersonen tijdens het beoordelen hypotheses ontwikkelen in de trant van ‘drie slechte opstellen achter elkaar, en dat in een reeks van slechts negen, dat moet onmogelijk zijn’ of in de trant van ‘ik kan ze toch moeilijk allemaal een onvoldoende geven’. Ten vierde, aangenomen dat zich in groep I een contract-effect bij opstel 5 voordoet, waarom kan datzelfde effect in groep II dan niet gerepliceerd worden bij opstel 9? Ook daar volgt toch een middelmatig opstel op drie relatief slechte? Het zal al met al wel duidelijk zijn dat de resultaten uit Tabel 2 maar moeilijk eenduidig in termen van een contrast-effect geïnterpreteerd kunnen worden. Die moeilijkheden vinden onder meer hun oorsprong in het feit dat groep I niet vergelijkbaar is met groep II. Vermoedelijk speelt de persoonlijke vergelijking ons hier parten, i.e. verschillen in strengheid tussen groep I en II. Een nieuwe replicatie werd opgezet (Strobbe 1990), waarin getracht werd naast de al eerder genoemde storende factoren ook het effect van die persoonlijke vergelijking zo goed als mogelijk onder controle te houden. Verder werden in dit onderzoek niet alleen clusters van drie goede of drie slechte opstellen aangeboden, maar ook clusters die uit slechts twee opstellen bestaan. Om de invloed van de persoonlijke vergelijking terug te dringen, kregen de 33 proefpersonen eerst een ‘voorbeeldopstel’, voorzien van een cijfer (i.c. 6+), te lezen, voordat ze de 14 resterende opstellen moesten beoordelen. De groep proefpersonen werd aselect in tweeën verdeeld, waarbij groep I (16 student-beoordelaars) de volgorde G1-G2-G3-M4-S5-S6-S7-M8-S9-S10-M11 -G12-G13-M14 kreeg aangeboden, en groep II (17 beoordelaars) de volgorde S1-S2-S3-M4-G5-G6-G7-M8-G9-G10-M11-S12-S13-M14 (S=slecht opstel; M=middelmatig opstel; G=goed opstel. Qualificaties gebaseerd op jury-oordeel). Beide groepen krijgen overigens exact dezelfde opstellen aangeboden (G1 in groep I correspondeert met G5 in groep II, S5 in groep I correspondeert met S1 in groep II, enzovoort), zij het in een andere volgorde. Zoals gezegd, in afwijking van de twee vorige onderzoeken bestaan de clusters opstellen van gelijkwaardige kwaliteit nu niet alleen uit een aantal van drie (goede versus slechte), maar ook uit een aantal van twee. Dit vergroot uiteraard eventuele generalisatiemogelijkheden. In Tabel 3 staan de resultaten, waarbij de belangstelling vooral uitgaat naar de middelmatige opstellen met de volgnummers 4, 8, 11 en 14.
Is groep I nu wel, anders dan in het vorige experiment, gelijkwaardig met groep II? Heeft het voorbeeldopstel het gewenste effect (c.q. reductie van de persoonlijke vergelijking) bewerkstelligd? Het algemeen gemiddelde in groep I bedraagt 6.52, dat in groep II 6.56, een triviaal (statistisch niet-significant) verschil van 0.04. Dat betekent dat, ceteris paribus, de verschillen tussen de twee groepen bij de cruciale nummers 4, 8, 11 en 14 of | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 40]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
verschillen tussen elk van beide groepen en het jury-oordeel niet meer gecontamineerd zijn ten gevolge van de persoonlijke vergelijking.
Tabel 3: Gemiddeld oordeel over 14 opstellen Toetsing van de verschillen tussen jury-oordeel en elk van beide groepen bij de cruciale nummers 4, 8, 11 en 14 (waarbij het significantie-niveau is aangepast via het criterium van Bonferroni) leert het volgende: alleen het oordeel in groep II over opstel 4 blijkt substantieel hoger te zijn dan dat van de jury (t=6.467 bij df=16; p<0.01) wat op een contrast-effect duidt. Het middelmatige opstel nr. 4 dat in groep I op drie goede opstellen volgt, krijgt in deze groep een cijfer dat liefst een half punt lager is dan in groep II waar ditzelfde opstel op drie slechte produkten volgt (t=2.073 bij df=31; p<0.05). Dat betekent al met al dat een contrast-effect, zoals hier aangetoond, uitsluitend pas manifest wordt na drie opstellen (en niet ook al na twee), terwijl dit effect uitsluitend in één richting opereert: na opstellen van relatief slechte kwaliteit wordt het daarop volgende opstel overgewaardeerd. Assimilatie-effecten treden dus niet op, kunnen althans niet aangetoond worden. Overigens zijn, precies zoals dat het geval was bij het begin-effect, ook bij het contrast-effect de generalisatiemogelijkheden aan beperkingen onderhevig. De kans om in een serie van zeg 15 of 20 opstellen achter elkaar drie opstellen aan te treffen van bijzonder slechte kwaliteit, waarbij bovendien deze serie wordt opgevolgd door een opstel van middelmatige kwaliteit, is nou niet bepaald erg groot te noemen. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 41]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
8 DiscussieDe specifieke volgorde waarin een aantal opstellen beoordeeld wordt, beïnvloedt het oordeel over die opstellen. Een opstel van bovengemiddelde kwaliteit dat als eerste in een reeks beordeeld moet worden, krijgt ten onrechte een lager cijfer dan wanneer ditzelfde opstel als laatste beoordeeld zou worden. Zijn de uitkomsten van het hier gerapporteerde onderzoek naar begin-effecten relatief eenduidig, dat is veel minder het geval bij de resultaten van de drie onderzoeken naar het contrast-effect. Ten minste twee dringende vragen resteren, wil men op basis van de resultaten in Tabel 3 met enig vertrouwen tot een contrast-effect kunnen concluderen: 1) waarom treedt een contrast-effect alleen op in de volgorde SSS-M, en niet ook bij de volgorde GGG-M? 2) waarom treedt het contrast-effect alleen op bij opstel met volgnummer 4 (in groep II), dus in de eerste helft van de serie, en niet ook in de tweede helft bij het opstel met nummer 9 (in groep I)? Het antwoord op de eerste vraag moet m.i. gezocht worden in de al eerder geconstateerde weerstand die er bij student-beoordelaars - en trouwens ook bij neerlandici met jarenlange leservaring (cf. Prick 1979) - bestaat om onvoldoendes te geven. Zelfs al zou een beoordelaar, als gevolg van het contrast-effect, de onbewuste neiging vertonen om een middelmatig opstel (wat objectief een mager zesje zou verdienen) na een reeks van drie bijzonder goede opstellen onder te waarderen, dan zou die tendens gepareerd kunnen worden door zijn drang onvoldoendes te vermijden. Het antwoord op de tweede vraag is veel lastiger, en maakt naar mijn oordeel in ieder geval duidelijk dat de resultaten in Tabel 3 met terughoudendheid geïnterpreteerd moeten worden. Zoals uit die resultaten blijkt, worden door de bank genomen de door de jury als goed gekwalificeerde opstellen door beide groepen ondergewaardeerd (althans in verhou-ding tot het jury-oordeel), terwijl omgekeerd de door de jury als slecht gekwalificeerde produkten door de groepen worden overgewaardeerd. En deze tendens wordt door de bank genomen sterker, naarmate de opstellen een hoger volgnummer hebben, dus later in de reeks te beoordelen produkten optreden. Die tendens is zelfs zo sterk dat er in de tweede helft van de reeks geen enkele onvoldoende meer valt, en dat terwijl de jury S9 en S10 (in groep I) en S12 en S13 (in groep II) als onvoldoende bestempeld. Hoe dit te verklaren? Een verklaring in termen van de onbetrouwbaarheid van het jury-oordeel moet uitgesloten worden geacht. Niet alleen is de jury streng geselecteerd (van de oorspronkelijke 20 vielen der twee af), bovendien is het gesommeerde oordeel extreem betrouwbaar (Cronbachs alpha: .92). Verder blijkt dat de beoordelaars in beide groepen wel degelijk in hun oordeel rekening hebben gehouden met de objectieve, door de jury bepaalde kwaliteit van de 14 opstellen, zij het niet zozeer op nominaal, als wel op ordinaal niveau. Dit komt er kort gezegd op neer dat jury en beide groepen overeenstemmen in hun oordeel over de rangorde in kwaliteit (Spearmann correlatie groep I: .90; groep III: .93). En waarom zouden de beoordelaars in beide groepen wel onvoldoendes uitdelen in de eerste helft, als het jury-oordeel dan zo onbetrouwbaar zou zijn? Nee, een verklaring van de onderwaardering van slechte en overwaardering van goede opstellen kan niet gevonden worden in de onbetrouwbaarheid van het jury-oordeel.. Een meer plausibele verklaring moet naar mijn oordeel gezocht worden in normverschuiving: beoordelaars beoordelen opstellen niet volgens vaste, geficeerde normen, integendeel, die normen fluctueren. Ongeacht de objectieve kwaliteit van de te beoordelen opstellen schuift een beoordelaar met zijn normen, min of meer onbewust, zodanig c.q. past zich in zijn cijfergeving zodanig aan het niveau van de groep als geheel, dat bij bena- | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 42]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
dering zijn gemiddelde cijfer tussen de veilige 6 en de 7 valt. Omdat in het bovenstaande experiment de volgorde strikt vastligt en de beoordelaar weet dat hij in totaal zo'n 14 opstellen moet nakijken, waarvan hij de kwaliteit overigens niet kent, worden naarmate de beoordeling vordert de marges om substantieel van het veilige tussengebied 6-7 af te wijken, progressief kleiner. In statistisch jargon uitgedrukt: hoe meer de beoordelaar in de reeks vordert, hoe sterker zijn neiging om naar zijn persoonlijk gemiddelde te regresseren. Als deze verklaring enige realiteitswaarde heeft (en merk in dit kader op dat ook de data in Tabel 2, met name de daar geconstateerde anomalieën, compatibel zijn met deze verklaring), dan is hiermee tevens de grens van experimenteel onderzoek naar sequentie-effecten tijdens het beoordelen van opstellen bereikt. Als proefpersonen zich in een experimentele situatie tijdens het beoordelen inderdaad laten leiden door nefaste hypothe-ses zoals hierboven gesuggereerd, dan wordt de zoektocht naar de existentie van contrast-of assimiliatie-effecten een vrijwel hopeloze zaak. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Bibliografie
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 43]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|