Methodologie
(1961)–A.D. de Groot– Auteursrechtelijk beschermd7;3 Beoordelingsprocedures: intersubjectiviteit7;3;1 Beoordelaars als meetinstrumenten.Sommige kwalitatieve materialen en zeker sommige levens-situaties zijn zo complex en ondoorzichtig, dat men er niet in kan slagen een objectieve maatstaf voor het te definiëren begrip of de te onderzoeken factor te vinden, die (nog) voldoende relevant wordt geacht. In dergelijke situaties neemt men, ook in scherp gerichte toetsingsonderzoekingen, wel zijn toevlucht tot een beoordelaar als meetinstrument. Hier wordt dus water in de objectieve wijn gedaan: de beoordelaar verricht een taak, die niet of niet gemakkelijk door een machine zou kunnen worden overgenomen - anders zouden wij het niet door een beoordelaar laten doen. Gewoonlijk gaat men hiertoe over, omdat men geen betere (objectieve) oplossing weet, of omdat het nu eenmaal gebruikelijk en sociaal geaccepteerd is op het betreffende gebied om op het oordeel van experts af te gaan (b.v. op artsen, die de diagnose ‘astma’ of ‘ulcus’ stellen, vgl. 5;3;2). Van essentieel belang is, dat men althans naar omstandigheden voldoende vertrouwen heeft in de ‘mate van objectiviteit’, waarmee de beoordelaar te werk gaat. Dit laatste impliceert, in verband met onze machine-definitie van objectiviteit (6;2;1), dat een doelgerichte analyse van zijn beoordelingsmethode, indien uitgevoerd, een ‘heel eind zou komen’ in de richting van de constructie van een bevredigende formule (machine-programma), die de beoordelaar zou kunnen vervangen. Het gaat dus om een bevredigende | |||||||||||||||
[pagina 237]
| |||||||||||||||
mate van objectieve specificeerbaarheid. Dit houdt in, dat van de beoordelaar wordt aangenomen, dat hij, bewust of intuïtief, een systeem heeft, en volgt, van redelijk vaste, zij het onuitgewerkte, normen, dus dat hij niet ‘maar wat zegt’. Empirisch kan dit blijken uit de consistentie van zijn oordelen ten opzichte van elkaar - b.v. transitiviteit (zie 7;2;3) van verschillende vergelijkende oordelen - en in het bijzonder uit de betrouwbaarheid (reliability) van zijn beoordelingen bij een onafhankelijke herhaling van de procedure. Zolang het door hem gevolgde systeem echter onbekend is, dus een werkelijke, expliciete (machine-)objectiviteit onbereikbaar, heeft men ook garanties nodig, dat het systeem zelf niet (te) subjectief is. Het belangrijkste criterium hiervoor, en daarmee voor wat men gewoonlijk onder de ‘mate van objectiviteit’ van een beoordelaarplus-procedure verstaat, is de mate waarin wat hij, de ene beoordelaar (c.q. expert) zegt, klopt met wat andere beoordelaars (experts) zeggen. Men kan, in een onderzoek-opzet, waarbij verschillende beoordelaars worden ingeschakeld en zo strikt mogelijk oordeels-contaminaties tussen hen vermeden worden, deze mate van intersubjectieve overeenstemming (inter-judge reliability) empirisch bepalen en als controle hanteren. In feite is het vooral dit intersubjectiviteitscriterium, dat bij inschakeling van beoordelaars in de plaats komt van de objectiviteitseis. Qua inhoud zijn de beide begrippen niet gelijkwaardig: volstrekte intersubjectiviteit tussen beoordelaars is (nog) geen objectiviteit, want het systeem is (nog) niet gespecificeerd. Qua strekking zijn de begrippen echter wel zeer verwant. De sociale betekenis van de objectiviteitseis in de wetenschap is immers grotendeels gelegen in het feit, dat waar objectiviteit bestaat volstrekte intersubjectiviteit bereikbaar is; men kan misverstand uitsluiten. Vandaar dat men soms kan volstaan met ‘een redelijke mate van intersubjectieve overeenstemming’ tussen de tot oordelen bevoegd geachten. Dit betekent opnieuw een verruiming van mogelijkheden om vat te krijgen op relevante factoren, ditmaal met enig, ‘maar niet te veel’, verlies, niet aan de relevantie- maar aan de objectiviteits-kant. Hiervan wordt vrij veel gebruik gemaakt, onder andere bij de constructie van zogenaamde criterium-variabelen, zoals die bij evaluatie- en validiteitsonderzoekingen worden gebruikt. ‘Criteria’ of ‘criterium-variabelen’ zijn de variabelen, waaraan wordt afgemeten, in hoeverre, respectievelijk, een methode van beïnvloeding | |||||||||||||||
[pagina 238]
| |||||||||||||||
(evaluatie) of een methode van gedifferentieerde voorspelling (validiteit) aan haar doel beantwoordt. Voorbeelden van evaluatie-criteria zijn in het voorgaande al besproken. Effect-maatstaven, zoals het ‘verworven inzicht’ (zoals bepaald door de test) in verband met meetkunde-onderwijs (6;2;3), en ‘verminderde onvrede met-zichzelf’ (zoals bepaald via de Q-sorteertechniek) in verband met therapie (6;2;4), noemt men ook wel criteria of criterium-variabelen voor de evaluatie van de beïnvloeding in kwestie. Validiteits-criteria zijn bijvoorbeeld: operationeel gedefinieerde maatstaven voor ‘schoolsucces’ of voor ‘gebleken geschiktheid’ voor een functie in een bedrijf, in geval men deze maatstaven gebruikt om de waarde (de validiteit) van bijvoorbeeld een test-methode te bepalen: in hoeverre komen de test-voorspellingen uit? Het criterium is dan de variabele waarmee men de predictor-variabele correleert om de (predictieve) validiteit te bepalenGa naar voetnoot1 (zie verder 8;2). Het criterium representeert hier het voorspellings doel, dat wat moet worden voorspeld (per individu of geval); zoals het bij evaluatie-onderzoekingen het beïnvloedings- doel representeert. In de toegepaste sfeer hebben beide typen onderzoekingen gemeen, dat het doel in belangrijke mate maatschappelijk bepaald is, zodat de maatstaven ervoor of aan de maatschappelijke werkelijkheid ontleend moeten worden of althans in nauwe aansluiting daaraan moeten worden geconstrueerd. Daardoor is het dikwijls zeer moeilijk het beïnvloedingsrespectievelijk het voorspellingsdoel (succes, geschiktheid, aanpassing, gezondheid, eventueel ‘geluk’!) zowel objectief als relevant instrumenteel te realiseren. Vandaar dat men juist hier vaak, mede, zijn toevlucht neemt tot niet geheel objectieve, door beoordeling verkregen criteria. Bijvoorbeeld: schoolcijfers of-beoordelingen (door leraren gegeven) als maatstaf voor verworven kennis of geleverde prestaties; beoordeling door de chef als maatstaf voor gebleken geschiktheid (in verband met selectie: | |||||||||||||||
[pagina 239]
| |||||||||||||||
validiteit) of voor gebleken verbetering (in verband met training: evaluatie); beoordeling door een klinische psycholoog van de ‘verbetering in aanpassing’ ten gevolge van therapie; enz. Voor sommige criterium-begrippen, of voor sommige aspecten daarvan, is er trouwens geen andere weg dan met beoordelaars te werken. Men wil namelijk soms uitdrukkelijk weten, niet hoe iemand of iets is, maar hoe hij (het) wordt beoordeeld. De mate waarin iemand ‘sociaal aangepast’ is in zijn normale leven, hangt bijvoorbeeld onder meer - bij definitie - af van de mate waarin en de wijze waarop hij wordt geaccepteerd en gewaardeerd door personen in zijn omgeving. Naast criteria uit de sfeer van het eigen beleven (b.v. ‘onvrede met zichzelf’, zie boven) en objectieve gedrags-criteria (b.v. prestaties in het werk, absenties, doktersbezoek, objectief constateerbare symptomen) heeft men hier criteria van het type beoordeling-door-derden nodig (vgl. b.v. fiedler dodge, jones en hutchins 1958; fiedler, hutchins, dodge 1959). Men kan beoordelingsprocedures dus niet missen. Maar, gezien hun gevaren (6;1;2), hoe kan men ze dan qua betrouwbaarheid en intersubjectiviteit onder controle houden? | |||||||||||||||
7;3;2 Specifieke beoordelings-problemen.Nu wij, na zijn aanvankelijke desavouering (6;1;2), de beoordelaar weer hebben binnengehaald, zij het alleen voor bepaalde, niet strikt objectief op te lossen vraagstukken van instrumentele realisering, is het inderdaad zaak iets te zeggen over de voorzorgen en controles (7;3;3), met behulp waarvan de storende invloed van de toegelaten subjectiviteit binnen de perken kan worden gehouden. Om dit te kunnen doen, is het echter eerst nodig een idee te hebben van de specifieke moeilijkheden, die zich uit objectiviteitsoogpunt bij gebruik van beoordelingsprocedures kunnen voordoen (7;3;2). Deze moeilijkheden kunnen van velerlei aard zijn. Zij zijn het gemakkelijkst te demonstreren aan een praktijkgeval, bijvoorbeeld de beoordeling van de antwoorden op een bepaalde examenvraag - over een bepaalde geschiedkundige ontwikkeling, of iets dergelijks. Wij nemen aan, dat een schriftelijk, ‘beredeneerd antwoord’ wordt verlangd, dat er N examinandi zijn, genummerd 1, 2... i, j... N, en dat het gaat om een beoordeling, in een schoolcijfer, van het ‘getoonde begrip’ met betrekking tot het onderwerp. Er zijn twee beoordelaars: de leraar (L), die het | |||||||||||||||
[pagina 240]
| |||||||||||||||
onderwijs heeft gegeven en die de leerlingen kent, en de gecommitteerde (C), die de leerlingen niet kent. L corrigeert het werk eerst en schrijft zijn beoordeling (cijfer) op het werk van iedere examinandus. Daarna krijgt C de papieren in handen; hij plaatst het door hem juist geachte cijfer ernaast. Beide proberen, zo nemen wij aan, oprecht een zo objectief mogelijke beoordeling van de hier en nu geleverde prestatie te geven. Welke zwakheden vertoont deze, veel toegepaste, beoordelingsprocedure, welke foutenbronnen zijn er? Van ons standpunt gezien gaat het hier weer om instrumentele realisering, en wel van het begrip: ‘het getoonde begrip’ in geschiedenis, met name in de onderhavige historische periode en ontwikkeling. Dit aspect (a) moet door de beoordelaars L en C uit de beoordelingsobjecten, i.c. de opstellen worden geabstraheerd en onafhankelijk van andere aspecten (b, c,... enz.) worden beoordeeld. Het eerste wat hierbij opvalt, is dat er bijzonder véél van zulke andere kwaliteiten en aspecten zijn. De opstellen dragen een naam, zij behoren bij een persoon (die de leraar kent en waar hij een bepaalde kijk op heeft); zij zijn meer of minder leesbaar geschreven; het handschrift heeft een ‘karakter’; zij bevatten meer of minder spellings- en taalfouten; meer of minder uitweidingen buiten het eigenlijke onderwerp; die al dan niet plezierig zijn om te lezen; sommige zijn vlot geschreven, misschien zelfs geestig, andere zijn vervelend of onbeholpen van stijl; zij kunnen lang of kort zijn, breedvoerig of beknopt; enz. Al deze kenmerken en aspecten hebben weinig of niets met de vraag naar het ‘getoonde begrip’ te maken - en het grote probleem is of de beoordelaars zich van hun storende invloed zullen kunnen losmaken. Wat de leraar L betreft zal het duidelijk zijn, dat hij - volgens de normen van een toetsingsonderzoek, en eigenlijk ook voor een examenGa naar voetnoot1 - te veel weet om nog objectief te kunnen oordelen. Hij weet bijvoorbeeld, dat leerling no. 3 weliswaar géén licht is, maar een aardige open jongen, die in de klas vaak met opmerkingen komt, waaruit misschien geen vak- | |||||||||||||||
[pagina 241]
| |||||||||||||||
inzicht maar wel gezond verstand spreekt: ‘hij zal zijn weg wel vinden’. En hij weet (of meent te weten), dat leerling no. 7 niet gewerkt heeft; en verder, dat hij ‘zo iets achterbaks heeft’ in de klas. L zal zich moeilijk van deze opvallende andere kwaliteiten van de personen kunnen losmaken; ook als hij het oprecht probeert, léést hij de opstellen toch al op een andere manier, namelijk met het beeld van de persoon op de achtergrond. Maar ook C ‘weet te veel’: hij ziet het handschrift - van leerling no. 3 misschien ‘volwassen’, ‘evenwichtig’ en goed leesbaar, van leerling no. 7 ‘kriebelig’ en moeilijk leesbaar - hij ziet de fouten, leest de uitweidingen, de stijl-eigenaardigheden, enz. Ook bij hem zullen deze, voor de eigenlijke, objectieve beoordeling van aspect a irrelevante kwaliteiten (b, c,... enz.) onwillekeurig invloed op het oordeel hebben. Ook hij is onderhevig aan het halo-effect, d.i. de storende ‘uitstraling’ van opvallende andere kwaliteiten dan de te beoordelen a-variabele.Ga naar voetnoot1 Verder is zijn beoordeling niet onafhankelijk van die van L te houden: het eerste wat hij ziet is het door L gegeven cijfer. Verder: L is belanghebbende - maar C is het ook. L wil graag een goed figuur slaan met zijn leerlingen, ‘goede examen-resultaten behalen’, daar hij dit als een maatstaf voor de kwaliteit van zijn onderwijs ziet. C heeft niet zulke sterke belangen, maar hij zal toch, onder meer, ‘liever geen conflicten’ verwekken, bijvoorbeeld door gemiddeld 1 à 2 punten (naar beneden) van L's oordeel af te wijken, of door meer dan de helft van de leerlingen een onvoldoende te geven. Hij zal zich trouwens ook onwillekeurig enigszins aanpassen aan het gemiddelde prestatie-niveau van deze klas. Deze aanpassing zal ook bij L plaatsvinden, of liever reeds lang hebben plaatsgevonden in zijn onderwijs- en beoordelingsgewoonten in deze klas. Voorts zullen de beoordelings-gewoonten van zowel L als C mede | |||||||||||||||
[pagina 242]
| |||||||||||||||
bepaald worden door wat men, in aansluiting aan de term gebruikt voor de individuele verschillen, die in 1796 (!) op het Greenwich Observatorium voor waarnemingen aan de sterrenhemel werden geconstateerd, de persoonlijke vergelijking van het beoordelen kan noemen. Bijvoorbeeld: de centrale tendentie en de spreiding bij L liggen zo, dat er, bij zijn manier van cijfer geven, in het algemeen niet meer dan 5% onvoldoendes uit de bus komen, slechts hoogst zelden een 9 en nooit een 10. C daarentegen geeft bij voorkeur een grotere spreiding: hij gebruikt in het algemeen de gehele schaal, ja, hij heeft misschien zelfs de neiging graag extreme beoordelingen te geven; met als resultaat een 20% onvoldoendes, waaronder drieën en vieren, en gemiddeld een 10% cijfers boven de acht.Ga naar voetnoot1 Wie de schoolpraktijk kent, weet dat zulke - vaak nog grotere - verschillen tot de normale verschijnselen behoren. Eveneens op het gebied van de persoonlijke verschillen ligt de moeilijkheid, dat de beoordelingstaak (a) verschillend wordt opgevat door L en C. Wat is ‘getoond begrip’ en waaruit moet het blijken? L zal waarschijnlijk de nadruk leggen op een verstandige reproductie van de gedachten, die hij in zijn eigen onderwijs naar voren heeft gebracht. C echter ziet deze zaken anders, hij legt andere accenten, en zal er misschien vooral op letten, dat ‘tenminste geen ónzin’ wordt gedebiteerd door de leerlingen. Hij leest en beoordeelt wat er staat, en is minder geneigd met ‘goede bedoelingen’ te rekenen; nog afgezien van het feit, dat hij minder gegevens heeft dan L om zulke goede bedoelingen te interpreteren. De vaagheid van de instructie (het gaat om ‘getoond begrip’) kan trouwens behalve de intersubjectieve overeenstemming ook de betrouwbaarheid per beoordelaar ongunstig beïnvloeden, doordat de opvatting over wat ‘getoond | |||||||||||||||
[pagina 243]
| |||||||||||||||
begrip’ is en waaruit het blijkt, zich tijdens het beoordelen onwillekeurig verschuift. Dit laatste kan onder meer geschieden ten gevolge van sequentie-effecten: de volgende beoordeling is niet onafhankelijk van de voorafgaande. Zowel L als C zullen de neiging hebben om na een reeks van bijvoorbeeld drie bijzonder zwakke produkten een zucht van verlichting te slaken als het volgende antwoord behoorlijk is, en er, met die zucht, een 8 in plaats van een 6 of 7 aan toe te kennen. Enzovoorts.
Vatten wij samen. De beoordeling van aj wordt, behalve door de veronderstelde objectieve kwaliteit van aj, beïnvloed:
Elk van deze vijf categorieën van beoordelings-vertroebelingen kan zich uitdrukken in een verminderde betrouwbaarheid en intersubjectieve overeenstemming. Dit behoeft echter niet het geval te zijn. Het extra gegeven dat C heeft - het L-cijfer - is bijvoorbeeld een variabele, waarvan de (ongewenste) invloed waarschijnlijk het effect heeft, dat de overeenstemming van L- en (gecontamineerde) C-oordelen juist toeneemt. Hetzelfde geldt voor andere, minder evidente contaminaties. Alléén voorzover een storende factor leidt tot oordeels-fluctuaties in de tijd per beoordelaar of tot variaties tussen beoordelaars, kan zijn werking blijken uit een verminderde betrouwbaarheid of intersubjectieve overeenstemming. Relatief constante, algemene eigenaardigheden, vooroordelen of belangen, die verschillende beoordelaars gemeen hebben, zijn niet door controles | |||||||||||||||
[pagina 244]
| |||||||||||||||
achteraf te constateren, laat staan te elimineren. Inbouw van zulke empirische controles in de beoordelingsprocedure is dus niet genoeg. Wij moeten daarnaast ook zoeken naar voorzorgen ter vermijding van contaminaties van allerlei soort. | |||||||||||||||
7;3;3 Controles en voorzorgen.De instrumentele realisering van kwaliteit a, ‘getoond begrip’, laat klaarblijkelijk uit objectiviteitsoogpunt zeer veel te wensen over. De variëteit van mogelijke storende subjectieve factoren is groot; en het is duidelijk, dat hun invloed sterk en verwarrend kan zijn. Wat kan tegen deze veelheid van kwalen worden gedaan, gesteld dat een dergelijke, door beoordeling te verkrijgen kwaliteit in een toetsingsonderzoek zou worden gebruikt? De vijf in 7;3;2 genoemde punten (kwalen) corresponderen grofweg met de volgende remedies:
Deze remedies hebben tot en met 4) betrekking op de opzet van de beoordelings-procedure. Bij toepassing op ons gedachtevoorbeeld, zijn zij - opnieuw: bijvoorbeeld - als volgt uit te werken. | |||||||||||||||
[pagina 245]
| |||||||||||||||
Ad 1) Reductie: Dit komt neer op een scherpere bepaling van het te beoordelen a-aspect (‘getoond begrip’) door een uitwerking van de beoordelings-instructie in de richting van een operationele definitie door codering. Om dit te kunnen doen heeft men empirisch materiaal nodig, waaraan de methode kan worden ontwikkeld en waarop zij wordt beproefd - met controles op uitvoerbaarheid, betrouwbaarheid en intersubjectiviteit. Dit betekent, dat vooronderzoekingen nodig zijn (vgl. 5;1;4). Men kan daarvoor met betrekking tot beoordelingsprocedures inderdaad niet dringend genoeg pleiten. Het resultaat kan dan zijn een beoordelings-instructie, die specificeert waarop de beoordelaar moet letten en hoe hij bijvoorbeeld verschillende onderdelen of aspecten van a (‘getoond begrip’) moet vaststellen en wegen. Soms gebruikt men een reeks standaard-voorbeelden om het houvast van de beoordelaar te vergroten. Eenvoudige voorbeelden van zulke ‘semi-objectieve’ codeer-methoden zijn te vinden in de testliteratuur, bijvoorbeeld in wechsler 1958, voor de beoordeling van antwoorden op sommige subtests van de Wechsler Adult Intelligence Scale. Bij een complex aspect als ‘getoond begrip’ zou een dergelijke instructie voor de beoordeling waarschijnlijk gebaseerd moeten zijn op een splitsing in afzonderlijke kenmerken, waarop de beoordelaar moet letten. Bijvoorbeeld: Staan de essentiële feiten (gespecificeerd b.v.: f1, f2..., f5) er wel in? Worden de twee belangrijkste samenhangen (s1 en s2) wel duidelijk vermeld? Is de opbouw van het betoog als geheel sluitend? Of staan er non-sequitur-wendingen of andere logische fouten (‘onzin’, vgl. blz. 242) in? Dus: a wordt onderscheiden in1a,2a,3a... enz., die elk zo scherp en concreet mogelijk worden omschreven en toegelicht, en later weer volgens een vaste methode met elkaar in verband worden gebracht en gecombineerd tot een eindbeoordeling, hetzij met, hetzij zonder de vrijheid van de beoordelaar om daarvan weer op grond van niet gespecificeerde kenmerken in beperkte mate af te wijken. Enzovoort. De beoordelingstaak wordt dus gedeeltelijk aan voorschriften gebonden. Dat wat ‘vrij’ blijft is eenvoudiger, meer gespecificeerd, duidelijker omlijnd.
Ad 2) Eliminatie en concentratie: Een effect van de ad 1) genoemde maatregelen is stellig, dat het aspect a zich, nu het meer in operationele richting gespecificeerd is, duidelijker afgrenst van b, c... enz. Anderzijds | |||||||||||||||
[pagina 246]
| |||||||||||||||
kunnen echter ook binnen het aspect a zelf, nu gesplitst in1a,2a,3a... enz., halo-effecten optreden. Ook een perfecte eliminatie van b, c... enz. - stel dat deze mogelijk was - zou dus in een geval als van ons voorbeeld slechts een partiële oplossing bieden. Eliminatie is zonder meer mogelijk met betrekking tot een aantal irrelevante gegevens: men kan de namen weglaten, de beantwoordingen uniform laten overtypen, en eventueel de spellingsfouten verbeteren, voordat de beoordelaar het materiaal in handen krijgt. Maar verder kan men niet goed gaan: de fouten in zinsbouw, de uitweidingen, de stijl, de lengte kan men niet goed corrigeren, want hierin is wat relevant en wat irrelevant is (voor b.v. de1a-beoordeling) onscheidbaar dooreengeweven. Voor beoordelaar L zullen daardoor bovendien tenminste sommige personen ook nu nog herkenbaar zijn (vgl. ad 5). Een eenvoudige maatregel van concentratie op één ding tegelijk is deze, dat de beoordelaar de opstellen per factor beoordeelt, c.q. vergelijkt (zie 7;3;5). Als hij ze eerst allemaal op1a doorneemt en beoordeelt, daarna op2a, enz., is het risico van onderlinge beïnvloeding in ieder geval verminderd, zij het niet weggenomen.Ga naar voetnoot1
Ad 3) Variatie van volgorde, bij herhalingen: Dit is een relatief eenvoudige zaak; zolang zich met de herhaling zelf geen moeilijkheden voordoen. Het hoofdprobleem is, dat de beoordelaar een geheugen heeft; zodat hij de tweede keer nog kan weten wat hij de eerste keer heeft gedaan en eenvoudig ‘consequent’ kan zijn. De herhaling levert dan geen nieuwe informatie op: de eerste beoordeling (en de eerste sequentie) is beslissend, betrouwbaarheidsbepaling heeft geen zin. Middelen hiertegen zijn - opnieuw: geen van alle perfect - (1): een zeker tijdsverloop tussen beide reeksen; of (2): een zó groot aantal beoordelingen laten verrichten, dat de beoordelaar geacht kan worden te zijn vergeten wat hij de vorige keer heeft gedaan; of (3): niet (alleen) werken met herhalingen, maar met indirecte consistentie-controles, waarbij het minder gemakkelijk is opzettelijk consequent te zijn in plaats van, | |||||||||||||||
[pagina 247]
| |||||||||||||||
zoals de bedoeling is, ieder geval opnieuw onbevangen te bezien(vgl. 7;3;5).
Ad 4) Beperking van vrijheid van verdeling: Dit is een voor de hand liggend middel tegen de invloed van persoonlijke eigenaardigheden, dat aanzienlijk eenvoudiger is dan een werkelijke empirische bepaling van de ‘persoonlijke vergelijking’ per beoordelaar, met correctie achteraf. Ook (meer algemene) verschijnselen als de ‘trek naar het gemiddelde’ (error of central tendency, vgl. paterson 1950, p. 153) en dergelijke kunnen door een voorgeschreven, gedwongen verdeling van de te geven beoordelingen over de schaal in kwestie worden tegengegaan. Er zijn echter aan zulke, bijvoorbeeld percentueel vastgelegde, steekproef-verdelingen (forced distribution, vgl. b.v. bellows 1956, p. 379) ook bezwaren verbonden. Met de verdeling worden ook het gemiddelde (of de mediaan) en de spreiding vastgelegd, zodat informatie over de beoordeling van het niveau en de spreiding van de steekproef als groep verloren gaat. Verder dwingt men de beoordelaar tot het aanbrengen van verschillen en scheidingslijnen tussen sub-groepen op plaatsen (in de steekproef), waar hij ze misschien niet wil aanbrengen, en omgekeerd tot het negeren van verschillen, die hij in zijn beoordeling misschien graag, en met overtuiging, zou hebben aangebracht. Het dilemma is duidelijk: als men de beoordelaar te veel onder druk zet, gaat op sommige plaatsen informatie verloren en wordt, op andere, onbetrouwbare schijn-informatie geïntroduceerd (vgl. 7;2;4); zet men hem echter niet onder druk, dan zullen irrelevante beoordelings-eigenaardigheden hun invloed sterker doen gelden. Naar gelang van het probleem moet men het ene of het andere op de koop toe nemen; of men moet een verstandig compromis zoeken, bijvoorbeeld in dier voege, dat men wel per object een bepaalde keuze uit voorgeschreven mogelijkheden eist, maar een zekere speling in de verdeling toelaat. Ook kan men weliswaar een gedwongen verdeling eisen, maar de beoordelaar de gelegenheid geven tot commentaar, met name tot een, bij voorkeur geprecodeerde, vorm van uitdrukking van de mate van zekerheid van zijn oordeel. Vooral bij vergelijkende beoordelingen - b.v. bij ‘paired comparison’ (7;3;5) - is deze werkwijze vaak een goede oplossing: dwingen tot een ongelijkheids-oordeel, met mededeling van de graad van zekerheid. De opgave wordt voor de beoordelaar acceptabeler; en men verkrijgt extra informatie, die de onderzoeker desgewenst kan gebruiken voor een verfijning van zijn schaal. | |||||||||||||||
[pagina 248]
| |||||||||||||||
Wat tenslotte de kwestie van het niveau van de steekproef-groep betreft: het feit, dat beoordeling volgens een geforceerde verdeling hierover geen informatie verschaft, kan men compenseren door naar de niveau-beoordeling apart te vragen. Het effect is dat men ‘relatieve’ en ‘absolute’ beoordeling als twee onderscheiden problemen presenteert, opnieuw een decompositie, die verantwoord en reëel is. In het geval van ons voorbeeld is de hoofdvraag, qua absolute beoordeling, die naar de grens (in de steekproef) tussen voldoende en onvoldoende. Dit kan als een op zichzelf staande kwestie worden gezien, die bijvoorbeeld kan worden opgelost met behulp van een gespecificeerde instructie aan de beoordelaar. Daarin wordt dan zo objectief mogelijk de bedoeling van de grens, in verband met wat onder ‘het getoonde begrip’ wordt verstaan, uitgewerkt en in operationele richting gespecificeerd. Mutatis mutandis geldt hetzelfde voor de aan te brengen spreiding. In ons geval kan het totale beoordelingsprobleem eventueel worden gesplitst in drieën: (1) vaststellen van scores op een gedwongen verdeling (c.q. een ordinale schaal); (2) leggen van de grens tussen voldoende en onvoldoende; (3) vaststellen van de spreiding (c.q. omzetting van de ordinale schaal in een, adequaat geachte, reeks cijfers). | |||||||||||||||
7;3;4 ‘Belangeloze’ beoordelaars.Ad 5) De remedies tegen het in 7;3;2 onder 5 genoemde contaminatie-effect in engere zin hebben betrekking op de keuze van de beoordelaars. Essentieel is, dat zij geen andere belangen hebben (5a), en dat er meerdere, onafhankelijke beoordelaars zijn (5b, zie 7;3;3, p. 244). Dit laatste tweetal eisen is in feite het meest kritische. Alle voorzorgen en controles kunnen namelijk zo goed als waardeloos worden, wanneer de beoordelaar op welke wijze dan ook belang heeft bij de uitkomsten van zijn beoordeling, en wanneer hij de kans heeft zijn vrijheid te gebruiken om die, werkelijke of vermeende, belangen te behartigen, bewust of onbewust; of ook zich daartegen, bewust of onbewust, te verzetten. Die kans heeft hij praktisch altijd. De enige afdoende maatregel is inderdaad: te werken met niet belanghebbende beoordelaars, en wel met meer dan één, om toch nog aanwezige subjectiviteiten, van welke oorsprong dan ook, onder controle te kunnen houden. Dat een zo sterk belanghebbende beoordelaar als L, die bovendien zó veel ‘te veel weet’, in een toetsingsonderzoek zou worden uitgeschakeld, behoeft geen betoog. | |||||||||||||||
[pagina 249]
| |||||||||||||||
Verder moeten verschillende beoordelaars uiteraard onafhankelijk werken. Dat betekent niet alleen, dat er geen L-cijfer op het papier mag staan dat C in handen krijgt, maar ook, dat er generlei vorm van contact of overleg, of gemeenschappelijke meningsvorming langs indirecte wegen (b.v. via derden) mag zijn geweest. In ons geval zou men bijvoorbeeld moeten werken met experts (geschiedkundigen, voldoende op de hoogte met de behandelde stof en uiteraard gewapend met een complete instructie), die ieder voor zich werken, óók zonder enigerlei tussentijds contact. Bij elk van de in 7;3;3 genoemde punten bleek het probleem te zijn, dat ideale beoordelings-condities moeilijk te verwezenlijken zijn. Dit geldt nog sterker voor dit vijfde punt. Beoordelaars zijn mensen, en mensen hebben nu eenmaal bij bijna alles wat zij doen wel een zeker belang - naast hun bereidheid om de beoordelingstaak in kwestie zo goed mogelijk te vervullen, een conditie die óók vervuld moet zijn. Verschillen in visie, vooroordelen, privé-theorieën die men graag bevestigd wil zien, de neiging zich niet te zeer persoonlijk bloot te geven, of in een bepaald opzicht een ‘goede beurt’ te willen maken: dit zijn algemeen menselijke neigingen, die zelfs in de schijnbaar neutraalste taak kunnen interfereren. Niettemin is het, zolang het gaat om beoordeling van materialen - protocollen, geregistreerde testantwoorden, een op de band opgenomen gesprek, een stuk film of muziek, een artikel of verslag in een krant, kortom: ‘gedrags-neerslagen’ van allerlei aard - toch wel vaak mogelijk tot voldoende valide en intersubjectief overeenstemmende beoordelings-variabelenGa naar voetnoot1 te geraken. Men kan in dit geval de beoordelingsprocedure naar willekeur herhalen en men heeft de garantie, dat tenminste het materiaal dat beoordeeld wordt, de concrete, feitelijke grondslag, steeds hetzelfde blijft. | |||||||||||||||
[pagina 250]
| |||||||||||||||
Deze condities zijn niet vervuld bij de beoordeling van personen of van onmiddellijk geobserveerde, niet herhaalbare situaties of gebeurtenissen. Daarbij moet men het hebben van hen, die de personen kennen respectievelijk van hen die ‘erbij geweest’ zijn. Deze personen zijn echter bijna altijd tevens belanghebbenden, terwijl bovendien hun feiten-materiaal - dat wat zij van de persoon hebben meegemaakt respectievelijk van de situatie of gebeurtenis hebben gezien - nooit identiek is. Dit maakt enerzijds bijvoorbeeld bedrijfsbeoordelingen, anderzijds getuigenverklaringen, hetzij voor het gerecht, hetzij als materiaal voor de historicus, zo moeilijk bruikbaar als variabelen (vgl. voor dit laatste b.v. gomperz 1939, 14, over ‘Authorities’). De enige oplossing is: onafhankelijke oordelen van verschillende personen, met verschillende belangen: bij bedrijfsbeoordelingen bijvoorbeeld: de directe chef, de personeelschef, en liefst de collega's (‘peer ratings’, vgl. b.v. tupes 1957, aangehaald in cronbach 1960, p. 523) en eventueel de ondergeschikten. Ook dan zijn bewuste of onbewuste ‘conspiraties’ - in de zin van gemeenschappelijke contaminaties - nog niet uitgesloten; en hetzelfde geldt voor het, overigens toch wel geruststellende geval, dat getuigen à charge en à décharge het eens zijn. Beoordelingsproblemen blijven weerbarstig, met hoeveel vaardigheid men ze ook aanpakt; beoordelingsvariabelen blijven dubieus. Het is echter onmogelijk ze te negeren of af te schaffen, wil men het studieveld van de gedrags-wetenschappen niet onnodig beperken door (te veel) relevantie te offeren aan de objectiviteit. Als men ze gebruikt, is het zaak de opzet van de beoordelingsprocedure te beschouwen als een experimentele opzet op zichzelf (vgl. 5;1), d.w.z. er even grondige aandacht aan te besteden. | |||||||||||||||
7;3;5 Paarsgewijze vergelijking als voorbeeld.Beoordelaars en beoordelingsprocedures zijn hier ingevoerd als substituut voor objectieve methoden om de waarde van een variabele te bepalen. Bij de bespreking van de criterium-variabele (7;3;1) hebben wij echter al opgemerkt, dat het soms niet te doen is om het (oordeel over) ‘hoe iets is’, maar om het oordeel zelf, dus om ‘hoe het subject iets vindt of voelt’. Experimenteel gaat het dan niet om een zo objectief (intersubjectief) mogelijk gebruik van beoordelingen voor een ander doel, maar om een zo objectief en adequaat mogelijke bepaling van het (subjectieve) oordeel | |||||||||||||||
[pagina 251]
| |||||||||||||||
zelf; of van een (subjectieve) opinie, waarneming, gevoelen, preferentie. Intersubjectiviteit is dan niet meer een voorwaarde, een criterium, maar een afzonderlijke vraag, die los van de bedoelde instrumentele realisering van het begrip staat. Met andere woorden: de in 7;3;3 ad 5) genoemde problemen zijn niet minder belangrijk, maar de ermee corresponderende eisen en methoden van instrument-constructie vervallen als zodanig. Het zal echter duidelijk zijn, dat de overige eisen voor een zuivere en objectieve bepaling van subjectieve variabelen even essentieel kunnen zijn. Dit betekent, dat veel van het hier over beoordelingsprocedures gezegde precies zo geldt voor experimentele instrumenten voor de bepaling van subjectieve waarnemings-, beoordelings-, gevoels-, opinie-, en preferentie-variabelen, zoals die, met name in de psychologie, worden bestudeerd en gebruikt. Het belang van het onderwerp is dus nog veel groter dan aanvankelijk werd gesteld. Het lijkt daarom nuttig nog iets nader in te gaan op de technische zijde van het probleem, en wel door als voorbeeld een belangrijke methode in het kort te beschrijven. Daarvoor is gekozen de methode van de paarsgewijze vergelijkingen (paired comparison). In feite is dit slechts een greep uit een groot aantal methoden voor het verzamelen van gedragsgegevens (c.q. beoordeling), die corresponderen met verschillende vraagstellingen. Het is echter wel een belangrijke methode, die bovendien het voordeel heeft te kunnen worden besproken aan de hand van ons voorbeeld, de beoordeling van ‘het getoonde begrip’ in de beantwoording, in essay-vorm, van een examenvraag. De methode van paarsgewijze vergelijking is, voor problemen van vergelijkende beoordeling (of waarneming, of preferentie, etc. - wij blijven echter gemakshalve van ‘beoordeling’ spreken), vaak in veel opzichten een goede oplossing. Zij reduceert de beoordelingstaak tot eenvoudige eenheden (zie ad 1), zij is zeer wel combineerbaar met eliminatie en concentratie, bijvoorbeeld met beoordeling per factor (b.v.1a; zie in 7;3;3 ad 2), en met variatie van volgorde en/of toepassing van consistentie-controles van gelijke strekking (zie ad 3). Zij belichaamt bovendien een vaak zeer acceptabel compromis tussen dwang en keuzevrijheid in de verdeling (zie ad 4). Tenslotte kunnen de constantie (c.q. betrouwbaarheid) van het oordeel en de intersubjectieve overeenstemming (c.q. inter-judge reliability) hierbij zeer goed en langs verschillende wegen empirisch worden bestudeerd. | |||||||||||||||
[pagina 252]
| |||||||||||||||
In de per-factor-vorm komt de kleinste taak-eenheid van de beoordelaar erop neer, dat hij voor een tweetal objecten (in ons voorbeeld: opstellen) moet aangeven welke van beide hij op een bepaalde factor (b.v.1a) ‘beter’ acht; of, in het algemeen, ‘meer X’, als X een adjectief is, dat het te beoordelen aspect of attribuut representeert. Meestal wordt wel dwingend voorgeschreven, dat voor ieder paar een keuze moet worden gedaan, om te vermijden, dat zich in de relatieve frequentie van de oordelen ‘geen uitspraak’ of ‘geen verschil’ (ties) weer individuele verschillen gaan uitdrukken. Maar dit is dan ook de enige dwang in een overigens natuurlijke, psychologisch verantwoorde, zo eenvoudig mogelijk gehouden procedure, die per beoordelingsdaad informatie oplevert van het type:1ai · >1aj - waarbij de beoordelaar eventueel zijn zekerheidsgraad mede aangeeft. Men verkrijgt op deze wijze een groot aantal gegevens. In feite is de omvang van een dergelijk programma vaak een (praktische) moeilijkheid. Moet iedere beoordelaar zich uitspreken over alle tweetallen, dan zijn dit reeds ½N (N - 1) beoordelingstaken; voor n beoordelaars wordt het aantal ½nN (N - 1); voor f factoren: ½nN (N - 1); met h herhalingen: ½hfnN(N - 1)-een getal dat gemakkelijk tot in het niet meer uitvoerbare respectievelijk het niet meer bewerkbare kan oplopen. Het is echter meestal wel mogelijk verstandige bezuinigingen aan te brengen, met name in het aantal herhalingen (vaak is h = 1 voldoende) en in het aantal twee-aan-twee-presentaties (vgl. b.v. torgerson 1960, hfdst. 9, 7; gulliksen 1956; gulliksen en tucker 1961). De kwestie van de volgorde (sequentie-effect, zie in 7;3;2 ad 3) laat zich binnen één serie gewoonlijk al redelijk adequaat oplossen voor wat betreft de presentatie van de afzonderlijke objecten: men geeft natuurlijk niet alle a1-vergelijkingen achter elkaar, maar verdeelt de presentatie van iedere a1 zo goed mogelijk over de reeks, hetzij door een systematische, hetzij door een randomiseringsprocedure. Een groot voordeel van paarsgewijze vergelijking en soortgelijke procedures is, dat men consistentie-, constantie- (betrouwbaarheids-) en intersubjectiviteits-kwesties in detail kan bestuderen. Inconsistentie blijkt bijvoorbeeld als een beoordelaar intransitief is:1al · >1aj;1aj · >1ak;1ak · >1al. Afwijkingen qua betrouwbaarheid (bij herhalingen) en qua intersubjectiviteit blijken in detail uit inversies: bijvoorbeeld eerste keer: 1al · >1aj; tweede keer:1al < ·1aj (en evenzo voor twee beoordelaars). De | |||||||||||||||
[pagina 253]
| |||||||||||||||
analyse van zulke gegevens laat zich in diverse richtingen voortzetten (vgl. o.a. coombs 1961). Natuurlijk is hiermee, in het geval van ons voorbeeld, nog niet de eindbeoordeling verkregen. Daartoe moet nog het probleem worden opgelost hoe al deze afzonderlijke gegevens moeten worden gecombineerd tot een eindscore: de variabele ‘getoond begrip’ (a). Allereerst zijn er prealabele vragen te beantwoorden: Hoe moeten de (eventueel) verkregen gegevens over de oordeels-zekerheid per twee-aan-twee-beoordeling in rekening worden gebracht? Hoe moeten inconsistenties per beoordelaar in de eindscore in rekening worden gebracht? Of anders gesteld: hoe moet men de verschillende, deels misschien intransitieve, deels niet constante eenheidsoordelen (1ai · >1aj) tot een score combineren? Is dit laatste probleem nog op te lossen zonder verder te gaan dan wat de gegevens aan informatie verstrekken (vgl. 7;2;4), namelijk door te blijven staan bij een partieel geordende schaal (als er inconsistenties zijn) en bij een rangorde (als er geen inconsistenties zijn), dit geldt niet voor de combinatie-vraag zelf: hoe moeten verschillende zulke schalen, voor verschillende beoordelaars en/of verschillende factoren (1a,2a,3a enz.) worden gecombineerd? Technisch zijn dit niet zulke moeilijke problemen, maar het zal duidelijk zijn, dat de oplossing ervan alleen mogelijk is - ook hier - met een zekere willekeur, of liever: door de invoering van zekere aannamen (7;2;4), bijvoorbeeld over de te combineren schalen, met betrekking tot de vaststelling van gewichten, en dgl. Een belangrijk voordeel van een gedifferentieerde methode als die van de paarsgewijze vergelijking is echter, dat de aannamen, die men wel moet invoeren, àls men tot samenvattende scores wil komen, stuk voor stuk expliciet kunnen worden gemaakt en kunnen worden overwogen. Het is mogelijk de in het materiaal aanwezige van de eraan ‘opgelegde’ informatie te onderscheiden. Overigens zal het hier aangesneden combinatieprobleem nog in ander verband ter tafel komen (o.a. in 8;4 en 9;3). | |||||||||||||||
7;3;6 Van expert naar formule.Keren wij terug naar de beoordelaar als (substituut-)instrument-dus nu uitdrukkelijk zonder generalisatie naar experimenteel-psychologische (subjectieve) variabelen. Uit het voorgaande zal duidelijk zijn geworden, dat pogingen tot vermindering van de subjectiviteit in beoordelingsprocedures vaak in de richting gaan van codering, omzetting in een formule, benadering van het | |||||||||||||||
[pagina 254]
| |||||||||||||||
‘machine-ideaal’ van objectiviteit (6;2;1). Voor velen is dit echter nauwelijks een ideaal, maar veeleer een afschrikwekkend toekomstbeeld. Het is afschrikwekkend niet alleen wegens het technisch-mathematische ‘ont-menselijkte’ karakter van objectieve wetenschapsbeoefening op deze manier, maar ook omdat het schijnt alsof de implicatie is, dat de expert, de geleerde, de man met het inzicht en het wijze oordeel op zijn speciale gebied overbodig wordt verklaard. De formule wordt als een bedreiging gevoeld - men vergelijke bijvoorbeeld de emotionele discussies over het onderwerp ‘clinical versus statistical prediction’ in de psychologie (sarbin 1944; meehl 1954; holt 1958; de groot 1961), en Sorokin's, reeds eerder genoemde, affectieve aanval op alles wat zweemt naar ‘social physics’ (sorokin 1956).Ga naar voetnoot1 Vanuit dit gezichtspunt is ook de gehele of gedeeltelijke vervanging van het oordeel van de expert door een ‘formule’, d.i. een objectieve operationele definitie, vaak onwelkom. Deze weerstand wordt gesteund door, en/of gerationaliseerd via de overtuiging, dat een ‘dode’, mechanische formule tóch het ‘levende’, uit begrip (Verstehen) geboren oordeel van de expert niet kan vervangen. Deze redenering berust echter op een misverstand. Bij de objectivering van beoordelings-procedures, inclusief het speciale geval waarin de beoordeling tot predictie moet leiden, wordt aan de expert niet zijn creativiteit ontnomen, maar er wordt een ander gebruik van gemaakt. De impliciete wegingen van factoren, de interpretaties, de intuïtieve hypothesen, die in zijn manier van oordelen besloten liggen, worden zo snel mogelijk en op een benaderende, vaak min of meer voorlopige manier omgezet in een ‘machine-programma’, in een formule. Aan deze formule zullen vele van de finesses van het expert-oordeel ongetwijfeld ontgaan - en in zoverre is een volledige vervanging ook onmogelijk - maar daar staan grote voordelen tegenover. De formule is inderdaad ‘dood’, maar daardoor ook betrouwbaar en constant, niet onderhevig aan fluctuaties, aan sequentie-effecten, wisselvallige wegingen, contaminaties van allerlei soort, waardoor de wetenschappelijke èn praktische bruikbaarheid van een ‘levende’ oordeels-variabele voortdurend wordt bedreigd. Op veel gebieden, het meest dramatisch misschien op dat van de predictie | |||||||||||||||
[pagina 255]
| |||||||||||||||
in de psychologie (vgl., behalve de reeds genoemde literatuur: willems 1959; van der giessen 1957; de groot 1960; barendregt 1961, dl. 1), is reeds gebleken, dat deze voordelen van de formule voor doeleinden van direct gebruik, hetzij voor toetsing hetzij voor op één doel gerichte toepassing, niet te onderschatten zijn. Voor zulke doeleinden is de expert op veel gebieden al vervangbaar gebleken. Maar daardoor komt zijn, zo kostbare, tijd vrij voor andere doeleinden, met name voor wat sarbin (op. cit., 1944) zijn eigenlijke taak heeft genoemd: de hypothesevorming. Ook opstelling en verbetering van formules, die oordeelsvariabelen - voorspellers, criteria, of conditie-variabelen, om het even - moeten vervangen, is als een onderdeel van de hypothesevorming te zien. Behalve zorgvuldig geëvalueerde uitkomsten van reeds verrichte onderzoekingen en een empirische analyse van de oordeelsvariabele in kwestie heeft men daarvoor de expert en zijn ideeën nodig. Aan de hand van een introspectieve analyse van zijn beoordelingsproces, gecombineerd met een empirisch-statistische analyse van de resultaten ervan - samenwerking van expert (c.q. clinicus) en statisticus - kan men trachten de gehanteerde normen en onderscheidingen in formule te brengen. Gebleken is, dat men dit soms ook, met succes, kan doen met de oordeelsvorming van een beoordelingscommissie (c.o.p. 1959, hfdst. 3). Formules, die zo ontstaan, zullen allicht de tekenen van hun tentatieve ontstaanswijze dragen: zij zullen vaak een semi-intuïtief karakter dragen (de groot 1955) en er theoretisch niet ‘fraai’ uitzien. Qua instrumentele realisering van een begrip hebben zij echter, behalve de reeds besproken voordelen van objectiviteit en grotere betrouwbaarheid, de belangrijke kwaliteit dat zij doorzichtig zijn: men kan precies nagaan wat er met de primaire gegevens gebeurt. Zijn zij theoretisch niet fraai, dan kan men er open kritiek op leveren en verbeterings-voorstellen doen - wat bij het, ondoorzichtige, expert-oordeel niet mogelijk is. Het ziet er naar uit, dat de ontwikkeling op veel terreinen in de sociale wetenschappen deze richting op gaat en moet gaan: van expert naar formule. De expert wordt door deze ontwikkeling niet ‘onttroond’. Integendeel, bij de objectivering van zijn oordeels- en interpretatieprocessen wordt, wat hij te geven heeft - ideeën in de eerste plaats - telkens weer systematisch produktief gemaakt ten behoeve van de instrumentele realisering van begrippen en de constructie van betere formules, methoden en hypothesen. |
|