Methodologie
(1961)–A.D. de Groot– Auteursrechtelijk beschermd8;4 Interne efficiëntie en scoring8;4;1 Interne efficiëntie.Als men een synoniem zoekt voor de term ‘efficiënt’ komt men, afgezien van het op dezelfde stam gebaseerde ‘effectief’, terecht bij woorden als ‘doelmatig’ of misschien ‘doeltreffend’. Zij dekken niet geheel dezelfde lading, maar hebben het voordeel te verwijzen naar een ‘doel’, dat klaarblijkelijk wordt voorondersteld. Het begrip ‘efficiëntie’ staat dan voor het streven naar een | |
[pagina 298]
| |
maximaal effect, met betrekking tot dat gegeven doel, bij minimale kosten of minimale inspanning. In overeenstemming hiermee gaat het bij een analyse van de ‘interne efficiëntie van een instrument’ om de vraag in hoeverre de interne structuur ervan, in verband met het onderzoek-doel, economisch en effectief is uitgevoerd. Vooral in de constructie-fase van een instrumentGa naar voetnoot1 is de interne efficiëntie ervan een belangrijk gezichtspunt. Wat het doel, respectievelijk het gewenste effect betreft, gaat het om de operationele bepaling van een empirische variabele met een optimale validiteit ten opzichte van het begrip-zoals-bedoeld (8; 2), en een optimale nauwkeurigheid en stabiliteit (betrouwbaarheid, 8; 3). Er wordt hier uitdrukkelijk - en dit is typisch voor efficiëntie-problemen-van ‘optimaal’ en niet van ‘maximaal’ gesproken. Dit optimum heeft betrekking op het in verband met het onderzoek-doel meest wenselijke evenwicht tussen effect en kosten (of inspanning): erònder is het effect te gering, erboven worden de kosten te hoog om acceptabel te zijn. Een eenvoudig voorbeeld is dat van de optimale lengte van een test, of van het optimale aantal herhalingen van een meting (vgl. 8;3;3), indien dit naar willekeur kan worden geregeld. Voert men de testlengte of het aantal herhalingen op, dan is het gewoonlijk mogelijk de meetbetrouwbaarheid te verhogen (gulliksen 1950, hfdst. 8); maar de test kan ook te lang worden, d.i. te veel tijd gaan ‘kosten’ om nog bruikbaar te zijn. Wat de kosten betreft, deze kunnen van verschillende aard zijn: enerzijds vervaardigingskosten (research, ontwikkelingGa naar voetnoot2, produktie), anderzijds gebruikskosten (benodigd personeel, materiaal, tijdsduur). De grote diversiteit van mogelijke doelstellingen van, en fondsen en faciliteiten voor onderzoekingen maakt het moeilijk hierover in het algemeen iets te zeggen - behalve, dat het kosten-gezichtspunt belangrijk is, en dat het helaas dikwijls wordt verwaarloosd of kortzichtig en irrationeel wordt gehanteerd.Ga naar voetnoot3 Het zal duidelijk zijn, dat de vraag naar de efficiëntie, en dus | |
[pagina 299]
| |
mede naar de kosten, met betrekking tot ieder onderdeel van de interne structuur kan worden gesteld en van betekenis kan zijn: objectieve of subjectieve methoden (de kosten van beoordelings-procedures), bij gedragsvariabelen: individueel of collectief, mondeling of schriftelijk onderzoek, de instructie, de formulering van de vragen, eventueel de lay-out van een formulier, de scorings- en berekenings-procedures, de tijd, die voor onderzoekers, en eventueel proefleiders, bewerkers en, niet te vergeten, proefpersonen met het onderzoek gemoeid is, enz. Voor de meeste van deze problemen behoeven de gangbare technieken echter niet in dit boek te worden besproken. Gegeven het efficiëntie-gezichtspunt bestaan zij deels uit geperfectioneerd gezond verstand, anderdeels uit technische details, die alleen voor de constructeurs van bepaalde typen instrumenten van belang zijn. | |
8;4;2 Interne consistentie.Wij willen hier alleen met een enkel woord ingaan op één groep van interne efficiëntie-vraagstukken, namelijk die, welke betrekking hebben op de efficiëntie van het samenspel van verschillende onderdelen (items, subscores, subvariabelen) van een instrument. Deze vraagstelling is natuurlijk alleen van belang bij instrumenten, waarin er verschillende onderdelen of itemsGa naar voetnoot1 zijn. Deze leveren dan elk | |
[pagina 300]
| |
empirische ‘antwoorden’ op (al dan niet van personen, vgl. 7;1;2), die voor de bepaling van de waarde van de variabele op de één of andere wijze moeten worden gecombineerd, bijeengenomen. Wij hebben hiermee dus niet te maken bij variabelen, waarop de waarde (c.q. score) een enkelvoudig qualitatief antwoord, een enkelvoudige hoeveelheid of een aantal identieke eenheden is. Bij nominale schalen (classificaties), bijvoorbeeld naar sexe of beroep of bedrijfstak, doet het zich zelden voor; hoewel ook hierbij soms meer ingewikkelde beslissings- of determineertabellen worden gebruikt (b.v. voor een plantensoort naar kenmerken, of voor een ziekte-diagnose naar symptomen), waarbij wel degelijk naar de efficiëntie van het samenspel van de onderdelen kan worden gevraagd. Voorbeelden van niet-nominale variabelen zònder ‘onderdelen’ in onze zin: de tijd nodig voor het verrichten van een omschreven taak of voor het verloop van een proces; de hoeveelheid afgescheiden speeksel van een Pavlov-hond (pavlov 1927). Is er sprake van een aantal, dan zijn er natuurlijk wel onderdelen, maar als deze voor alle relevante interpretaties als identiek kunnen worden beschouwd, heeft het weinig zin naar het samenspel ertussen te vragen - bijvoorbeeld het aantal stippen, dat een proefpersoon in 10 seconden op een papier kan zetten. Gezien het grote belang van uit niet-identieke onderdelen of items bestaande meet-instrumenten, is de vraag naar het ‘samenspel’ daartussen echter wel enige speciale aandacht waard. Wij noemen het zojuist aan de orde gestelde vraagstuk dat van de optimaal-efnciënte item-samenstelling, of korter: dat van de interne consistentie van een instrument. In feite is dit niet één vraagstuk, maar veeleer een complex en uitgebreid probleemgebied. De methoden van consistentie-analyse en van consistentie-beleid bij de constructie van instrumenten variëren namelijk sterk naar gelang van de aard van het begrip-zoals-bedoeld en in verband daarmee, naar gelang van het meetmodel, waarmee wordt gewerkt. Er bestaan op verschillende gebiedenen voor allerlei speciale gevallen aparte werkwijzen, met eigen normen, empirische constructie-voorschriften, statistische analyse-methoden, consistentie-parameters, etc, die hier niet kunnen worden besproken. Wij zullen ons beperken tot een aanduiding van enkele van de belangrijkste algemene problemen, onderscheidingen en werkwijzen. Allereerst is het van belang twee hoofdvormen te onderscheiden voor het combineren van item-resultaten tot een eindwaarde. Zij representeren | |
[pagina 301]
| |
twee fundamentele principes van alle vormen van ‘meten’ in de praktijk en in de wetenschap, twee rudimentaire meetmodellen, zo men wil: het tellen van aantallen en het afmeten van hoeveelheden tegen standaarden (vgl. cohen en nagel 1934, hfdst. 15). In overeenstemming hiermee kunnen wij onderscheiden tussen tweeërlei eindscores: aritmetische of optelscores en geometrische of afmeetscores. Zij komen hierin overeen, dat tenminste een ordinale schaal wordt verondersteld: het te meten attribuut moet ‘ééndimensionaal gradeerbaar’ zijn (hempel en oppenheim 1936). Bij een optelscore is de eindscore eenvoudig de som, eventueel de gewogen som van item-scores: de items worden als eenheden geteld. Bij een afmeet-score wordt de plaats van het meetobject op de schaal bepaald door het te vergelijken met de schaalwaarden van verschillende items, die dus meetpunten op de schaal markeren. Bij een optelscore is ‘ieder item er één’, zij worden, afgezien van weging, als gelijkwaardig behandeld en meegeteld; bij een afmeetscore representeert ieder item een bepaalde graad van het te meten attribuut. De aritmetische opvatting van eindscores is kenmerkend voor de klassieke, predictief georiënteerde, quantitatieve test-theorie (psychometrie, zie bijvoorbeeld gulliksen 1950). De geometrische opvatting is voornamelijk uitgewerkt aan de psychofysica en, later aan het attitude-onderzoek - beide primair op meting gericht. Daaruit zijn de moderne theorieën van schaal-constructie en meting voortgekomen (scaling, theory of measurement, zie torgerson 1960; vgl. ook coombs 1953, 1956). Deze twee methoden van score-bepaling zijn niet de enig mogelijke. Ook sluiten de modellen elkaar niet uit: men kan vaak een gegeven score op beide manieren opvatten. Voor de normen en methoden van de interne consistentie-analyse maakt het echter verschil met welk van beide typen wij te doen (willen) hebben. In het volgende zullen wij ons in hoofdzaak tot het optel-type beperken. Het maakt ook verschil of we met een voorspellend of met een metend instrument te doen hebben. Dit onderscheid loopt vaak parallel met dat tussen optel- en afmeet-scores, maar dit is allerminst noodzakelijk. In beide gevallen is een noodzakelijk onderdeel van de consistentie-analyse het onderzoek naar de bijdrage van ieder item afzonderlijk tot het doel (item-analyse), met behulp van welk onderzoek men tot een geschikte keuze (item-selectie), tot een efficiënte item-samenstelling van het instrument wil komen. Maar er is verschil in methode. | |
[pagina 302]
| |
In het geval van een voorspellend instrument heeft men het voordeel over een empirische maatstaf voor de evaluatie van item-bijdragen te beschikken: de correlatie met het criterium of de criteria. Men gaat in een steekproef-onderzoek per item na, ten eerste of het differentieert, ten tweede of het in zijn bijdrage tot de totaal-score de validiteit verhoogt. De item-differentiatie wordt bij een onderdeel, dat dichotoom wordt gescoord (b.v. 0 of 1), geheel bepaald door wat bij prestatie-variabelen gewoonlijk de item-moeilijkheid wordt genoemd: de fractie 0-scores in het totaal van de populatie (dus de kans op een 0-score); die met behulp van de onderzoek-steekproef kan worden geschat. Is de item-differentiatie in de steekproef gelijk 0 of te gering om er betrouwbare criterium-onderscheidingen van te verwachten, dan wordt het item uit het instrument verwijderd. Hetzelfde geldt, althans bij een optel-score met uitsluitend positieve gewichten, indien de item-validiteit gelijk 0 of te klein is. Maar ook items met een redelijke differentiatie en validiteit kunnen niet-efficiënt zijn en dus beter worden weggelaten, namelijk wanneer bij correlatie-analyse van de items onderling en in combinatie met het criterium blijkt, dat hun opname de validiteit van de totaalscore niet meer kan verhogen. Uitzonderingen op deze hoofdregels voor het consistentie-beleid bij een voorspellend instrument kunnen zich voordoen, wanneer handhaving van items weliswaar niet de (steekproefwaarde van de) validiteit blijkt te verhogen maar wel de betrouwbaarheid - aangenomen, dat een dergelijke verhoging (nog) wenselijk is. Bij gedragsvariabelen worden soms ook niet-differentiërende items, zelfs met een (steekproef-)moeilijkheid gelijk 0, om psychologische redenen gehandhaafd: bijvoorbeeld om de proefpersoon op gang te helpen. Het zal de lezer waarschijnlijk al zijn opgevallen, dat in dit uiterst beknopt en eenvoudig gehouden overzicht van de gang van zaken bij de consistentie- en item-analyse van een predictief instrument, telkens restricties moesten worden ingevoegd. Behalve de vooraf aangegeven beperking tot optelscores en voorspeller-variabelen, kwamen in de vorige alinea de volgende restricties voor: ‘bij een item, dat dichotoom wordt gescoord’, ‘bij prestatie-variabelen’, ‘bij een optelscore met uitsluitend positieve gewichten’, ‘bij gedragsvariabelen’. Ieder van deze restricties verwijst naar andere mogelijkheden, die andere problemen stellen waarvoor andere technische oplossingen bestaan. Hopelijk wordt door deze | |
[pagina 303]
| |
presentatie bereikt, dat de tekst niet alleen een indruk geeft van het type overwegingen, dat bij de analyse van de interne consistentie van een instrument optreedt, maar ook van de talrijke vertakkingen en technische sub-problemen op dit gebied. De consistentie-problematiek van metende instrumenten vertoont dit beeld van differentiatie in sub-problemen in nog sterkere mate. Van de hierboven genoemde item-parameters valt de validiteit nu uit, maar men kan wel werken met de item-differentiatie en/of -moeilijkheid en met diverse maatstaven voor de intercorrelaties tussen de items en hun combinaties. Soms is het van belang, dat het instrument scherp en zuiver (betrouwbaar) meet; dat is te bereiken door alleen gelijkgerichte items op te nemen, die praktisch hetzelfde meten, dus hoge onderlinge correlaties vertonen. Bij afmeetscores - meestal wordt van schalen gesproken - wordt zelfs wel de eis gesteld, dat de item-item-correlaties, afgezien van toevalsfluctuaties, gelijk 1 moeten zijn (guttmann 1950). Optelscores, die uit een groot aantal items zijn samengesteld, kunnen grotere fluctuaties verdragen - men neemt aan, dat deze elkaar opheffen - zodat hier gewoonlijk minder krasse eisen worden gesteld, óók als men een homogeen instrument wil construeren. Voor de empirische analyse van de homogeneïteit voert men dikwijls als item-parameter in de item-homogeneïteit of item-rest-correlatie, d.i. de correlatie van een onderdeel met de totale (optel-)score verminderd met die van het item zelf. Wenst men een zuiver en scherp meet-instrument, dan zijn relatief hoge item-homogeneïteiten gewenst; items, die niet aan deze eis voldoen worden verwijderd.Ga naar voetnoot1 Hoge item-homogeneïteiten zijn niet altijd gewenst: alles hangt af van het meet-(of voorspellings-)doel. Wil men bijvoorbeeld een algemeen, hypothetisch persoonlijkheidsattribuut instrumenteel realiseren, waarvan wordt aangenomen dat het zich uitdrukt in uiteenlopende gedragsverschijnselen, dan leidt meting van dit attribuut via zulke gedrags- | |
[pagina 304]
| |
verschijnselen - b.v. antwoorden op keuzevragen in een extraversie-introversie-vragenlijst (zie b.v. eysenck 1956) - ipso facto tot relatief lage homogeneïteiten. Wel wordt uiteraard geëist, dat het begrip-zoalsbedoeld goed doordacht en theoretisch aanvaardbaar is. Helen Peak drukt dit voor gedragsvariabelen uit door te zeggen, dat achter de gedragsverschijnselen een ‘functionele eenheid’ wordt verondersteld (peak 1953). Wij zouden liever zeggen, dat er altijd een theoretisch en empirisch aanvaardbare hypothese moet zijn over wat er achter de verschijnselen ligt. Deze hoeft, zeker bij niet-gedragsvariabelen, niet altijd ‘functioneel’ te zijn; men denke bijvoorbeeld aan meting van de zwaarte van een taak, of van de levensstandaard, of aan de voorspelling van ‘succes’ op één of ander gebied. Van deze hypothese, belichaamd in een meer of minder hypothetisch begrip (2;3;6), hangt dan af hoe de consistentie-eisen zullen worden gesteld. Vaak is een minimum-eis, dat de item-homogeneïteiten tenminste niet negatief mogen zijn - maar ook dit gaat, zeker voor predictieve instrumenten, niet altijd op.Ga naar voetnoot1 Consistentie-analyse kan in de constructie- of reconstructiefase, bij alle soorten scores en schalen, ook aanleiding geven tot andere beslissingen dan die van het verwijderen van afzonderlijke, niet-passende items. Met het oog op het onderzoek van de structuur van de batterij van onderdelen (items) wordt soms, evenals bij batterijen van (test-)variabelen gebruikelijk is, het tableau van alle item-item-correlaties aan een passende vorm van correlatie-analyse, c.q. factor-analyse onderworpen. Vindt men dan niet één sterke algemene factor, maar bijvoorbeeld één of meer subgroepen van items, die sterk met elkaar maar weinig met de overige correleren, dan kan dit aanleiding geven tot correctie-maatregelen van verschillende aard. Men kan bepaalde subgroepen verwijderen, dus het instrument homogeniseren; men kan een nieuwe, meer adequaat geachte ‘maat voor het te meten attribuut’ opstellen (bijvoorbeeld een optel-score niet van alle items, maar alleen van de beste) en daaraan opnieuw de overblijvende onderdelen (items) op hun bruikbaarheid toetsen door ze ermee te correleren. Men kan ook in de uitkomsten aanleiding vinden om de oorspronkelijke variabele als meer-dimensionaal te beschouwen en daarom, | |
[pagina 305]
| |
op basis van de gevonden subgroepen, voortaan verschillende scores bepalen, die als aparte variabelen worden gebruikt. Anders uitgedrukt: wanneer bij consistentie-analyse blijkt, dat het instrument niet-efficiënt gericht is doordat er twee of meer doelen (dimensies) door elkaar lopen, dan kan de beste oplossing zijn in plaats van één, verschillende instrumenten te construeren. Men vergelijke de ontwikkeling - in factoren - van de instrumentele realisering van ‘intelligentie’ of ‘algemene verstandelijke begaafdheid’ (vgl. b.v. spearman 1926, 1950; thurstone 1938; french 1951). Tenslotte kan men trachten een deel van de moeilijkheden, die bij de consistentie-analyse aan de dag treden, op te lossen niet door de item-samenstelling te veranderen, maar door een andere methode van scoring (c.q. weging van onderdelen) toe te passen. De vraag naar een efficiënte scoring heeft echter zoveel en zulke belangrijke eigen aspecten, dat deze een aparte behandeling waard is. | |
8;4;3 Problemen van scoring en schaalconstructie.Ook dit onderwerp is zo nauw verbonden met fundamentele onderscheidingen naar doelstelling (begrip-zoals-bedoeld) en naar meetmodel, en daar-door zo vertakt, dat hier alleen een idee kan worden gegeven van het type problemen waar het om gaat.Ga naar voetnoot1 Relatief het eenvoudigst is weer het geval van predictieve instrumenten met duidelijke validiteitscriteria. Ten eerste is er bij zuivere voorspellers, waarbij dus dat, wat door de variabele zelf gemeten wordt, ons minder interesseert, gewoonlijk minder aanleiding om met meer verfijnde of meer ingewikkelde modellen te werken dan dat van de optelscore. Ten tweede is, àls wij met een optelscore werken, voor de problemen van onderdeel-(of item-)scoring en -weging in principe een optimale oplossing te vinden door empirisch validiteits-onderzoek en regressie-analyse (multipele correlatie). Men stelt de item-scoring en -weging zó vast, dat zij, volgens verwachtingen gebaseerd op steekproefonderzoek, maximaal tot de validiteit van de totaal-score bijdragen. In de praktijk zijn er natuurlijk van geval tot geval nog vele problemen op te lossen, maar de meeste hiervan zijn van technische aard en behoeven hier niet te worden besproken. | |
[pagina 306]
| |
Een principieel probleem, dat aparte vermelding verdient, is dat van de aanvaardbaarheid van negatieve gewichten. Men kan bij de analyse van een voorspellings-instrument of van een voorspellings-batterij van variabelen vinden, dat bepaalde sub-variabelen of variabelen wel kunnen bijdragen tot de totale validiteit, maar dan met een negatief gewicht; men kan zelfs bewust zoeken naar suppressor-variabelen. De vraag is of dit een acceptabele procedure is. Dit is dikwijls niet zozeer een efficiëntievraag als wel een ethisch probleem, dat bijvoorbeeld in de toegepaste psychologie aan de orde komt bij selectie-vraagstukken: mag men de proefpersoon zijn best laten doen om naar zijn gevoelen een goede beurt te maken, om vervolgens zijn score voor de selectie negatief te gebruiken? Dezelfde vraag kan zich soms bij metende gedragsvariabelen voordoen, voor zover van het resultaat een maatschappelijk relevante beoordeling van de proefpersoon afhangt. Wij volstaan ermee dit probleem te signaleren. Het is bij metende instrumenten slechts hoogst zelden van belang, aangezien de gangbare eis van tenminste niet-negatieve item-homo-geneïteiten - zij moeten ‘hetzelfde meten’ - het voorkomen van negatieve gewichten reeds vrijwel uitsluit. Is een instrument voor meting van een begrip bedoeld, en niet voor voorspelling van iets anders, dan hebben scorings-decisies, evenals de hierboven besproken beslissingen van item-selectie (8;4;2), in sterke mate een definitorisch karakter. Men construeert een schaal voor een variabele, die een begrip adequaat moet definiëren. Doordat de predictieve validiteits-parameters uitvallen, of althans geen beslissende betekenis meer hebben, moeten de normen en methoden voor consistentie-analyse en scoring primair berusten op meer complexe overwegingen van begrips-validiteit (A) enerzijds, en op principiële beslissingen over het te gebruiken meet-model (B) anderzijds. Wij geven van elk een voorbeeld - opnieuw met geen andere pretentie dan het type problemen te illustreren.
A. Voor een demonstratie van de betekenis van overwegingen van begripsvaliditeit keren wij terug tot een eerder besproken voorbeeld: de constructie van een test voor ‘inzicht in meetkunde’ (vgl. 6;2;3). Dit is een typische criterium-variabele; het gaat niet om voorspelling van iets anders, maar om een objectieve en gedifferentieerde meting van een verworven bekwaamheid. Doordat het instrumenteel te realiseren begrip wel van praktische, maar niet zozeer van algemeen-psychologische | |
[pagina 307]
| |
theoretische betekenis is, behoeven wij ons niet al te zeer te bekommeren over de principiële kanten van het te bezigen meetmodel: een praktisch acceptabele, ordinaal op te vatten eindscore van het arithmetische type (optel-score) is voldoende. Hoofdzaak is, dat keuze, scoring en weging van testvragen ‘verantwoord’ zijn in verband met het begrip-zoalsbedoeld. Wij weten reeds (6;2;2), dat hiervoor allereerst een operationeel gerichte en empirisch gecontroleerde analyse van het doel (het bedoelde begrip) nodig is. Laten wij aannemen, dat het probleem van de keuze van de typen vragen, die in de test zullen worden opgenomen, opgelost is, zodat alleen de problemen van scoring (per item) en van afweging overblijven. Een moeilijkheid hierbij is, dat men verschillende overwegingen kan, en moet, laten gelden. Men kan ten eerste stellen, dat wat belangrijk is, zwaarder moet wegen dan wat relatief onbelangrijk is; ten tweede, dat wat moeilijk is met meer punten moet worden beloond dan wat gemakkelijk is; ten derde, dat wat bewerkelijk is meer moet opleveren dan dat wat weinig tijd en inspanning kost. Nu is ‘belangrijkheid’ zelf reeds bijna geheel een kwestie van beoordeling a priori. Weliswaar kan men ook hierbij empirisch te werk gaan door meningen van experts te verzamelen - maar dan is opnieuw ‘keuze’ en ‘weging’, nu van expert-oordelen, een probleem, dat alleen met behulp van een omschreven doel-opvatting kan worden opgelost. Men moet zich over verschillende onderdelen en over de test als geheel een oordeel vormen, in verband met het begrip-zoals-bedoeld (inhouds-validiteit). ‘Moeilijkheid’ is empirisch te controleren, eerst in de zin van item-differentiatie, vervolgens van qualitatieve item-analyse, speciaal analyse van fouten; ‘bewerkelijkheid’ is in termen van hoeveelheid benodigde tijd empirisch na te gaan - maar de afweging van deze beide tegen elkaar en tegen ‘belangrijkheid’ is opnieuw een zaak van begrips-inhoud en -validiteit. Empirische gegevens, zoals opvattingen van anderen, vergelijkingen c.q. correlaties met andere instrumenten met een soortgelijk doel, differentiatie- en homogeneïteits-uitkomsten, kunnen in het constructie-proces goede diensten bewijzen; de eigenlijke beslissingen zullen echter mede op kwalitatieve, in feite theoretische, van het (hypothetische) begrip uitgaande overwegingen moeten steunen. Het feit, dat de te nemen scorings- en wegings-beslissingen een definitorisch karakter hebben, heeft onvermijdelijkerwijze ten gevolge, | |
[pagina 308]
| |
dat er een moment van willekeur bij in het spel is. Vandaar, dat men veelal de eenvoudigste oplossing prefereert: optellen ‘zonder’ gewichten, d.w.z. met het gewicht 1 voor ieder item. Behalve dat deze oplossing de minste scorings-moeite kost, is zij ook te rechtvaardigen door het feit, dat items, binnen zekere grenzen, zichzelf wegen. Men kan namelijk een ‘goed’ item definiëren als een item, dat (a) goed differentieert, dus niet te gemakkelijk en niet te moeilijk is, en (b) goed correleert met een aanvaardbare maat voor wat men wil meten. Nemen wij nu aan, dat de totaalscore op de test een dergelijke aanvaardbare maat is, dan zijn van een ‘goed’ item de item-differentiatie en de item-homogeneïteit beide hoger dan van minder goede items - maar een dergelijk goed item heeft, ook zonder extra-weging, meer invloed op (de variantie van) de totaal-score.Ga naar voetnoot1 Deze redenering vermindert de zwaarte van het probleem van een verantwoorde scoring en weging enigszins - al lost zij het niet op. Een risico van gelijke scoring van niet even moeilijke (of ‘belangrijke’ of ‘bewerkelijke’) onderdelen is, dat het kan voorkomen dat proefpersoon A door K + 1 relatief gemakkelijke vragen goed te beantwoorden ten onrechte een hogere eindscore behaalt dan proefpersoon B, die zich met succes op K moeilijker vragen heeft toegelegd. Ook dit is als een principieel meet-probleem voor optel-scores te formuleren: Mag men deze mogelijkheid toelaten? Zo niet, dan is aan te tonen, dat de ‘bijdragen’ van gelijk gescoorde items tot wat men wil meten (of voorspellen) nagenoeg ‘gelijk’ moeten zijn - volgens daarvoor op te stellen empirische criteria (item-parameters). In het geval van ons voorbeeld zijn er intussen ook tegen dit effect zekere ‘natuurlijke’ compensaties: àls de proefpersoon (a) over een zekere algemene ‘test-sophistication’ beschikt en (b) de toe te passen scoring kent, kan hij immers zelf de meest efficiënte weg naar een zo hoog mogelijke eindscore vinden. Hieruit is, voor prestatie-variabelen en voor zekere andere gedragsvariabelen, opnieuw een pleidooi af te leiden voor eenvoudige, doorzichtige scoring - zó als de proefpersoon deze verwacht - en, indien er scorings-bijzonderheden zijn, een pleidooi voor een instructie, waarin deze bijzonderheden uitdrukkelijk worden meegedeeld. | |
[pagina 309]
| |
B. Enig, zij het een zeer onvolledig idee van de consistentie- en scorings-problemen in hun afhankelijkheid van het gekozen meet-model kan het volgende, ietwat kunstmatige voorbeeld geven. Stel, dat wij een schaal willen construeren voor de mate van ‘gunstigheid’ van eigenschapsbegrippen. Met behulp daarvan willen we dus, bijvoorbeeld, kunnen meten hoe proefpersoon P begrip B evalueert (b.v. ‘idealistisch’ of ‘zuinig’). Natuurlijk bepaalt ook hier het begrip ‘gunstigheid’, zoals bedoeld in een gegeven onderzoek-context, in belangrijke mate welke beslissingen over de experimentele methode, het te bezigen meetmodel, de schaal-constructie, de scoring - kortom over de operationele definitie - moeten worden genomen. Een belangrijk verschil is bijvoorbeeld, of wij in een subjectieve of in een inter-subjectief bruikbare schaal geïnteresseerd zijn. Laten wij beginnen met een subjectieve schaal. Zijn wij alleen geinteresseerd in de vraag of een begrip voor een proefpersoon een over-wegend positieve of een overwegend negatieve klank heeft, dan kunnen wij hemzelf ieder begrip laten indelen in één van de twee categorieën: ‘meer gunstig dan ongunstig’, of ‘meer ongunstig dan gunstig’. Moet er ook een derde, tussen categorie zijn voor begrippen, die ‘neutraal’ worden geacht? Dit is reeds een primitief voorbeeld van een beslissings-vraag ten aanzien van het meetmodel. De beslissing hangt onder meer af van de aannamen over het beoordelingsproces. Wordt dit als een kans-proces opgevat, dan betekent ‘neutraal’ alleen maar, dat de kans op een beoordeling ‘gunstig’ gelijk 0,5 is - en dan is er geen bezwaar tegen de categorie neutraal weg te laten, c.q. te verbieden. Wordt de beoordeling als een deterministisch proces gezien, waarbij de proefpersoon zelf uitdrukkelijk tenminste van een gevestigde trichotomie uitgaat (die eventueel door systematische factoren kan worden gestoord) dan moet er uit overwegingen van isomorphie (7;2;4) een categorie neutraal zijn.Ga naar voetnoot1 | |
[pagina 310]
| |
Men kan ook meer gedifferentieerde gegevens trachten te verkrijgen, bijvoorbeeld door de proefpersoon iedere eigenschap op een grafische schattingsschaal te laten aangeven - een lijn met als eindpunten ‘zeer gunstig’ en ‘zeer ongunstig’, waarop een kruisje moet worden geplaatst. Moet er op een dergelijke lijn een indeling worden aangebracht zoals bijvoorbeeld bij de methode van de semantische differentiaal (osgood, suci en tannenbaum 1957)? Moet er een neutraal (midden-)punt zijn; of een ‘neutrale zone’? En als men een punt of zone van neutraliteit ten opzichte van de scala gunstig-ongunstig opneemt, mag men dan aannemen, dat de ligging van de kruisjes ten opzichte hiervan intersubjectief kan worden geïnterpreteerd? Anders gesteld: is een trichotomie gunstigneutraal-ongunstig bruikbaar als intersubjectieve schaal? De beslissing hangt af van: wat men op het oog heeft, van welke definitie van gunstigongunstig men wil uitgaan, welke processen men veronderstelt, welke (werk-)hypothesen men heeft over wat men eigenlijk meent te meten. Natuurlijk zijn dergelijke beslissingen ook afhankelijk van, bijvoorbeeld, empirische uitkomsten op een onderzoek naar de intersubjectieve over-eenkomst tussen verkregen antwoorden, maar het zou een misverstand zijn te menen, dat de empirie zonder een leidende gedachte alle antwoorden kan geven. Men kan verder vragen: Is het verantwoord conclusies te trekken over verschillen in graad van ‘gunstigheid’ tussen verschillende begrippen, ook als de kruisjes aan dezelfde kant van het neutrale punt liggen? Dit lijkt eenvoudig een kwestie van de betrouwbaarheid van de plaatsing van een kruisje voor een begrip, dat empirisch te controleren is. Maar een prealabele vraag - weer: over het meetmodel - is, of het wel zin heeft afwijkingen bij herhalingen probabilistisch, als toevals-fluctuaties te interpreteren. Misschien doet men beter systematische situatie-(b.v. context- of sequentie-)effecten te veronderstellen, of de mogelijkheid open te laten van meer-dimensionaliteit van het gunstig-ongunstig-continuüm (b.v. moreel versus prestatie-oordeel: ‘betrouwbaar’ en ‘intelligent’ zijn beide gunstig). Wil men de plaats van verschillende eigenschaps-begrippen vergelijken, dan ligt het overigens meer voor de hand dit door de proefpersoon direct | |
[pagina 311]
| |
te laten doen en dus een ordinale schaal op te bouwen, waarin een bepaald begrip zijn plaats krijgt. Doet men dit door middel van paarsgewijze vergelijkingen (7;3;5) of een soortgelijke methode dan komen consistentie-, schaalconstructie- en scorings-problemen aan de orde - op te lossen naar gelang van het meetmodel, waarmee men opereert. Wat doet men bijvoorbeeld met optredende intransitiviteiten of inversies bij herhalingen? Men kàn ze - beslissing op grond van een meettheorie, die slechts gedeeltelijk aan empirische consistentie-gegevens te toetsen is - opvatten als toevallige fouten. Men behoeft dit echter niet te doen; een alternatief is naar systematiek in de intransitiviteiten te zoeken, aanwijzingen voor meer-dimensionaliteit te zoeken, of te trachten door variatie van de experimentele condities systematisch factoren op te sporen, waarvan het gunstigheids-oordeel afhangt. Doet men het wel, dan wordt een afstands-interpretatie mogelijk: bij ‘dicht bij elkaar liggende’ begrippen zullen vaker inversies en intransitiviteiten optreden dan bij verder uiteenliggende. Omgekeerd: hoe meer intransitiviteiten en inversies ten opzichte van twee begrippen, hoe geringer hun onderlinge afstand moet zijn. Men kan dus aan zulke consistentie-bevindingen afstandsconclusies verbinden, en daarmee de schaal tot een sterker type ontwikkelen (b.v. via de methode van de ‘kleinst waarneembare verschillen’ of andere schaalconstructie-werkwijzen; vgl. torgerson 1960). Men kan ook een geometrische schaal met vaste, van gunstig naar ongunstig gespreide meetpunten ontwikkelen, waarmee dan ieder nieuw eigenschapsbegrip wordt vergeleken. Streeft men naar een ‘perfecte’ schaal (guttmann 1941), dan zou dit hier moeten betekenen: een schaal van een reeks opklimmend-gunstige eigenschaps-begrippen (items), waarvan de rangorde, bij één proefpersoon nog steeds, bij een aantal herhalingen - eventueel onder verschillende condities - steeds hetzelfde blijft. Tussen schaal-begrippen, die daartoe uit de oorspronkelijke, grotere verzameling begrippen zijn geselecteerd, mogen zich dan geen intransitiviteiten of inversies voordoen. Omgekeerd echter tracht men de schaal-differentiatie op te voeren, teneinde nauwkeurig te kunnen meten (8;2;1). De kritische vraag is hoeveel klassen men zonder inversies en intransitiviteiten kan construeren. Dikwijls neemt men in dergelijke gevallen een zekere geringe mate van empirische inconsistentie op de koop toe, om niet te grof te hoeven werken. Vraag: Hoeveel fouten-invloed is aanvaardbaar? Piealabele vraag, opnieuw: Is een probabilistische opvatting adequaat? | |
[pagina 312]
| |
En verder: Als men telkens tussen twee opvolgende items eenzelfde fouten-marge aanhoudt, mag men dan ‘gelijke afstanden’ tussen de meetpunten aannemen? Enz. Voor de opstelling van een schaal voor intersubjectief gebruik liggen de problemen geheel analoog. Wil men hier een ‘perfecte schaal’, dan moet de item-rangorde invariant zijn voor verwisseling van proefpersonen - een ongetwijfeld nog moeilijker te bereiken ideaal. Ook hier kan men echter een zekere fouten-marge aanvaarden en op andere wijze water in de wijn doen - nauwkeurig gedoseerd, steeds op grond van het begripzoals-bedoeld en met name op grond van veronderstellingen en beslissingen over het te bezigen meet-model. Het lijkt niet nodig dit nu verder uit te werken.
Uit de voorafgaande uiteenzettingen zal wel duidelijk zijn geworden, dat een verdieping in de details van de instrumentele realisering allerminst betekent, dat de problemen minder principieel worden. Het lijkt eerder omgekeerd te zijn: juist de eenvoudigste beslissingsproblemen leiden in de gedragswetenschappen met hun altijd abstracte, hypothetische en dubieuze ‘meet’-objecten bij methodologische analyse tot de meest fundamentele vragen. De principes voor de beantwoording van deze vragen zijn echter grotendeels dezelfde als voor de meer makroscopische vragen, waarover de eerste hoofdstukken van dit boek handelen. Wij hopen althans dat duidelijk is geworden, dat zij alle in één systematisch verband zijn onder te brengen. |
|