Methodologie
(1961)–A.D. de Groot– Auteursrechtelijk beschermd
[pagina 265]
| |
8;2 Validiteit8;2;1 Predictieve validiteit als eenvoudig operationeel begrip.De eenvoudigste en meest doorzichtige variant van het validiteits-begrip is dat van de predictieve validiteit. Hiermee hebben we te doen wanneer een variabele uitdrukkelijk bedoeld is om iets anders, een criterium-variabele (vgl. 7;3;1), te voorspellen. Wat een dergelijke ‘voorspeller’ (-variabele) zelf representeert is dan van secundaire betekenis. Hoe beter de voorspeller de variaties van het criterium blijkt te voorspellen, des te hoger is de predictieve validiteit. De correlatie tussen voorspeller en criterium is dus van beslissende betekenis en kan dienen als een operationele definitie van predictieve validiteit (vgl. b.v. kouwer 1952, p. 49). Daarbij moet men intussen wel het verschil in het oog houden tussen de op een bepaalde steekproef berekende validiteits-waarde en de veronderstelde grootte van de validiteits-coëfficiënt in het universum, die meestal niet kan worden bepaald, hoogstens geschat op grond van de gevonden validiteits-uitkomst. Het spraakgebruik (en het denken) is hier vaak slordig: beide worden wel ‘de validiteit of validiteits-coëfficiënt van een voorspeller’ genoemd. Er kunnen zich bij de bepaling van de predictieve validiteit allerlei complicaties voordoen. Soms wil men de gebreken in de meetbetrouwbaarheid van voorspeller en criterium beide buiten beschouwing laten en trachten de validiteit te schatten van een perfect-betrouwbare voorspeller ten opzichte van een perfect betrouwbaar criterium (de zgn. ‘correction for attenuation’, zie b.v. gulliksen 1950, hdst. 9;8). Of men wil de validiteit leren kennen onder uitschakeling van de invloed van één of meer andere variabelen, door haar als ‘partiële correlatie’ te berekenen (vgl. b.v. gulliksen, op. cit., hfdst. 12). Of men tracht de validiteitscoëfficiënt, die gevonden werd in een steekproef, die zelf al geselecteerd is mede op grond van (factoren die samenhangen met) de voorspeller, te corrigeren voor de invloed van deze selectie. Heeft men bijvoorbeeld voor het empirisch validiteitsonderzoek alleen de groep der, na selectie, toegelaten kandidaten ter beschikking, dan tracht men vaak op grond van gegevens over die selectie de validiteitscoëfficiënt te schatten, die gevonden zou zijn als men ook de niet-toegelaten gevallen (b.v. kandidaten) in de | |
[pagina 266]
| |
steekproef had kunnen opnemen (op. cit., hfdst. 11; zie ook b.v. thorndike 1949, hfdst. 6). Of men is geïnteresseerd niet in de validiteit van één variabele, maar in die van een, eventueel zo gunstig mogelijk gewogen, combinatie van voorspellers (multipele correlatie, vgl. b.v. cronbach 1960, p. 339 e.v.), of in de validiteit van het eindresultaat van een samengestelde procedure (voorspellings-formules, zie b.v. de groot 1960). Tenslotte is het van groot belang, met name in gevallen waarin de oorspronkelijke validiteitsberekening een exploratief karakter heeft gehad, om de basis voor een schatting van de universum-validiteit te versterken door een controle-validatie (cross validation) uit te voeren aan een nieuwe onafhankelijke steekproef.Ga naar voetnoot1 Al deze complicaties nemen echter niet weg, dat de grondgedachte van de predictieve validiteit simpel en verhelderend is. Wel moet in het oog worden gehouden, dat de operationele opvatting van predictieve validiteit alleen dan een volstrekt bevredigend antwoord geeft op de vraag naar de validiteit van een variabele als: (1) de variabele als voorspeller bedoeld is, en wel (2) in een bepaalde onderzoek-context, voor een specifiek voorspellingsdoel, dat (3) zelf adequaat (valide) meetbaar is, d.w.z. volstrekt gedekt wordt door de gebruikte criterium-variabele. | |
8;2;2 Criteriumproblemen.Deze condities zijn soms - zij het relatief zelden - inderdaad vervuld. Standaardvoorbeelden zijn te vinden in handboeken voor industriële psychologie (b.v. tiffin en mccormick 1958, hfdst. 5: Aptitude Tests). Stel, dat op een bedrijfsafdeling werkzaamheden worden verricht, die een specifieke vaardigheid vereisen, die vele in dienst genomen werknemers na een opleidingsperiode van een paar maanden blijken niet in voldoende mate te hebben kunnen verwerven. Wordt voor dit probleem een oplossing gezocht door selectie van werknemers vooraf, dan is het zoeken naar een voorspeller, | |
[pagina 267]
| |
b.v. een geschiktheidstest, met een goede predictieve validiteit. Het gaat dus om een voorspeller (-variabele) en het doel is specifiek. Wat het criterium betreft, nemen wij aan, dat men een empirische maatstaf kan opstellen voor de (mate van) vaardigheid op dit speciale gebied, die na de opleiding blijkt verworven te zijn door werknemers, die vooraf getest werden. De drie voorwaarden zijn vervuld. Met de bepaling van de, operationeel gedefinieerde, predictieve validiteit is de vraag naar de validiteit (en vrijwel ook die naar de instrumentele utiliteit) van de variabele in principe geheel opgelost (vgl. echter de voetnoot op p. 270). In het volgende voorbeeld is de derde voorwaarde niet vervuld: men weet wel wat men wil (voorspellen), maar het criterium is dubieus. Het voorbeeld is opzettelijk uit een geheel ander gebied gegrepen om een mogelijke fixatie aan test-toepassingen te voorkomen. Stel, dat men de moderne C14-methode ter bepaling van de ouderdom van (pre-) historische stukken en voorwerpen, door middel van de radioactiviteit van koolstof op haar betrouwbaarheid wil onderzoeken. Dit probleem kan in termen van predictieve validiteit worden gesteld en onderzocht.Ga naar voetnoot1 De variabele (voorspeller) is dan: ouderdom volgens radioactiviteit; het criterium: ouderdom volgens het oordeel van historici. Men neemt in de steekproef stukken en voorwerpen op van variërende en goed bekende (criterium-)ouderdom; en de vraag is of de radioactiviteitsvariabele dit criterium goed kan voorspellen. Ook dit is ‘voorspellen’ in onze zin (3;4;1): voorspeld worden de uitkomsten van een wetenschappelijk onderzoek; dat dit onderzoek reeds verricht is, is geen bezwaar zolang dit de ‘voorspeller’ niet beïnvloedt. We hebben dus met een voorspeller te doen (1), voor een specifiek doel (2): de bepaling (voorspelling) van de ouderdom. De vraag of de derde voorwaarde vervuld is, is echter dubieus. Men kàn stellen, dat zij vervuld is: de in de steekproef opgenomen voorwerpen waren immers zo gekozen, dat hun ouderdom ‘goed bekend’ was. De toetsing geschiedt aan een steekproef, en dus met betrekking tot een universum, waarvan voor ieder element wordt aangenomen, dat dit het geval is - ongeacht het feit, dat het instrument, bij gebleken predictieve validiteit, vooral zal worden gebruikt in gevallen waarin men juist in het onzekere verkeert over de datering; daartegen is in principe geen bezwaar (zie hieronder p. 268). Men kan echter de aanname, dat het oordeel van | |
[pagina 268]
| |
historici juist is, in twijfel trekken, ook voor gevallen waar de ouderdom ‘goed bekend’ heet te zijn. Met andere woorden: men kan de vraag naar de validiteit van de criterium-variabele stellen, nu met betrekking tot een theoretisch, essentieel criterium: de wèrkelijke ouderom. Weliswaar kan men deze (predictieve) validiteit niet onderzoeken zolang de ‘werkelijke ouderdom’ onbekend is, maar men kan haar wel in twijfel trekken en het oordeel van historici als substituut criterium voor dit essentiële criterium opvatten. Het is verder niet onmogelijk, dat men een methode kan ontwikkelen, die geacht kan worden de werkelijke ouderdom beter te benaderen dan het historische oordeel - bijvoorbeeld de radioactiviteitsmethode! Wordt deze als zodanig geaccepteerd - en dit is tegenwoordig wel het geval - dan wordt, bij de bepaling van de validiteit van het historische ouderdoms-oordeel, wat eerst voorspeller was nu criterium, en wat criterium was voorspeller. Deze verwisseling van rol van criterium en voorspeller komt veel voor en kan van groot belang zijn bij de constructie van nieuwe instrumenten. Zo werden bijvoorbeeld intelligentie-tests (of, recenter voorbeeld, de ‘neuroticisme’-variabele) aanvankelijk gevalideerd aan beoordelingen van de intelligentie (neuroticisme) door onderwijzers (psychiaters); terwijl tegenwoordig de omgekeerde procedure kan worden toegepast. Deze ontwikkeling heeft iets paradoxaals; zij doet enigszins denken aan de man, die zich aan zijn eigen laarzen uit het moeras omhoog trekt (cronbach en meehl 1955: ‘bootstraps-effect’; door wiegersma (1959, p. 119) vertaald als: ‘Münchhausen-effect’). De procedure is echter geheel legitiem, zoals uit het radioactiviteitsvoorbeeld duidelijk blijkt. Men kan, ten eerste, voor de toetsing ‘goed bekende’ gevallen kiezen en daarmee de oorspronkelijke criteriumbasis aanzienlijk versterken; terwijl, ten tweede, de structuur van het nieuwe instrument een veel hogere meet-betrouwbaarheid garandeert - die bovendien empirisch kan worden gecontroleerd (8;3). Bij de predictie-problemen in de (toegepaste) psychologie speelt, wat het criterium betreft, dikwijls de tijdsdimensie een rol. Onder het uiteindelijke criterium (ultimate criterion) wordt dikwijls verstaan het criterium, zoals dat eigenlijk, na bijvoorbeeld 10 jaar, gemeten zou moeten worden; terwijl in feite met een tussentijds (substituut-) criterium (intermediate criterion) wordt gewerkt. Waar dit wordt gedaan.(vgl. hierover o.m. van der giessen 1957), is de vraag naar de validiteit van het | |
[pagina 269]
| |
substituut-criterium uiteraard klemmend. Het komt voor, dat men deze empirisch kan beantwoorden door het criterium op zijn beurt te valideren aan een ander, minder voorlopig criterium; dat echter ook weer een benadering is van het ‘essentiële criterium’. Dit kan leiden tot de ‘infinite frustration’ (gaylord, aangehaald in cronbach en meehl 1955) van het telkens opnieuw verband zoeken met een ‘meer essentiële’ maatstaf - als men zich blijft houden aan een predictieve validiteitsopvatting alleen.Ga naar voetnoot1 Tot zover werd aangenomen, dat het predictie-doel weliswaar niet om te zetten was in een meetbaar essentieel criterium, maar dat tenminste geen onduidelijkheid bestond over wat dit essentiële criterium zou moeten zijn (vgl. boven: de werkelijke ouderdom). Het komt echter vaak voor, dat men, ook binnen één vraagstelling, niet zo scherp weet wat men (‘essentieel’) wil, dus dat het essentiële criterium vaag, meerduidig of meerdimensionaal is. Wil men bijvoorbeeld voorspellers voor studiesucces valideren, dan is het wel duidelijk, dat men ‘goede’ van ‘slechte’, ‘geschikte’ van ‘ongeschikte’ studenten wil onderscheiden, maar wat deze begrippen inhouden is nog bijzonder vaag. Is hij (zij), die de studie snel volbrengt (desnoods met matige qualificaties) een ‘goede student’, of veeleer hij (zij), die goede qualificaties haalt (desnoods niet zo vlug)? Dit kan zeer veel verschil maken voor de te berekenen validiteiten (spitz 1955). Empirische criteria voor gebleken geschiktheid (en zeker voor gebleken ongeschiktheid) zijn bijzonder moeilijk op te stellen, omdat men bij dit begrip aan verschillende doelstellingen en belangen kan denken: latere ‘geschiktheid’ in de maatschappij (ongeacht studieprestaties en zelfs ongeacht feitelijk studiesucces); prestaties in en aanpassing aan de onderwijsinstelling; of een geschiktheidsbegrip van het individu uit bekeken (t.h. delft 1959, hoofdstuk 9). Meerdimensionaliteit van de | |
[pagina 270]
| |
doelstelling, resulterend in meer dan één criterium, is geen onoverkomelijk probleem; men bepaalt dan verschillende validiteiten naast elkaar of men combineert de criteria volgens een passende formule.Ga naar voetnoot1 Het grootste probleem is echter vaagheid en/of meerduidigheid. Vandaar dat tegenwoordig ook voor problemen van predictieve validiteit - evenals voor evaluatie-problemen, waar de moeilijkheden geheel analoog liggen (vgl. 6;2;2; - steeds wordt aanbevolen aan een validiteits-onderzoek een operationeel gerichte maar diepgaande doel-analyse te laten voorafgaan. Het ‘criterium-probleem’ (voor een discussie, zie o.a. kelly en fiske 1951; verder van der giessen 1957) is in feite een kwestie van doelstelling, die evenmin door een voorbarig operationisme is op te lossen als door diepzinnige maar vruchteloze discussies. Nog ingewikkelder wordt het beeld, als een als voorspeller bedoelde variabele voor de predictie van geheel verschillende criteria wordt gebruikt, eventueel in verschillende onderzoekingen met betrekking tot verschillende universa. Blijft men hier op het standpunt van de predictieve validiteit staan, dan kan men alleen opsommen, welke correlaties, in wat voor soort onderzoekingen, in wat voor steekproeven uit welke universa er alzo gevonden zijn. Een combinatie-formule helpt dan niet meer; men kan niet tot één samenvattend oordeel over ‘de’, predictief opgevatte, validiteit komen. Dit doet zich in de testpsychologie vooral voor bij bekende, veel gebruikte instrumenten, zoals intelligentie- en persoonlijkheids-testscores - ‘voorspellers’, waarvan men trouwens eigenlijk ook al niet meer kan zeggen, dat de eerste voorwaarde van p. 266 vervuld is: zij zijn niet uitsluitend of zelfs in het geheel niet als voorspellers bedoeld. | |
[pagina 271]
| |
Dit laatste geldt eerst recht voor een groot aantal andere variabelen: maatstaven voor schoolprestaties (hetzij diploma's, cijferscores, of prestaties op vorderingentests), voor sociale aanpassing, personalia (b.v. de plaats in de kinderrij, zie b.v. schachter 1959), criterium-variabelen van allerlei aard, bijvoorbeeld indices voor ‘group effectiveness’ (fiedler 1958), leesbaarheidsindices, etc. - om maar weer een willekeurige serie op te noemen. Voor al zulke variabelen is een andere benadering van de validiteitsvraag nodig. | |
8;2;3 Begripsvaliditeit: meten versus voorspellen.Bij de validatie van een variabele naar zijn predictieve waarde is voorspelling van iets ànders hoofdzaak in de instrumentele realisering van het begrip. De eigenlijke inhoud staat op de achtergrond; zozeer zelfs, dat men wel eens zegt, dat de voorspeller eigenlijk het criterium ‘meet’;bijvoorbeeld, men ‘meet’ de geschiktheid in een geschiktheids-test, ook al is het duidelijk, dat de werkelijke geschiktheid (het criterium) nog moet blijken. Het verschil kan inderdaad subtiel worden; men denke b.v. aan de bepaling (meting of voorspelling?) van de ouderdom van stukken of voorwerpen door middel van radioactiviteit (8;2;2). Klaarblijkelijk hangt het soms van de onderzoekopzet en de bijbehorende gedachtengang af of we met meten of voorspellen te doen hebben. Van dit standpunt gezien is het verschil echter duidelijk: voor voorspelling hebben wij, naast de variabele in kwestie (de voorspeller) nog ten minste een andere variabele nodig (het criterium); in geval van meting van iets gaat het om de verhouding van de variabele tot het bijbehorende attribuuts- of eigenschaps-begrip. De validiteitsvraag met betrekking tot een variabele, die voor meting (c.q. voor niet-objectieve ‘bepaling’) van een begrip dient, kan niet worden herleid tot één of meer andere variabelen, die moeten worden voorspeld. Het gaat hier om de validiteit ten opzichte van het begrip zelf, dat door de variabele wordt gerepresenteerd; het gaat om begripsvaliditeit. De term begrips-validiteit (Eng. construct validity) is door cronbach en meehl in de psychologische literatuur geïntroduceerd (1955). De probleemstelling was in hoofdzaak voortgekomen uit technische kwesties van validering van psychologisch-diagnostische tests en van publikatie van resultaten daarvan. De discussies in het Committee on Psychological | |
[pagina 272]
| |
Tests van de American Psychological Association over de vraag welke eisen men moest stellen, qua verricht onderzoek en qua presentatie van de uitkomsten daarvan, aan een nieuw te publiceren test met bijbehorende handleiding (vgl. de aanbevelingen van het Comité: technical recommendations (1952) 1954), hadden de leden van het Comité tot de overtuiging gebracht, dat de gangbare denkwijze en begripsvorming met betrekking tot het validiteitsprobleem niet bevredigend waren. Men kon niet toe met de drie in de Angelsaksische literatuur gangbare typen (test-)validiteit: predictive, concurrent en content-validity (zie p. 274). De term ‘construct validity’ en het idee van een validering van een test met betrekking tot de betekenis en het nomologische net van het begrip (vgl. 3;3;2) waren in feite al door het Comité voorgesteld. De gedachte werd echter pas theoretisch uitgewerkt in het genoemde artikel (cronbach en meehl 1955) - nog steeds voor ‘psychologische tests en diagnostische technieken’ in het bijzonder.Ga naar voetnoot1 In overeenstemming met dit specifieke doel was hun definitie van een ‘construct’ het volgende: ‘A construct is some postulated attribute of people, assumed to be reflected in test performance’. Zij noemen verschillende voorbeelden: ‘amnesie’ als een qualitatief attribuut, dat al dan niet toepasselijk kan zijn op een persoon, ‘opgeruimdheid’ (cheerfulness) als een attribuut, dat een persoon in meerdere of mindere mate kan bezitten, e.v.a. Er is echter voor ons weinig aanleiding om bij testbare persoons- of persoonlijkheids-variabelen te blijven staan. Begripsvaliditeit is van essentiële betekenis voor iedere empirische variabele, die als instrumentele realisering van een begrip wordt beschouwd en gebruikt, ongeacht op welk gebied. In de testpsychologie betekende de invoering van begripsvaliditeit tot op zekere hoogte de redding uit een te beperkt predictie-operationisme. Stel dat men vier tests heeft voor (dwangmatige) rigiditeit alsmede beoordelingen van psychiaters ten aanzien van rigiditeit, en dat tussen deze vijf variabelen de correlaties over het algemeen positief blijken. Volgens de klassieke (predictieve) validiteits-gedachte moeten nu de tests het criterium voorspellen, d.i. (bijvoorbeeld) het psychiatrische oordeel. Natuurlijk kan men predictor en criterium van plaats laten verwisselen; maar er moet altijd een asymmetrie zijn. In een geval als dit is die a- | |
[pagina 273]
| |
symmetrie, dus het redeneren volgens een ‘test-should-predict-criterion’-patroon (op. cit., p. 285), geforceerd. Wat de psychiaters ervan vinden, is evenmin ‘de’ rigiditeit als dat wat er uit één van de tests komt: alle vijf de instrumenten trachten een gemeenschappelijke factor te bepalen, alle vijf de variabelen representeren, laten wij hopen goed, maar in ieder geval niet volledig, het begrip rigiditeit. Het is, volgens Cronbach en Meehl, vooral op het klinische gebied in de diagnostiek, dat validatie in termen van specifieke criteria - dus predictieve validatie, volgens onze terminologie (8;2;2) -dikwijls inadequaat is. De psycholoog, die op dit gebied werkt, probeert misschien via een testmethode een schatting te verkrijgen voor een hypothetisch intern proces, een hypothetische factor, structuur of toestand, waarvoor geen duidelijk gedragscriterium te verkrijgen is. ‘An attempt to identify any one criterion measure or any composite as the criterion aimed at is, however, usually unwarranted’ (Technical Recommendations, aangehaald in cronbach en meehl, op. cit.). Met andere woorden: het begrip heeft onvermijdelijkerwijze een surplus-betekenis ten opzichte van ieder empirisch criterium (vgl. 2;3;6). Er is echter, opnieuw, geen reden om deze gedachtengang- want als een gedachtengang en niet als een specifieke methode wordt de idee van de begripsvaliditeit gepresenteerd (vgl. op. cit., p. 300) - te beperken tot de testpsychologie. cronbach en meehl zelf noemen het voorbeeld van het begrip ‘honger’ in dierpsychologische experimenten: de onderzoeker, die het gedrag van ratten in verband met ‘honger’ theoretisch wil beschrijven, bedoelt met dit begrip praktisch zeker méér dan wat de gangbare operationele definitie ‘elapsed-time-since-feeding’ bepaalt (op. cit., p. 284). Precies hetzelfde doet zich voor met begrippen als ‘group effectiveness’ (fiedler 1958) of de ‘hoeveelheid communicatie’ in een groep (bavelas 1950) - of met de operationele definities (indices), waarmee economen werken wanneer zij bijvoorbeeld de ‘levensstandaard’ van verschillende volkeren willen vergelijken. De voorbeelden zijn gemakkelijk uit te breiden: moeilijkheid van een taak, ziekte versus gezondheid, democratische versus niet-democratische procedures, de sociale status van een beroep, enz. Het wemelt in de sociale wetenschappen van de begrippen met surplus-betekenis ten opzichte van welke operationele definitie dan ook. Men kan niet blijven staan bij een operationisme, dat de bedoelde gedachte, de verklarings- of beschrijvings-idee op de vlucht jaagt. | |
[pagina 274]
| |
8;2;4 Bijdragen tot de begripsvaliditeit.De vraag waar het op aan komt bij de begripsvalidering van een variabele, is tweeledig; ten eerste, welke soorten empirische gegevens kunnen bijdragen leveren tot de begripsvaliditeit; ten tweede, hoe kan men deze combineren om tot een uitspraak over de (mate van) begripsvaliditeit van de variabele te komen. Het gaat erom ‘evidence from many different sources’ te integreren (Techn. Recomm., gecit. naar cronbach en meehl 1955; zie ook loevinger 1957), zij het steeds met betrekking tot de variabele in kwestie. Welke bronnen zijn dit en hoe integreert men hun opbrengst? Het zal duidelijk zijn, dat deze vragen des te minder direct en eenvoudig te beantwoorden zijn naarmate het begrip in kwestie een meer hypothetisch karakter heeft (2;3;6). Laten wij beginnen met een eenvoudig geval, een begrip als ‘cijfervaardigheid’ of ‘leesvaardigheid’. Dit is weliswaar ook een attribuut van een persoon (kind of volwassene), maar er zijn geen verklaringen, geen interne processen, factoren of structuren mee gemoeid: het instrument, bijvoorbeeld een eenvoudige leesvaardigheidstest (vgl. b.v. wiegersma 1958), is alleen bedoeld om te meten hoe vaardig de proefpersoon is op het gebied in kwestie. Hoe kan men de validiteit van een dergelijk instrument bepalen? Het heeft weinig zin de predictieve validiteitsgedachte hierop toe te passen: men wil helemaal niet iets anders voorspellen. Het heeft echter wel zin te vragen, ‘of het werkelijk een cijfer- (of lees-)vaardigheidstest is’, d.w.z. of de testopgaven, en het instrument als geheel, het bedoelde begrip adequaat representeren; en dat is de validiteitsvraag. Komen bijvoorbeeld alle hoofd-aspecten van kunnen-cijferen er wel in voor (verschillende typen sommen, verschillende operaties)? En hebben deze wel het juiste gewicht, t.o.v. wat men onder cijferen en cijfervaardigheid verstaat? Als men de begrippen cijfervaardigheid, cijferen en cijfer-opgaven gedefinieerd denkt aan de hand van een verzameling van alle (typen) opgaven, die onder het begrip vallen, dan kan men stellen, dat de validiteit van de test ervan afhangt of de in de test opgenomen reeks van vragen kan worden beschouwd als een, voldoende grote en voldoende gedifferentieerde, representatieve steekproef van opgaven uit de verzameling van alle mogelijke vragen. Deze opvatting maakt weer een empirische c.q. statistische benadering mogelijk. Wanneer de validiteitsvraag hierop neerkomt, spreekt men gewoonlijk van inhoudsvaliditeit (content validity). Dit begrip is aanzienlijk ouder dan dat van de begripsvaliditeit en wordt door Cronbach | |
[pagina 275]
| |
en Meehl van dit laatste gescheiden gehouden. Het is echter duidelijk, dat wij hier volgens onze definitie met een eenvoudig geval van begripsvaliditeit te doen hebben. Ook bij instrumenten, die niet ahéén aan de eis moeten voldoen, dat zij een goed gekozen (en verstandig gerangschikte) steekproef van vragen uit een omschreven gedragsgebied moeten bevatten, speelt inhoudsvaliditeit vaak een belangrijke rol; maar dan als bijdrage tot de begripsvaliditeit. Een intelligentie-test, bijvoorbeeld, mag geen vragen bevatten, die puur op geheugen-prestaties berusten - tenzij er goede redenen zijn om aan te nemen, dat deze prestaties zelf weer op een intelligent proces berusten (zelf verkregen algemene ontwikkeling, zelf aangebrachte structurering, c.q. logische structurering van gegevens, en dgl.). Overwegingen als deze laatste maken het vaak moeilijk vast te stellen of een testvraag ‘werkelijk een intelligentie-vraag’ is; maar dat neemt niet weg, dat om dit uit te maken wel degelijk naar de inhoud wordt gekeken, en, bij de constructie van een nieuw instrument, naar inhoud wordt ontworpen en geselecteerd. De vraag of het instrument qua inhoud, qua dekking van het bedoelde, overeenstemt met het begrip, dus de inhoudsvaliditeits-vraag, is van essentieel belang voor elk instrument, dat niet alléén maar een specifieke voorspeller is (vgl. 8;2;2). Dit gezichtspunt wordt in de testpsychologie ten onrechte wel eens verwaarloosd (vgl. guttmann's critiek (1953) op gulliksen 1950) - omdat men er dikwijls quantitatief geen vat op heeft, en er dus geen formules voor kan opstellen. Intussen zijn aan het voorbeeld van de intelligentietest gemakkelijk andere typen van empirische bijdragen tot de begripsvaliditeit te illustreren. Construeert men een nieuwe test met de pretentie, dat deze de intelligentie meet, dan is een voor de hand liggende eis, dat deze hoog zal moeten correleren (omstreeks r = .80, om de gedachten te bepalen) met andere, reeds als zodanig aanvaarde intelligentie-tests. Dit geldt trouwens ook als een (predictief) criterium voor, bijvoorbeeld, een leesvaardigheidstest, die overigens hoofdzakelijk op zijn inhouds-merites (en op betrouwbaarheid en consistentie: 8;3 en 8;4) wordt beoordeeld. Men noemt dit wel eens ‘congruent validity’ - een moeilijk te vertalen term: misschien is soortgenoot-validiteit het beste. In onze terminologie is dit een speciaal soort predictieve validiteit, die echter voornamelijk betekenis heeft als bijdrage tot de begripsvaliditeit. | |
[pagina 276]
| |
Ook de predictieve validiteiten ten aanzien van niet-soortgenootcriteria zijn uiteraard belangrijk als bijdragen tot de begripsvaliditeit. We weten, theoretisch, dat intelligentie-zoals-bedoeld van belang is voor het leveren van intellectuele prestaties, bijvoorbeeld op school of in de studie; en we weten, dat intelligentietests gewoonlijk een duidelijk positieve correlatie vertonen met schoolprestaties, zowel gelijktijdig als in de toekomst gemeten. Van een nieuwe intelligentie-test wordt dus verwacht, dat hij dit ook doet. In het algemeen: als er andere instrumenten zijn, die aanvaarde, zij het verschillende, operationele definities van een begrip belichamen, dan wordt van een nieuw instrument verwacht, dat het in al zijn empirische relaties in grote lijn dezelfde patronen van samenhangen zal vertonen als zijn soortgenoten. Weten wij bijvoorbeeld, dat de kans op een gunstig effect van psychotherapie behalve van de graad van neuroticisme en van de aard van de moeilijkheden ook van de intelligentie -gemeten volgens test A, B of C - afhangt, dan zal dit samengestelde verband ook met test D moeten kunnen worden aangetoond, wil test D ‘begrips-valide’ zijn. | |
8;2;5 Beoordeling van begripsvaliditeit: een theoretisch probleem.Zijn er géén andere instrumenten voor het begrip in kwestie en evenmin reeds met voldoende zekerheid vastgestelde patronen van empirische samenhangen, waaraan een variabele moet voldoen, dan is dikwijls voorlopig inhoudsvaliditeit het enige aangrijpingspunt; misschien aangevuld met predictieve validiteit ten opzichte van een door beoordeling verkregen criterium. Maar ook dan is er toch gewoonlijk een, meer of minder uitgebreide of pretentieuze, theoretische achtergrond. Een begrip wordt immers ingevoerd om onderscheidingen te kunnen maken, die zinvol zijn, d.w.z. die zich lenen tot het formuleren van verwachte verbanden (hypothesen), die toetsbaar zijn. Dit betekent, dat in een dergelijk geval bij een verdere empirische uitwerking van het nomologische netwerk rondom het begrip in kwestie, andere beoordelingscriteria voor de begrips-validiteit van de variabele beschikbaar zullen komen. De variabele moet zich ook dan empirisch gedragen zoals, op grond van de theoretisch veronderstelde relaties van het begrip, mag worden verwacht. Doet zij dit niet, of niet in voldoende mate, dan is waarschijnlijk de begripsvaliditeit van de variabele voor het begrip in kwestie niet in orde. | |
[pagina 277]
| |
Dit laatste kan, maar behoeft intussen niet tot de ecartering van het instrument te leiden. Het kan ook zijn, dat wel degelijk belangrijke en consistente empirische samenhangen worden gevonden, zij het in andere zin dan in het oorspronkelijke begrip (en in de oorspronkelijke theorie) bedoeld. Wij hebben op deze mogelijkheid reeds eerder de aandacht gevestigd (3;3;5 en 4;2;4). Het begrip-zoals-bedoeld is in het onderzoekproces niet een constante, waaraan de variabele zich per se moet aanpassen. Vaak geven empirische bevindingen met bepaalde variabelen aanleiding tot verschuivingen, verscherpingen, omstructureringen - vaak ook naams-veranderingen - van de bijbehorende begrippen; vgl. b.v. het gebruik van een ‘leugenscore’ als ‘rigiditeits’-maatstaf (barendregt 1961, hfdst. 12). Verandert het begrip zelf, dan wijzigen zich ook de criteria voor de begripsvaliditeit van de variabele. Het nomologisch netwerk krijgt in zijn empirische uitwerking een andere structuur dan oorspronkelijk was voorzien. Maar aan de hand van dit nieuwe nomologische netwerk kan men dan toch weer tot een beoordeling van de begripsvaliditeit van de variabele komen. Het zal na het bovenstaande wel duidelijk zijn, dat voor het probleem hoe men tot een quantitatieve schatting van de begripsvaliditeit van een variabele moet komen, geen eenvoudige formule kan worden opgesteld. Behalve van theoretische bedoelingen - die zich kunnen verschuiven - hangt de beoordeling af van zulke heterogene ‘bijdragen tot de begripsvaliditeit’ als: beoordeling van de adequaatheid naar inhoud (inhoudsvaliditeit), ‘soortgenoot-validiteit’, predictieve validiteits-uitkomsten in verschillende populaties ten opzichte van vaak sterk uiteenlopende criteria (vgl. ook 8;2;2, p. 270), en in het algemeen van ‘patronen’ van empirische bevindingen met betrekking tot de variabele in kwestie. Dit alles is niet in een algemeen geldige formule te combineren. Hoogstens kan men in bepaalde gevallen door vergelijkende weging van bijdragen tot redelijk gegronde ongelijkheidsbeoordelingen komen van het type: instrument A heeft een hogere begripsvaliditeit ten opzichte van begrip X dan instrument B. Gezien het feit, dat dikwijls predictieve validiteits-uitkomsten gebruikt worden voor de beoordeling van de begrips-validiteit van een variabele, rijst de vraag of het gehele predictieve validiteits-begrip niet onder begrips-validiteit kan worden gesubsumeerd. Inderdaad kan men, desgewenst, ook de gevallen waarin men met predictieve validatie kan volstaan als | |
[pagina 278]
| |
bijzondere gevallen van begrips-validatie opvatten, waarbij dan niet zozeer de betekenis als wel het voorspellende karakter van het begrip vooropstaat. Deze beschouwingswijze is in ieder geval minder onvruchtbaar dan de omgekeerde, die zoals hierboven werd uiteengezet (8;2;3) lange tijd de theoretische bezinning over het validiteitsvraagstuk heeft tegengehouden. Het heeft slechts zelden zin om in gevallen, waarin géén meetbare, essentiële criteria ter beschikking staan, te stellen dat het validiteitsprobleem in predictieve zin, door correlatie-berekening, zou zijn op te lossen (8;2;2), àls men wel criteria had - hoe onaanvechtbaar zulk een bewering ook is. Het heeft echter wel dikwijls zin om ook bij schijnbaar simpele predictieve validiteits-problemen naar meer te vragen en meer te onderzoeken dan alleen de voorspeller-criterium-correlatie(s). Men kan zelfs ook kwesties van meet-betrouwbaarheid (8;3) en interne consistentie (8;4) vanuit de gezichtshoek van begrips-validiteit bezien, in dier voege, dat men ook daarbij uitdrukkelijk uitgaat van de intentie van de onderzoeker, van een doel-analyse, van het ‘begrip-zoals-bedoeld’.Ga naar voetnoot1 Deze werkwijze is vruchtbaarder dan die, waarbij naar de ontwikkeling van min of meer autonome betrouwbaarheids-, scorings- of schaalconstructie-technologieën wordt gestreefd. In feite belanden wij met de vraag naar de begripsvaliditeit van een variabele midden in de problemen van de theoretische evaluatie, die. in 4;2 ter sprake zijn gekomen. De vraagstelling van de begripsvaliditeit is in dat probleemgebied echter wel een duidelijk afgrensbaar onderdeel, dat telkens voor iedere variabele, voor ieder instrument apart kan worden bekeken. Ook is het nuttig, dat er, zoals in 8;1;3 werd naar voren gebracht, wordt gezocht naar een antwoord enerzijds in uitgesproken empirische, anderzijds in quantitatieve zin. Als gezichtspunt is dit belangrijk; ook al moet men evenals bij de beoordeling van theorieën, in de meeste gevallen genoegen nemen met weliswaar op empirie gebaseerde, maar weinig dwingende vergelijkende oordelen, die alleen door het forum kunnen worden gesanctioneerd. |
|