Methodologie

(1961)–A.D. de Groot– rechtenstatus



[pagina 256]
8. Criteria voor empirische variabelen en instrumenten 8;1 Instrumentele utiliteit van een variabele 8;1;1 Relaties tussen grondbegrippen: recapitulatie. Voordat wij overgaan tot de behandeling van het eigenlijke onderwerp van dit hoofdstuk, willen wij enkele in het voorgaande ingevoerde definities en begripssamenhangen kort recapituleren om onzekerheden over het gebruik van termen te voorkomen. Wij hebben gezien dat een begrip (of factor) kan worden gerepresenteerd door een variabele; en dat iedere variabele kan worden opgevat als een representant van een begrip. In de sociale wetenschappen is in de meeste gevallen de verhouding van begrip tot variabele niet die van volstrekte dekking: er is vaak een, meer of minder omvangrijke, en meer of minder omlijnde, surplus-betekenis. Is dit het geval, dan belichaamt de variabele ‘een’ operationele definitie van het begrip - waarnaast andere operationele definities mogelijk zijn. Ook het omgekeerde geldt: een operationeel gedefinieerde variabele kan, in verschillend verband, verschillende zij het uiteraard verwante begrippen representeren. In veel uitspraken over onderzoekingen zijn de termen ‘begrip’ of ‘factor’ enerzijds, ‘variabele’ anderzijds, verwisselbaar. Men kan bijvoorbeeld in eenzelfde zin vaak, naar keuze, spreken van: het begrip sexe, over de sexe- of geslachts-factor of over de sexe-variabele. Wij hebben echter de terminologische afspraak gemaakt om alleen dan van ‘variabele’ te spreken, als in principe iets vastligt met betrekking tot de te gebruiken operationele definitie. De wijze, waarop in de empirische hantering van het begrip zal worden gediscrimineerd tussen gevallen, waarop het wel of
[pagina 257]
niet of meer of minder toepasselijk is, moet in principe vastliggen. Anders uitgedrukt: wij moeten weten hoe wij zullen discrimineren tussen gevallen waarin de variabele déze of géne ‘waarde’ zal aannemen. Daarbij kan ‘waarde’ óók zijn: het behoren tot een kwalitatief onderscheiden categorie of klasse in een nominale schaal. Wanneer wij bijvoorbeeld voor de sexe-factor in een onderzoek in principe weten, hoe van geval tot geval de waarde (mannelijk of vrouwelijk) zal worden bepaald, dan kunnen wij ook spreken van de sexe-variabele. Ander voorbeeld: wanneer wij met betrekking tot het begrip ‘leiderschapsklimaat’ in principe weten, op welke wijze dit in een reeks experimenten als variërende experimentele conditie zal worden gebruikt - dus bijvoorbeeld hoe ‘autoritair’ en ‘democratisch’ leiderschap operationeel gedefinieerd zullen zijn - dan kunnen wij spreken van ‘de variabele: leiderschapsklimaat’.Ga naar voetnoot1 Tenslotte: wanneer wij hebben vastgesteld, dat de intelligentie of de vijandigheid in een onderzoek door een (bepaalde) test respectievelijk door een (bepaalde) Rorschach-index zal worden gemeten, dan kunnen wij van ‘de variabelen intelligentie’ resp. ‘vijandigheid’ spreken. Een variabele is echter pas exact operationeel gedefinieerd, als het stelsel van instrument(en) en instructies voor de toe te passen operaties ter bepaling van de waarde, die de variabele in een concreet geval aanneemt, volstrekt vastligt, inclusief de instructies over de wijze waarop (de meetschaal waarin) de uitkomst moet worden gelezen (vgl. 6;2;3). Wij hebben dit complete stelsel van instructies en hulpmiddelen (instrumenten in engere zin) het instrument in ruimere zin genoemd. Gebruikt in engere zin heeft de term ‘instrument’ ongeveer de gangbare, materiële betekenis: een meetapparaat, een test, een vragenlijst, een stel criteria, eventueel ook: een beoordelaar (7;3;1). Gebruikt in de ruimere zin definieert een instrument steeds één variabeleGa naar voetnoot2 en dus ook één begrip. Men kan dus zeggen, dat ‘het
[pagina 258]
instrument de bijbehorende variabele volledig bepaalt’, of dat ‘het begrip door het instrument operationeel gedefinieerd is, als variabele’. De termen ‘instrument’ (in ruimere zin) en ‘variabele’ liggen blijkbaar eveneens zeer dicht bij elkaar. Ook deze twee zijn in veel zinnen zonder meer verwisselbaar, en dit geldt met name voor de utiliteits-criteria, die in dit hoofdstuk aan de orde zullen komen. Men kan bijvoorbeeld even goed van de validiteit (8;2) van de variabele als van die van het bijbehorende instrument spreken. Er is natuurlijk een verschil in betekenis tussen beide woorden (zie ook de voetnoot op p. 152), dat trouwens in de woorden besloten ligt: bij ‘variabele’ denkt men (behalve aan haar operationele definitie door het instrument) primair aan de variërende empirische grootheid, in een universum, met haar verdeling en andere empirische eigenschappen, etc.; bij ‘instrument’ denkt men (behalve aan de resulterende variabele) primair aan de structuur van het instrument-in-engere-zin, en verder aan de instructies, de operaties, nodig om de waarde van de variabele te bepalen. Eigenschappen van de interne structuur (8;4) worden bij voorkeur aan het instrument toegeschreven, relaties tot andere variabelen bij voorkeur aan de variabele, al is het spraakgebruik hierin allerminst consequent. Men ‘construeert’ in ieder geval niet een variabele, maar een instrument; en daarbij moeten zekere constructie-eisen (-voorschriften, -aanbevelingen) in het oog worden gehouden; die overigens naar hun inhoud en strekking weer corresponderen met de criteria waaraan de ‘instrumentele utiliteit’ van een variabele wordt bepaald (zie 8;1;2 e.v.). Tenslotte: wij noemen een variabele ‘objectief’, een instrument een ‘meet-instrument’ en het bepalen van de waarde van de variabele ‘meten’, als, gerekend vanaf een bepaald punt,Ga naar voetnoot1 alle operaties die voor het bepalen
[pagina 259]
van die waarde nodig zijn, objectief geregeld zijn, d.i. in principe door een klerk of door een machine-programma van, in het algemeen eenwaardige,Ga naar voetnoot1 transformaties kan worden overgenomen. De bespreking van de criteria voor de instrumentele utiliteit van variabelen in dit hoofdstuk heeft voornamelijk op objectieve variabelen betrekking. Zoals reeds eerder werd opgemerkt (in 7;3;4, voetnoot p. 249), zijn echter deze criteria voor alle typen variabelen, objectieve of niet-objectieve, in principe dezelfde. De lezer zij in het algemeen voor het misverstand gewaarschuwd, dat het nu volgende ‘alleen voor testvariabelen’ zou gelden. De idee om de instrumentele qualiteiten van variabelen met behulp van empirische criteria onder controle te houden is weliswaar vooral ontwikkeld en technisch uitgewerkt in de test-theorie, maar dit houdt allerminst in, dat de betekenis ervan tot dat gebied beperkt zou zijn. Begrippen als validiteit, betrouwbaarheid, etc. zijn van algemeen belang voor de evaluatie van empirische variabelen, ongeacht hun inhoud, herkomst, functie of vorm.Ga naar voetnoot2
8;1;2 Instrumentele utiliteit: definitie. De vraag wat een variabele waard is, is tot dusverre voornamelijk aan de orde gekomen in de, opzettelijk los gehouden, terminologie van ‘relevantie’ versus objectiviteit. Wil men dit begrip preciseren, dan moet men erbij vermelden met betrekking tot welk doel of probleem iets - een variabele, of een voorspelling (4;1;3), of een (antwoord op een) vraag-
[pagina 260]
vorm (7;1;1) - al dan niet relevant wordt geacht. In het voorgaande is de specificatie van dit doel of probleem vaak vaag gehouden. Dat het antwoord op de vraag naar de relevantie in concrete gevallen uiteraard moet afhangen van en zal variëren met dit (onderzoek-)doel, was tot zover, met name voor de bespreking van objectiviteit versus relevantie, geen bezwaar. Wij willen nu echter een meer specifieke ‘relevantie’-vraag stellen, met betrekking tot empirische variabelen. Wij zien om te beginnen af van de belangrijkheid van de variabele voor zover deze voortvloeit uit de belangrijkheid van het begrip, dat door de variabele wordt gerepresenteerd. Er zijn natuurlijk meer en minder waardevolle, meer en minder centrale begrippen, hetzij uit maatschappelijk oogpunt (toepassing), hetzij uit een oogpunt van theoretische status. Dit is echter een aangelegenheid van inhoud en betekenis, die deels alleen binnen het gebied in kwestie kan worden beoordeeld (vgl. de in 1;3;2, p. 24 geformuleerde beperking), anderdeels op andere plaatsen in dit boek wordt behandeld. Wij beperken ons dus tot de qualiteiten van een variabele als representant van een begrip-zoals-bedoeld. Dit betekent in feite, dat wij de evaluatie-vraag vergelijkend stellen. Als de legitimiteit van de onderzoekbedoeling, zoals die geïncorporeerd is in een begrip-zoals-bedoeld, niet in twijfel wordt getrokken, dan is in feite vooral aan de orde de vraag wat een instrument (variabele) waard is in vergelijking tot andere instrumenten (variabelen), die hetzelfde begrip moeten representeren en/of voor hetzelfde doel geconstrueerd zijn, of zouden kunnen worden. In deze vorm doet de vraag zich in de praktijk voor ais men bijvoorbeeld uit een beschikbaar arsenaal van tests voor een bepaald doel een keuze moet doen. In de Verenigde Staten, waar ook op dit gebied de ‘consumer society’ (riesman 1950) haar intrede heeft gedaan, kan dit een moeilijk keuze-probleem zijn, waaraan dan ook in handboeken voor het gebruik van tests veel aandacht wordt besteed (b.v. cronbach 1960, p. 96 e.v.). De vraag naar de instrumentele qualiteiten van een variabele is echter verre van alléén een kwestie van keuze (en warenkennis) voor de koper op de testmarkt. Zij is minstens even belangrijk voor keuze-beslissingen bij de constructie van instrumenten (in ruimere zin) - experimentele of niet-experimentele - en bij de vergelijkende beoordeling van variabelen in het algemeen, op de meest uiteenlopende onderzoekgebieden.
[pagina 261]
Aan de orde is dus de vraag naar gezichtspunten, criteria, beoordelingsmethoden, aan de hand waarvan in vergelijkende zin kan worden uitgemaakt, wat een operationeel gedefinieerde, empirische variabele waard is qua instrumentele realisering van een begrip-zoals-bedoeld. En, hiermee corresponderend: het gaat om gezichtspunten, methoden en controles, met behulp waarvan een zo waardevol mogelijk instrument kan worden geconstrueerd - ‘waardevol’ opnieuw in verband met het begrip-zoalsbedoeld. Samengevat: het gaat om de nuttigheid van instrument en variabele qua instrumenteel gerealiseerd begrip, of om: de instrumentele utiliteit van een variabele. De term utiliteit is hier gekozen, omdat vage en meerzinnige termen als ‘waarde’ (of ‘relevantie’) gemakkelijk tot allerlei misverstanden aanleiding geven: de ‘waarde van een variabele’ is bijvoorbeeld vaak: de ‘waarde’, die een variabele aanneemt. De term ‘utiliteit’ wordt hier weliswaar losser gebruikt dan eigenlijk wenselijk is, namelijk zonder dat een methode van utiliteits-meting wordt aangegeven. Als echter in speciale gevallen, bij gebruik van een instrument, een utiliteitsberekening kan worden uitgevoerd, dan is het duidelijk, dat in de functionele uitdrukking van instrumentele utiliteit tenminste parameters moeten voorkomen, die respectievelijk de validiteit (8;2), de precisie (8;3) en de interne efficiëntie (8;4) representeren. Het utiliteits-gezichtspunt omvat in ieder geval deze drie; ‘instrumentele utiliteit’ lijkt een redelijke samenvatting. Aan de hierboven gebruikte uitdrukking ‘begrip-zoals-bedoeld’ moet men intussen steeds toegevoegd denken: in een bepaalde onderzoekcontext. Cronbach merkt op (op. cit. 1960, p. 96 e.v.), dat het meestal weinig zin heeft te vragen naar bijvoorbeeld ‘de beste intelligentie-test’. Dat het begrip (intelligentie) gegeven is, is niet voldoende: welke intelligentie-test in een bepaald verband de beste is, hangt af van de bedoeling en de opzet van het onderzoek in kwestie. Voor een deel gaat het hierbij om praktische zaken (b.v. bereikbaarheid van proefpersonen, kosten, algemeen: uitvoerbaarheid), die we nu buiten beschouwing moeten laten. Er zijn echter ook meer principiële en theoretische onderscheidingen, die van invloed zijn op de gezichtspunten en de methoden voor de bepaling van de instrumentele utiliteit; bijvoorbeeld de vraag of de variabele in kwestie als voorspeller van iets anders, of als te meten grootheid (b.v. criterium) moet dienen. We zullen nog zien, dat met de
[pagina 262]
onderscheiding tussen meten en voorspellen verschillende validiteitsbegrippen corresponderen (8;2). De lezer zal misschien al hebben opgemerkt, dat de probleemstelling sterk analoog is aan die van de evaluatie van beïnvloedings-effecten, die in 6;2;2 als voorbeeld werd behandeld. Ook bij de hier aan de orde gestelde ‘evaluatie’ - waardebepaling van variabelen - is van het grootste belang, dat het doel zo scherp mogelijk in het oog wordt gehouden en dat te bereiken effecten operationeel worden gedefinieerd; om daaraan empirische maatstaven voor instrumentele utiliteit (doeltreffendheid) te kunnen ontwikkelen.
8;1;3 Drie constructie-eisen; drie criteria. De waarde van een instrument als representant van een begrip-zoals-bedoeld (in een bepaalde onderzoek-context) hangt uiteraard af van de wijze waarop het is geconstrueerd. Bij instrumenten zoals tests en vragenlijsten - maar ook b.v. werkclassificatie-eindscores, samengestelde indices of criterium-scores, b.v. gemiddelde schoolcijfers - heeft men gewoonlijk te maken met elementen, afzonderlijke gegevens, ‘items’, die op een bepaalde wijze gecombineerd worden tot een ‘eindscore’. Wat het instrument als geheel, of de ermee corresponderende variabele, waard is, hangt dan af (a) van de keuze van goede (relevante) items (7;1;1), en (b) van de wijze waarop de antwoorden hierop worden opgeteld, gemiddeld, gerangschikt of anderszins gecombineerd. Niet alle instrumenten in de sociale wetenschappen zijn zo geconstrueerd of in deze zin te analyseren; er zijn er natuurlijk ook vele van eenvoudiger structuur (triviaal voorbeeld: de sexe, bepaald door invulling van M of V op het formulier). Het komt echter wel veelvuldig voor, dat meer dan één elementaire (item-)meting nodig is om de waarde (eindscore) van de variabele te bepalen. Wij zullen in het volgende de gedachten bepalen tot deze samengestelde grondvorm, waaraan zich de problemen van instrumentele utiliteit het beste laten ontwikkelen: items, zelf nog géén variabelen, worden gekozen of gemaakt, en, na een objectieve scoring, volgens een objectieve formule gecombineerd tot een eindscore: de waarde van de objectieve variabele. Het kiezen of maken van items, het regelen van de scoring en het opstellen van een combinatie-formule, bij elkaar, is dan: ‘het construeren van het instrument’. Hebben wij te doen met een instrument voor de bepaling van een gedragsvariabele, waarbij de items
[pagina 263]
vragen aan proefpersonen of respondenten zijn, dan wordt ook het opstellen van een instructie, het regelen van de uitvoering, etc. onder de constructie begrepen (vgl. 6;2;3). Aan welke eisen van instrumentele utiliteit moet nu het resultaat van de constructie, het instrument, voldoen? Over dit onderwerp bestaat voor het speciale geval van de testconstructie een uitgebreide literatuur (o.a. tyler 1934; adkins 1947; gulliksen 1950; lindquist 1959; technical recommendations (1952) 1954, 1955; cronbach 1960). De belangrijkste gezichtspunten daaruit laten zich, in een algemene formulering, als volgt samenvatten. De constructie moet zo geschieden, dat: (1) de resulterende variabele mag gelden als een aanvaardbare, adequate (valide) representant van het begrip-zoals-bedoeld; (2) het instrument de meting redelijk nauwkeurig verricht, en (3) efficiënt is ingericht. Wij zullen in het volgende echter zelden ingaan op de wijze, waarop deze drie desiderata het proces van instrument-constructie beheersen, daar ons dat te ver in het technische zou voeren. Zij zullen hoofdzakelijk behandeld worden als criteria, waaraan men, op grond van empirisch verkrijgbare gegevens, de waarde van eenmaal geconstrueerde instrumenten en van de corresponderende variabelen kan afmeten. Het spreekt trouwens vanzelf, dat men deze criteria ook kan aanleggen aan voorlopige versies van het instrument, dus in vroegere stadia van het constructieproces. De laatstgenoemde eis - dat een instrument qua interne structuur efficiënt moet zijn ingericht - laat zich eenvoudig toelichten door erop te wijzen: dat er geen overbodige of niet passende onderdelen (vragen) in moeten voorkomen, die niets bijdragen tot het resultaat; dat er geen twee (of meer) gedachten door elkaar moeten lopen (een instrument moet ‘efficiënt gericht’ zijn); dat de onderdelen, in de scoring, goed afgewogen zijn; en dgl. Gaat men op deze kwesties in, dan komen fundamentele problemen aan de orde. Deze worden in 8;4 behandeld onder de titel: Interne efficiëntie en scoring. De tweede eis - dat het instrument redelijk nauwkeurig moet meten - behoeft weinig toelichting. Een principieel probleem is hier, dat men alleen empirisch vat kan krijgen op de nauwkeurigheid van een meting door deze een aantal keren te herhalen; maar als men dit doet, dan is ook de stabiliteit van het gemetene zelf van invloed op het resultaat. Deze twee factoren zijn met name voor gedragsvariabelen vaak moeilijk te scheiden;
[pagina 264]
zij spelen dikwijls beide een rol in wat men de (meet-)betrouwbaarheid van een instrument pleegt te noemen. Men kan ze echter wel onderscheiden, als Nauwkeurigheid en Stabiliteit (8;3). De eerste eis - dat de variabele het begrip-zoals-bedoeld adequaat representeert - is een speciale vraag met betrekking tot de verhouding van begrip tot (operationeel gedefinieerde) variabele, waarover in 3;3;5 en 6;2 reeds enkele opmerkingen werden gemaakt. Het gaat nu om de vraag of de variabele als representant mag ‘gelden’, of om de ‘geldigheid’ van de variabele - een soms gebruikte vernederlandsing van ‘validiteit’. De verhouding tussen begrip-zoals-bedoeld (in een bepaalde onderzoekcontext) en variabele wordt nu bekeken onder een quantitatief en empirisch aspect: In hoeverre blijkt de variabele een adequate representant te zijn van wat met het begrip en zijn instrumentele realisering werd beoogd? Op het eerste gezicht lijkt het of de validiteit, zo omschreven, niet alleen een determinant van de instrumentele utiliteit is, maar vrijwel die utiliteit zelf. Inderdaad wordt wat een variabele ‘waard is qua instrumentele realisering enz.’ (8;1;2) voor een zeer groot deel gedekt door de mate waarin zij ‘een adequate representant’ is van het begrip-zoals-bedoeld. Een variabele, die een gegarandeerd bevredigende validiteit heeft voor een bepaald doel, heeft ook een gegarandeerde utiliteit; een instrument met te lage validiteit is inderdaad waardeloos - voor dat doel. Dit impliceert alvast, dat kwesties van betrouwbaarheid en interne efficiëntie (8;3 en 8;4) slechts van secundaire betekenis kunnen zijn vergeleken bij de validiteitsvraag (8;2). Maar toch is de dekking niet compleet; er blijft ruimte voor de beide andere gezichtspunten. Wat de interne efficiëntie betreft, is dit direct duidelijk: als men deze kan verhogen bij gelijkblijvende validiteit, dan wordt ook de instrumentele utiliteit kennelijk verhoogd. Voor de precisie (of betrouwbaarheid) van het instrument kan men beter anders redeneren: verbetering daarvan bij gelijkblijvende validiteit heeft weliswaar weinig (utiliteits-)betekenis, maar men kan wel, dóór de precisie van het instrument te verbeteren, de kans op een verbeterde (empirische) validiteit of, soms, die validiteit zelf verhogen (zie 8;3). Precisie in de meting maakt dat wat men meet niet belangrijker (meer valide, adequaat); maar àls het in principe van belang is, dan zal dit eerder bij grote dan bij geringe precisie blijken - uit positieve validiteitsbevindingen.	voetnoot1 Hierbij wordt uiteraard steeds aangenomen, dat het begrip in de zin van een variabele - dus variërend - zal worden gebruikt. Als een psycholoog door experimenten mét ratten een hypothese over het gedrag vàn ratten wil toetsen, dan is het weliswaar van enig belang om ‘rat’ van ‘niet-rat’ te onderscheiden, maar het begrip wordt niet als variabele factor gehanteerd. voetnoot2 Sommige tests (instrumenten in engere zin) leveren meerdere scores (variabelen) op. Wij laten zulke samengestelde instrumenten in dit hoofdstuk echter buiten beschouwing; of liever, wij beschouwen b.v. een test, die n scores oplevert, als een stel van n instrumenten (vgl. ook 9;3). In dit hoofdstuk wordt met ‘instrument’ verder steeds ‘instrument in ruimere zin’ (corresponderend met een empirische variabele) bedoeld, tenzij uitdrukkelijk anders aangegeven. voetnoot1 De toevoeging ‘gerekend vanaf een bepaald punt’ is noodzakelijk, omdat dat wat wij als materiaal, als primaire waarnemings- of registratie-uitkomsten beschouwen, variabel is. Men kan bijvoorbeeld uitgaan van door een proefleider of waarnemer gemaakte observatie-protocollen. Beschouwt men deze protocollen als het in de variabele te verwerken materiaal, dan kan de variabele ‘objectief’ zijn - van hier af gerekend - ongeacht het feit, dat de protocollen zelf door de invloed van de waarnemer gecontamineerd en door (systematische) ‘distorties’ en (toevallige) ‘ruis’-verschijnselen (zie 8;3) vertekend kunnen zijn. Gerekend vanaf een vroeger punt is de variabele niet objectief, wegens de aanwezigheid van een observator-beoordelaar. Mutatis mutandis gelden trouwens dezelfde overwegingen, als het materiaal wordt verkregen via registratie-instrumenten, bijvoorbeeld door fotografie. Ook daarbij kunnen gemakkelijk contaminaties in de registratie-methode ingebouwd zijn (b.v. belichtings- of gezichts-hoek-effecten), terwijl zich ook transmissie-distorties en ruis-effecten kunnen voordoen. Ook hier hangt de vraag of de variabele ‘objectief’ is ervan af, waar men begint, d.w.z. wat men als primaire gegevens beschouwt. voetnoot1 De toevoeging ‘in het algemeen’ beoogt rekening te houden met, overigens uitzonderlijke, gevallen waarin b.v. een - eveneens objectieve - randomisering (zie 6;3;3 en 6;3;4) in de meet-procedure is ingebouwd. Zo zou bijvoorbeeld de instructie aan de ‘klerk’, die de ‘egocentriciteit’ van de schrijver uit teksten van brieven moet meten (vgl. 7;1;2), kunnen luiden: neem niet alle brieven of brief-bladzijden in aanmerking, maar slechts één vijfde, en bepaal welke dit zullen zijn via een tabel van aselecte getallenreeksen. Voor het begrip ‘eenwaardige transformatie’ (single-valued transformation) zij verwezen naar 6;2;1 en naar ashby 1957. voetnoot2 Een behandeling van dit onderwerp met het oog op een ruimer toepassingsgebied vereist zekere generalisaties en, soms, afwijkingen in de begripsvorming. Hieruit is te verklaren - dit voor de lezer, die in de testtheorie thuis is - dat b.v. begrippen als ‘predictieve-’ en ‘begrips-validiteit’ hier anders gedefinieerd zullen worden dan in de meeste test-handboeken (zie 8;2).

Vorige Volgende

Methodologie

8. Criteria voor empirische variabelen en instrumenten

8;1 Instrumentele utiliteit van een variabele

8;1;1 Relaties tussen grondbegrippen: recapitulatie.

8;1;2 Instrumentele utiliteit: definitie.

8;1;3 Drie constructie-eisen; drie criteria.