Methodologie
(1961)–A.D. de Groot– Auteursrechtelijk beschermd6;3 Objectieve selectie van toetsingsmateriaal6;3;1 Universum en steekproef.Wij hebben in 6;1;3 gezien, dat naast het empirisch specificeren (instrumenteel realiseren) van begrippen, het selecteren van toetsingsmateriaal een fundamentele en telkens terugkerende handeling in het opzetten van een onderzoek is, en dat zich daarbij objectiviteitsproblemen voordoen. Nadat begripsspecificaties de hypothese in kwestie hebben gespecificeerd (en gewoonlijk verbijzonderd) tot in de operationele vorm waarin zij getoetst zal worden, is nog een laatste stap nodig, namelijk selectie van toetsingsmateriaal, om de operationele hypothese in een voorspelling om te zetten. Anders uitgedrukt: de hypothese, ook in haar meest gespecificeerde, operationele vorm, heeft betrekking op een universum, de voorspelling echter op een steekproef, op bepaalde wijze te trekken of reeds getrokken uit dat universum (vgl. 3;4). | |
[pagina 194]
| |
Nemen wij het in hoofdstuk 5 behandelde onderzoek van Barendregt nog eens als voorbeeld, dan was voor de experimentele groep het universum in eerste instantie, d.w.z. bij de hypothese zoals afgeleid uit de theorie: ‘alle astmapatiënten’. Door de beperking in de opzet van het onderzoek werd hiervan echter slechts een deelverzameling bekeken: gehospitaliseerde, mannelijke astmapatiënten, die aan zekere statistische leeftijds-, intelligentie- en beroepsniveau-eisen voldeden. De gespecificeerde, experimentele hypothese-zoals-getoetst had dus betrekking op het sub-universum of op de sub-populatie van ‘alle astma-patiënten’ die aan deze beperkingen en eisen voldoen. De proefgroep van twintig patiënten was een steekproef uit deze ‘experimentele’ of ‘operationele’ populatie. Wanneer wij echter de inhoud van de operationele hypothese en van de feitelijke voorspelling nader bekijken, dan kunnen en moeten wij nog verder gaan. Strikt gelezen hadden beide betrekking niet op patiënten, personen, maar op hun Rorschach-reacties, en wel in het bijzonder op de waarden van de hostility-index van Elizur. Maken wij deze stap, dan gaan wij over van de populatie van personen naar het universum van verkrijgbare scores.Ga naar voetnoot1 Dit maakt verschil, omdat in de tweede formulering de vraag in hoeverre de scores kunnen worden beschouwd als (betrouwbare) attributen van de persoon nu apart kan worden gesteld, los van de operationele hypothese, die alleen betrekking heeft op scores-zoals-verkregen of -verkrijgbaar. Wij weten dat zowel de proefleider P als de beoordelaar B de uitkomsten mede kunnen beïnvloeden (vgl. 5;2;4 en 5;3;2), wij weten ook, dat Rorschach-indices in het algemeen niet al te betrouwbaar zijn; maar met dit alles hebben wij niets te maken als wij de hypothese strikt | |
[pagina 195]
| |
operationeel opvatten. Zij heeft dus betrekking op het universum van alle, per Rorschach-proefleider P en beoordelaar B verkrijgbare indices van Elizur van al die astma-patiënten, die aan de boven omschreven specificaties van de operationele populatie voldoen. Wij noemen dit universum van, zo en zo verkrijgbare, scores het operationele universum. Bij de toetsing wordt in eerste instantie een steekproef uit dit operationele universum onderzocht; de zuiver statistische generalisatie gaat niet verder dan tot de confirmatie van de (operationele) hypothese met betrekking tot dit (operationele) universum. Uit dit voorbeeld blijkt, van hoe groot belang het is, bij de doordenking van een toetsingsopzet enerzijds, en bij de confirmatie en evaluatie van toetsings-uitkomsten anderzijds, zich in termen van universa (c.q. populaties) en sub-universa rekenschap te geven van de effecten van verbijzonderingen van het probleem (5;2;2), van empirische specificaties (operationalisering) van begrippen (5;2;3) en van de specifieke condities van de experimentele opzet (5;2;4). Alleen als men dit doet, zijn de generalisatie-stappen bij het confirmatie- en evaluatie-proces - dus bij ‘de weg terug’ - scherp te onderscheiden. Wat is nu het trekken van een steekproef uit een universum? De term suggereert een willekeurige, toevallige greep (‘trekking’ of ‘steek’), of, meer technisch uitgedrukt, een ‘aselecte’ procedure (zie 6;3;3). Maar in het praktische gebruik van de term (Eng. sample) wordt dit weliswaar soms inderdaad geïmpliceerd, maar toch niet consequent gehandhaafd. Een steekproef kan ook geconstrueerd zijn, zorgvuldig verzameld op basis van voor het onderzoek gewenste variaties of procentuele verdelingen in bepaalde variabelen. Van ‘steken’ is dan, tenminste wat die variabelen betreft, geen sprake meer. Ook is een steekproef niet vanzelfsprekend ‘representatief’ voor het universum, waaruit hij is getrokken: een ‘scheefgetrokken’ steekproef (biased sample) is ook een steekproef.Ga naar voetnoot1 Men kan | |
[pagina 196]
| |
hoogstens zeggen, dat het begrip steekproef past in een context van wetenschappelijk, althans op generalisatie gericht onderzoek; waarbij gewoonlijk (niet altijd) de bedoeling voorzit, dat de steekproef voor het doel in kwestie als representatief kan worden beschouwd. Wij besluiten daarom tot de volgende begripsbepaling: ‘een steekproef trekken uit een universum’ betekent: een subgroep van elementen uit het universum afzonderen en bestemmen voor een nader onderzoek, dat erop gericht is conclusies te trekken niet alleen over de subgroep zelf, maar ook met betrekking tot het universum en/of met betrekking tot de te verwachten bevindingen bij nieuwe steekproeven uit het universum. Niet alle gevallen van selectie van onderzoekmateriaal vallen hieronder. Als een onderzoeker bijvoorbeeld een universum heeft van enkele tientallen of honderdtallen gevallen, bijvoorbeeld de populatie van keizers van het Romeinse Rijk, en hij laat, laten wij zeggen bij een onderzoek naar de grenzen van hun macht, vier of vijf keizers buiten beschouwing omdat zij te kort hebben geregeerd of omdat hij ze om andere redenen als oneigenlijke gevallen beschouwt, dan is dat wel ‘selectie van onderzoekmateriaal’, maar géén steekproef-trekken. De bedoeling om naar de complete populatie te generaliseren zit niet voor; wij hebben te doen met een beperking van de populatie zelf. Overigens kunnen zich ook hierbij objectiviteits-problemen voordoen; zie verder 6;3;4. | |
6;3;2 Verscheidenheid van universa.Men kan vele soorten universa onderscheiden. Men kan in de eerste plaats letten op het aantal variabelen, het aantal kenmerken waarop ieder element van de verzameling (c.q. populatie) een bepaalde, kwantitatieve of kwalitatieve ‘waarde’ wordt geacht te hebben. Daarbij kan men wel al van een universum (c.q. populatie) spreken, als deze variabelen nog niet gespecificeerd zijn; het universum is echter pas volledig gedefinieerd, als dit wel is vastgelegd. Men noemt het aantal variabelen ook wel eens het aantal ‘componenten’ - als ieder element als een vector wordt opgevat - of ook het aantal ‘dimensies’ of de ‘dimensionaliteit’ van het universum. Dit laatste is echter een wat verwarrende term, daar hij vaak in een andere betekenis wordt gebruikt. Wij zullen hier alleen van het aantal variabelen spreken. Een andere formele onderscheiding is die naar eindige en oneindige universa. Bij oneindige universa kunnen natuurlijk niet de waarden voor | |
[pagina 197]
| |
de variabelen van alle individuele elementen empirisch worden bepaald; zulke universa hebben dus noodzakelijkerwijze een hypothetisch karakter. Zij worden vaak, al dan niet explicite, als denk-hulpmiddel gebruikt voor de behandeling van variabelen, die men empirisch bepaalt door middel van ‘in principe onbeperkt herhaalbare’ experimenten. Men kan zich dan bijvoorbeeld het operationele universum denken als de verzameling van alle uitkomsten van ‘op dezelfde wijze’ ingerichte experimenten met andere steekproeven uit dezelfde populatie. Ook als het trekken van telkens nieuwe steekproeven van ‘objecten’ (c.q. individuen) uit de populatie aan praktische beperkingen gebonden is - wat in de wetenschappen van de dode natuur zelden, maar in de gedragswetenschappen vaak het geval is - kan men de hypothese-toetsing statistisch behandelen alsof er sprake is van een experimentele steekproef uit een oneindig universum. Men denkt daarbij eigenlijk nauwelijks aan de praktische mogelijkheid van herhaling ‘naar willekeur’, zelfs niet bij experimenten, waarvoor men, bijvoorbeeld, zeer bepaalde proefdieren van een zich langzaam reproducerende soort nodig heeft, of zeer bepaalde proefpersonen (b.v. mannelijke, gehospitaliseerde astma-patiënten, enz., zie boven), die maar één maal als proefpersoon kunnen dienen. Soms werkt men met een praktisch geheel fictief oneindig universum. Zo wordt in de testtheorie (zie b.v. gulliksen 1950) het begrip ‘ware score’ gewoonlijk gedefinieerd als de veronderstelde limiet waartoe het score-gemiddelde van deze proefpersoon zou naderen als het mogelijk zou zijn de test een onbeperkt aantal malen af te nemen of een onbeperkt aantal zgn. paralleltests af te nemen - terwijl in werkelijkheid één herhaling empirisch al dubieus wordt, vanwege het leer-effect enerzijds, mogelijke vermoeidheids- en verzadigings-verschijnselen anderzijds (vgl. 8;3;2). Niettemin valt er zinvol met het begrip te werken. Van deze nog wel op empirische veronderstellingen gebaseerde, maar fictief oneindige universa van gebeurtenissen (b.v. het experiment), materialen (paralleltests), conditie-variaties, experimentele subjecten (proefpersonen of proefdieren), uitslagen (testscores van een proefpersoon bij herhalingen) is de stap naar de theoretische universa van getallen of andere abstracte symbolen, waarmee de statisticus werkt, niet zo groot meer. Zulke theoretische universa, met name theoretische verdelingen van de variabelen in zulke universa, worden gebruikt als modellen voor empirische universa, d.w.z. als modellen voor hoe empi- | |
[pagina 198]
| |
rische universa er qua verdeling en afgeleide parameters zouden uitzien, als bepaalde theoretische veronderstellingen (b.v. een nulhypothese, en dikwijls de fictie van een onbeperkte herhaalbaarheid) strikt zouden gelden (vgl. 7;2;3). Het gebruik van zulke modellen maakt mathematischstatistische behandeling van hypothesen en steekproef-uitkomsten mogelijk. Een theoretisch universum behoeft natuurlijk niet oneindig te zijn; de getallen van 1 t/m 10 vormen ook een verzameling van elementen met een variabel kenmerk. Omgekeerd geldt wel, dat een empirisch universum - zonder ‘fictie’ - eindig moet zijn, al hoeft het niet altijd als zodanig te worden behandeld. Eindige en uitdrukkelijk als eindig te behandelen universa komen vooral voor bij, niet-experimentele, onderzoekingen van bestaande materialen. Hier kan het universum gesloten zijn, zoals bijvoorbeeld de in 6;3;1 genoemde populatie van Romeinse keizers of het universum van (kenmerken van) geboekstaafde middeleeuwse Sint Nicolaas-legenden in de westerse traditie (vgl. 9;2). Gaat het echter om het opstellen en toetsen van een politicologische theorie over de samenhang tussen de voorkeursverhoudingen en eenheid of verdeeldheid van opinie in de maanden vóór de kandidaats-verkiezingen binnen de twee grote politieke partijen, en de uitslag van de daarop volgende presidentsverkiezingen in Amerika (david 1960), dan is het universum uitdrukkelijk open. Maar het moet in dit geval toch ook als eindig worden behandeld; evenmin als het Romeinse keizerrijk zal de Amerikaanse democratie in deze vorm (twee-partijen-systeem) eeuwig blijven bestaan. De onderzoeker kan bij een dergelijk onderwerp trouwens verschillende standpunten innemen, d.i. keuzen doen over wat hij als universum (en wat als steekproef) beschouwt. Hij kan om te beginnen, desgewenst, (de variabelen van) de politieke geschiedenissen van de 63 presidentsverkiezingen in het verleden als het universum zelf beschouwen en dit alleen descriptief bewerken (vgl. 9;1;4). Zodra de bewerking echter interpretatief wordt (9;1;6) en zeker als zij exploratief wordt (9;1;5), d.i. als uitdrukkelijk gezocht wordt naar algemene wetmatigheden, die het verschijnsel ‘Amerikaanse presidentsverkiezingen’ beheersen, komt er een inductief element in het spel. De 63 gevallen zijn geen universum meer, maar zij vormen ook geen (toetsings-)steekproef: zij zijn het ‘uitgangsmateriaal’ (van de, in geval van interpretatie impliciete, in geval van exploratie expliciete hypothesevorming; vgl. 2;2). De eerst- | |
[pagina 199]
| |
volgende verkiezingsuitslag kan nu als test case dienen, dus: een toetsingssteekproef zijn van de grootte 1 (vgl. 9;2;3). Maar de 63 gevallen kunnen ook zèlf steekproef zijn, namelijk wanneer specifieke (Amerikaanse) verkiezings-hypothesen zijn verkregen als operationele specificaties van meer algemene hypothesen (b.v. over mechanismen bij de wervingsstrijd tussen twee machtige groeperingen in democratieën in het algemeen), die op een andere empirische basis zijn opgesteld; bijvoorbeeld onderzoekingen in het niet-politieke verenigingsleven of politicologische studies in andere landen. Een tussenvorm - die helaas weinig wordt toegepast, vgl. 9;2;5 - is deze, dat de onderzoeker zijn hypothesen welbewust ontwikkelt aan een deel van het Amerikaanse verkiezingsmateriaal, bijvoorbeeld de aselect gekozen helft van de 63 verkiezingsgeschiedenissen (uitgedrukt in variabelen van het Amerikaanse, open universum), en deze toetst aan de, totzover nog niet bewerkte, dus ‘nieuwe’ andere helft als steekproef. Uit deze beschouwingen en met name uit het laatste voorbeeld blijkt, hoe wijzigingen van gezichtspunt, van opvatting en van methodiek in een onderzoek - wijzigingen, die zich tijdens de bewerking en zeker in een onbevangen discussie over een probleem in een ogenblik en vaak ongemerkt kunnen voltrekken - de verhoudingen van steekproef en universum (en ook van hypothesevorming en hypothesetoetsing) telkens wijzigen. Dit is een algemeen verschijnsel: men kan, en men moet in het wetenschappelijk denken, en met name bij de opzet van een toetsingsonderzoek, telkens in termen van andere universa (en steekproeven) denken. Stelt men bijvoorbeeld een test samen, dan zijn de items, die men kiest, te zien als een steekproef, die aan zekere representativiteitseisen moet voldoen, uit het universum van mogelijke items (vgl. 8;2;3, onder inhoudsvaliditeit). De score van een proefpersoon is echter, uit betrouwbaarheidsoogpunt gezien (vgl. hierboven: het begrip ‘ware score’), op te vatten als een steekproef ‘van de grootte 1’ uit het fictieve universum van alle scores, die hij behaald zou hebben als onbeperkte herhaling van het experiment mogelijk zou zijn geweest; maar het is ook een steekproef (van de grootte 1) uit het universum van alle proefpersoon-scores. De proefpersoon zelf, met zijn scores en mogelijke andere variabelen, is een element, de experimentele groep een steekproef uit een populatie; en die populatie kan, en moet dikwijls, weer op allerlei manieren worden gezien: alle mannen, alle mannelijke astma-patienten, alle gehospitali- | |
[pagina 200]
| |
seerde mannelijke astma-patiënten van omstreeks 40 jaar, in Amsterdam, enz. Iedere beperking in de populatie, en evenzo ieder keuze van een beperkende experimentele conditie (b.v. van de proefleider) kan weer worden gezien als één uit een universum van mogelijke beperkingen (vgl. 5;3;3). Bij de statistische toetsing worden de uitkomsten opgevat als resultaten op een steekproef uit het universum van onder de nulhypothese mogelijke uitkomsten; en tenslotte kan men het eindresultaat (b.v. ‘significant op 5% niveau’) weer zien als een element uit het universum van alle resultaten van soortgelijke (mogelijke) onderzoekingen. De onderzoeker moet dus in staat zijn telkens zijn gezichtspunt, zijn universum-steekproef-conceptie te wijzigen bij de ontwikkeling van en discussie over zijn probleemstelling en zijn experimentele opzet. Beperken wij ons tot de deductieve lijn, die, als hij eenmaal gevonden is, voor een enkelvoudige hypothese rechtstreeks van theorie naar voorspelling voert, dan is het gebeuren echter in vrij eenvoudige termen te beschrijven: als een reeks keuzen (5;1;1), als een reeks van deductie- en specificatie-stappen (3;2), als een voortschrijdende operationalisering van de hypothese via instrumentele realisering van begrippen (6;2), als een proces dat van de hypothese-zoals-afgeleid (uit de theorie) voert naar de operationele hypothese-zoals-te-toetsen (5;2). Tenslotte hebben wij in 6;3;1 gezien, opnieuw aan het astma-voorbeeld van hoofdstuk 5, dat de specificaties, die tot de operationele hypothese leiden, stuk voor stuk ook te beschrijven zijn als universum-specificaties. Alleen de (logisch) laatste stap, die van de operationele hypothese naar de voorspelling, d.i. de stap van de keuze van het toetsingsmateriaal, is niet in termen van operationalisering noch in termen van universum-wijzigingen te beschrijven. Deze heeft een eigen karakter, en daardoor zijn eigen objectiviteitsproblemen. Deze zullen hieronder kort worden besproken, eerst voor steekproefkeuze in statistische zin (6;3;3), daarna voor andere vraagstukken van materiaal-selectie (6;3;4). | |
6;3;3 Objectieve steekproef-keuze.De keuze van een steekproef uit een universum(c.q. populatie) geschiedt met de bedoeling bepaalde, vooraf aangegeven, bevindingen in het steekproefmateriaal te generaliseren naar het universum. Dat deze keuze niet subjectief bepaald mag zijn - met als mogelijke consequentie een keuze van gevallen waarin de voorspelling een grotere (of kleinere) kans heeft | |
[pagina 201]
| |
om uit te komen - is natuurlijk evident, tenminste wanneer het probleem in deze abstracte vorm wordt gesteld. De ervaring heeft echter geleerd, dat in enigszins ondoorzichtige probleemsituaties op allerlei moeilijk voorzienbare wijzen subjectieve en andere systematisch storende factoren kunnen binnensluipen (6;1;2). Daarom volstaat men gewoonlijk niet met een aanmaning aan de onderzoeker; men zoekt, ook hier, naar een objectieve techniek van steekproefkeuze. Dit doel is te bereiken door de keuzebeslissingen te doen berusten op een principe, waarvan men de garantie heeft, dat het niets te maken heeft met de probleemstelling in kwestie. Het enige ‘principe’ echter, waarvoor deze garantie altijd ten volle bestaat, is dat van de loting: de keuze moet op ‘toeval’ berusten, aselect geschieden (vgl. hemelrijk 1961). Vandaar dat een veel gebruikte keuze-techniek die van de aselecte steekproef-bepaling (random sampling) is. In concreto: wil men een steekproef van de grootte n uit een universum van N elementen trekken, dan doet men dit volgens een procedure, waarbij iedere mogelijke combinatie van n elementen uit de gegeven N een gelijke kans heeft om gekozen te worden. De statistische significantie-bepaling - voor de generalisatie naar het universum - berust in principe altijd op de veronderstelling van een dergelijke aselecte procedure. De keuze van n uit N, dus van een steekproef van gegeven grootte uit een eindig, gesloten universum, zonder veel verdere complicaties, is een standaard-probleem bij (b.v.) opinie-onderzoek in een land, of, om een voorbeeld uit een geheel andere hoek te nemen, bij de statistische controle op een gegeven, grote partij produkten, of, weer uit een geheel andere sector, bij statistische onderzoekingen naar taalgebruiks-eigenaardigheden (guiraud 1954). In de leerboeken voor sociale onderzoek-methoden (b.v. selltiz jahoda, deutsch en cook 1959; festinger en katz 1953) worden, behalve de eenvoudig aselecte steekproeftrekking (simple random sampling), waarvan het principe zo juist beschreven werd, ook andere methoden aanbevolen. Soms heeft het statistische of praktische voordelen de populatie in ‘strata’ te verdelen (b.v. geografisch: in provincies, of naar godsdienst, of naar etnische groepen, b.v. negers-blanken) en per stratum een steekproef te trekken, al dan niet in grootte evenredig aan de grootte van het stratum in de populatie. Daarna worden de uitkomsten per stratum gecombineerd (stratified sampling). Soms werkt men met grotere eenheden, of in étappen, door bijvoorbeeld schoolkinderen naar | |
[pagina 202]
| |
scholen te verdelen, stadsbewoners naar families, blokken of wijken, om dan eerst een steekproef uit het universum van die grotere eenheden te bepalen en daarna of alle individuen per eenheid in de steekproef op te nemen (cluster sampling), of opnieuw een steekproef binnen de eenheid te bepalen. Tenslotte wordt gewoonlijk als methode vermeld de zgn. systematische steekproeftrekking (systematic sampling), d.i. selectie volgens een ander principe dan strikt toeval, waarvan men echter ‘de garantie heeft, dat het niets te maken heeft met de probleemstelling in kwestie’ (zie boven). Dit is des te beter gegarandeerd, naarmate het principe in kwestie ‘zinlozer’ is ten opzichte van de probleemstelling in kwestie: men kiest bijvoorbeeld ieder tiende huis in een straat, iedere vijfentwintigste naam in een lijst, of men neemt uitsluitend personen, die als derde letter in hun achternaam een a hebben, of iets dergelijks. Voor de details en statistische bijzonderheden van al deze procedures verwijzen wij naar de literatuur. Grotere complicaties kunnen zich voordoen bij open universa, c.q. bij open populaties. De tegenstelling gesloten-open laat zich voor de gedragswetenschappen goed illustreren door de probleemstelling van opinieonderzoek te vergelijken met die van hypothese-toetsing in de psychologie. In het eerste geval is relatief gemakkelijk aan te geven op welke populatie de generalisaties uit steekproefbevindingen betrekking zullen hebben; het in 3;1;5 genoemde vierde desideratum voor de formulering van hypothesen (omlijnde empirische referentie) is niet moeilijk te vervullen. Aangezien het gaat om een peiling van nù bestaande meningen, is de populatie eenvoudig - in de letterlijke betekenis - de ‘bevolking’ van een bepaald land, een stad, een streek, althans een omschrijfbare sector daaruit (b.v. alle nu levende volwassen mannen in Amsterdam). De vraag hoe men hieruit een steekproef, n uit N, moet trekken, is alleen een technisch probleem. De pretentie van de psychologie daarentegen is algemene wetten te vinden, die of voor ‘alle mensen’ of voor specifieke sub-populaties gelden (b.v. ‘alle astma-patiënten’), die echter niet aan de bevolking nù gebonden zijn. De populatie is dus ‘open’: er waren vroeger mensen en er komen in de toekomst méér mensen (c.q. astma-patiënten), waarvoor wij althans hopen, dat de te vinden wetten ook gegolden hebben, respectievelijk zullen gelden. We weten echter ook, dat de mens psychisch evolueert, afhankelijk is van de cultuur waarin hij leeft en dat ziektebeelden zich | |
[pagina 203]
| |
met veranderingen in de cultuur kunnen wijzigen, enz. Wij werken dus met een populatie, waarvan wij moeten aannemen, dat de elementen met de tijd - en met de plaats, van cultuur tot cultuur - veranderen, welke veranderingen wij echter menen te kunnen verwaarlozen; tot op een zekere grens, die wij niet precies kunnen aangeven. Het is moeilijk uit een dergelijke populatie een representatieve steekproef te trekken. Er kunnen zich nog andere complicaties voordoen - die weer aan Barendregt's onderzoek te illustreren zijn. Het ging daarbij, zoals we gezien hebben om een vergelijking, op het punt van uitingen van ‘vijandigheid’, tussen twee groepen, namelijk ulcus- en astma-patiënten. De mogelijke invloed van een factor als intelligentie werd uitgeschakeld, door de beide steekproeven naar intelligentie te ‘matchen’, d.i. statistisch gelijk te schakelen. Nemen wij nu echter aan, dat in het algemeen ulcuspatiënten gemiddeld intelligenter zijn dan astma-patiënten - daarvoor zijn zekere aanwijzingen - dan kùnnen de proefgroepen, na matching, al niet meer beide representatieve steekproeven uit hun populaties vormen. Ook overigens bestond hiervoor geen garantie, bij de gevolgde ‘systematische’ methode van samenstelling van de proefgroepen: wachten, tot er in de betreffende kliniek genoeg patiënten beschikbaar waren om vergelijkbare groepen van 20 te kunnen samenstellen (vgl. 5;3;2). Met andere woorden: reële confirmatie-overwegingen (5;1;2) en praktische overwegingen (5;1;3) hebben geleid tot een experimentele opzet, die een zuiver statistische generalisatie naar de populatie van ‘alle’ astma- en ‘alle’ ulcus-patiënten - gesteld, dat deze populaties scherp te omschrijven zouden zijn - onmogelijk maakt. Er is klaarblijkelijk maar één oplossing voor dit probleem. Wij moeten constateren, dat als consequentie van een op goede theoretische en praktische gronden gekozen experimentele opzet, het operationele universum, waarop de in feite getoetste operationele hypothese betrekking heeft, zich heeft versmald. Algemeen gesteld: als een steekproef onder, bewust aangebrachte (c.q. experimentele) en duidelijk onderscheidbare beperkingen en condities is geconstrueerd, dan is het mogelijk een operationeel universum te definiëren, waaruit deze steekproef kan worden geacht een representatieve, objectieve greep te zijn. Nog anders: men manipuleert ten behoeve van de statistische generalisatie niet de steekproef, maar het universum, om het probleem van de objectieve keuze op te lossen. Het komt er dan natuurlijk maar op aan, ten eerste, of de aangebrachte | |
[pagina 204]
| |
beperkingen en condities verantwoord zijn, en, ten tweede, of de bevindingen voor het operationele universum geacht kunnen worden confirmatiewaarde te bezitten voor de oorspronkelijke hypothese-zoalsafgeleid (het generalisatieprobleem). Voor een discussie hiervan kunnen wij echter verwijzen naar 5;2 en 5;3;3. Bij praktijk-problemen van voorspelling en toetsing, waarbij niets te winnen valt met een aanpassing van het (open) universum aan de steekproef, is de constructie van geschikte steekproeven vaak een nog moeilijker probleem. Als men de voorspellende waarde van schoolcijfers of testscores voor studiesucces aan een bepaalde onderwijsinstelling wil onderzoeken (validatie-onderzoek, in de zin van hypothese-toetsing), dan is het universum ongeveer: alle zich aanmeldende studenten in, laten wij zeggen, de komende 10 jaren - onder de, vaak helaas onjuiste, aanname, dat noch het aanbod, noch het onderwijs zich in belangrijke mate zal wijzigen. Daaruit is geen aselecte steekproef te trekken op het tijdstip waarop men het onderzoek wil doen. Natuurlijk kan men wel een aselecte steekproef trekken uit één jaargang als universum, of ook dit gehele ‘universum’ onderzoeken - wat vaak de beste methode is - maar dan blijven achteraf vele moeilijke confirmatie- en generalisatie-problemen op te lossen. Iets beter oplosbaar zijn problemen als het volgende. Men wil aan een kliniek twee vormen van psychotherapie, A en B, voor dezelfde groep van, bijvoorbeeld, neurotici vergelijkend evalueren (vgl. 6;2;2): hoe stelt men, aselect of systematisch, vergelijkbare groepen (steekproeven) samen? Voor dergelijke problemen geldt, dat iedere vorm van rekening houden, met bijvoorbeeld de ernst van de klachten, de sociale status, de leeftijd, de overtuigingskracht van de patiënt enz. een contaminatie kan introduceren (vgl. b.v. de kritiek op rogers en dymond 1954 in eysenck 1961). De keuze-procedure moet dus zo zinloos mogelijk, ‘blind’ zijn - zoals ook Justitia geblinddoekt is. Een soms bruikbare oplossing is de patiënten eerst door één medewerker te laten voorsorteren op objectieve gronden: wel of niet meedoen aan het onderzoek; en daarna per patiënt door een aselecte procedure (loting, in principe) te doen vaststellen of hij therapie A of B krijgt. Wil men de twee groepen gelijk in aantal hebben en ze zo vlug mogelijk vullen, dan kan men de patiënten ook, in volgorde van aanmelding, om en om aan A of B toewijzen - mits de medewerker, die de voorsortering verricht, volstrekt onkundig is van het, even of oneven, | |
[pagina 205]
| |
nummer van de patiënten, die hij op hun geschiktheid beoordeelt, en zelfs onkundig is van het feit, dat er ‘om en om’ wordt gewerkt! De praktische, maatschappelijke problemen bij het samenstellen van een steekproef zijn vaak de moeilijkst oplosbare. Als, bij het laatste voorbeeld, de medicus, die het onderzoek leidt, bijvoorbeeld de persoonlijke overtuiging heeft, dat voor ernstige gevallen therapie A beter is dan B, dan zal hij een aselecte procedure van toewijzing, ‘ter wille van de wetenschap’, waarschijnlijk niet verantwoord achten. Of: als bij een systematische steekproeftrekking voor een opinie-onderzoek - om de gedachten te bepalen - een deel van de bewoners van ‘ieder tiende huis in de straat’, niet thuis is of geeft, dan kàn men natuurlijk het huis ernaast nemen. Het risico is dan echter, dat een selectie ten gunste van de meer honkvaste, of meer aanspreekbare, toegankelijke, praatgrage of geïnteresseerde respondenten ontstaat. Nog duidelijker doen deze problemen zich voor bij schriftelijke enquêtes, waarop men tenslotte niet hóéft te antwoorden, en met testonderzoekingen waarbij men niet gedwongen is op te komen. Waar vrijwilligheid van deelname in het spel is, zijn de objectiviteitsmoeilijkheden dikwijls vrijwel onoplosbaar. Ook beperking van de populatie (tot de ‘meer bereidwillige helft’) is geen oplossing, omdat men niet weet in hoeverre deze factor in het spel is geweest, dus: wat een dergelijke populatie eigenlijk waard is. Het beste is condities van vrijwillige deelname, waar enigszins mogelijk, bij toetsingsonderzoekingen geheel te vermijden. | |
6;3;4 Objectieve uitschakeling.Bij klassikale onderzoekingen op lagere scholen in Nederland en Amerika werden door van busschbach (1952-1958) raad-experimenten gehouden, met de bedoeling het bestaan van buitenzintuigelijke waarneming (extra sensory perception, ESP) aan te tonen. De onderwijzeres was ‘zender’, onzichtbaar opgesteld voor de kinderen; zij moest zich in een door de proefleider aangegeven tempo - een bons met de stok op de grond - telkens op één van drie figuurtjes concentreren, in een haar opgegeven volgorde. De kinderen moesten telkens raden aan welk figuurtje de onderwijzeres nu dacht; zij moesten hun keuze aangeven door het betreffende figuurtje op hun proefformulier aan te strepen. Op deze formulieren waren voor dit doel voor iedere beurt (bons) de drie figuurtjes naast elkaar gedrukt, in een gevarieerde volgorde van links naar rechts, en in kolommen | |
[pagina 206]
| |
van 12 drietallen onder elkaar. De experimentele vraagstelling in haar eenvoudigste vorm was, uiteraard, of het aantal treffers van de kinderen, bij elkaar genomen, significant zou uitkomen boven wat op grond van toeval te verwachten is (1 op de 3). Op weinig gebieden zijn de objectiviteitsproblemen zo veelvuldig en de contaminatie-mogelijkheden zo verraderlijk als bij dit type onderzoek. In veel gevallen - zij het niet in alle - is gebleken, dat de onderzoekers, die er wel in ‘geloven’ (zoals Rhine, zie b.v. rhine en pratt 1957), positieve resultaten verkrijgen bij telepathie- of helderziendheids-experimenten; onderzoekers, die er niet in geloven, echter meestal niet - zonder dat duidelijk is, of, en zo ja, waar er bij de eersten contaminatie is ingeslopen. Het is van groot belang de experimentele condities zeer strak te houden, om de mogelijkheid van onwillekeurig gegeven en onwillekeurig maar toch zintuigelijk opgevangen, seinen of indicaties volstrekt uit te sluiten. Zo mogen de kinderen de zender (onderwijzeres) niet zien tijdens het experiment, maar ook op generlei wijze hóren: het sein voor de ‘volgende’ wordt daarom gegeven door de proefleider, die de zender tijdens het experiment evenmin mag zien of horen. Ook mag de proefleider geen enkele indicatie hebben over de volgorde waarin de zender zich op de verschillende figuurtjes concentreert: iedere hypothese, die hij daarover stelt, moet tevergeefs zijn.Ga naar voetnoot1 Het zal duidelijk zijn, dat de oplossing van dit laatste probleem weer gevonden kan worden door de keuze van het te bekijken figuurtje aselect te maken. De onderwijzeres moet haar keuze laten bepalen via aflezing van een willekeurige en uiteraard aan de proefleider onbekende reeks uit een tabel van aselecte getallen (table of random numbers). Daar zit geen (aangebrachte) regelmaat in; en de proefleider weet, dat hij daarop op geen enkele rationele wijze vat kan krijgen. Hieruit blijkt, dat randomisering ook voor andere problemen dan die van steekproef-keuze een belangrijke objectieve techniek kan zijn. Speciaal kwesties van volgorde of ruimtelijke opstelling bij de aanbieding van prikkels zijn vaak geschikt door | |
[pagina 207]
| |
randomiseringsprocedures op te lossen, als men (suggesties van) regelmaat wil vermijden. Belangrijker is echter het volgende probleem, dat zich bij de bewerking van het materiaal voordeed, en dat weer ligt op het gebied van de objectieve selectie van toetsingsmateriaal - hoewel men het ook kan zien als een kwestie van codering (vgl. 7;1). Aangezien het materiaal van alle kinderen uit één klas en voor de eindbewerking zelfs van verschillende klassen bij elkaar werd genomen, kan men zeggen, dat één ‘item’, d.i. een aangestreept drietal, een element in de steekproef (en in het universum) voorstelt. Sommige kinderen hadden zich echter niet altijd aan de instructie gehouden en soms in plaats van één figuurtje, er twee, of drie of geen enkele aangestreept. Mag men deze elementen eenvoudig uit de steekproef uitschakelen en het percentage treffers op het overblijvende totaal berekenen? De vraag lijkt simpel, en zij is in deze vorm ook niet moeilijk te beantwoorden: er is geen bezwaar tegen. Uitschakeling van gevallen uit een steekproef is echter een précaire zaak. Zeer dikwijls is dit de plaats waar zich ter elfder ure nog een contaminatie binnendringt. Bij experimenten op dit zo omstreden gebied, waar de effecten, als zij reëel zijn, in ieder geval meestal zo zwak zijn, dat men honderden elementen nodig heeft om significante scores te produceren, is extra voorzichtigheid geboden. Laten wij de vraag daarom toch iets nader bekijken. De behandeling van ‘drie’ of ‘nul aangestreept’ is eenvoudig genoeg. Dit staat gelijk met géén antwoord: de proefpersoon verstrekt geen informatie over zijn keuze. Niet meetellen is dus de enige adequate oplossing. ‘Twee aangestreept’ verstrekt echter wel een zekere informatie: de derde is het niet. Onder de nulhypothese (er is géén ESP in het spel: treffers berusten op toeval) is er een kans van twee op drie, dat dit toevallig juist is; men zou dus eventueel, als de derde het inderdaad niet is, een halve treffer kunnen scoren. Maar uitschakeling van ook deze gevallen, gering in aantal, is een eenvoudiger oplossing. De gedachtengang is dan, dat de proefpersoon zich bij dit item niet aan de instructie heeft gehouden, dus eigenlijk ook hier géén antwoord heeft gegeven. Men heeft echter in het geheel geen specifieke ‘gedachtengang’ nodig: iedere uitschakeling van een willekeurig aantal elementen uit de steekproef, volgens ieder willekeurig systeem is toegestaan - mits deze uitschakeling geschiedt zonder enig verband met de ‘uitgezonden’ reeks. Men mag desgewenst ieder vijfde antwoord van een | |
[pagina 208]
| |
proefpersson uitschakelen, of alle antwoorden, waarbij het derde teken is gebruikt, of naar willekeur twee of drie in ieder protocol; het zou weinig zinvol zijn dit te doen, maar wat men zou overhouden, zou, onder de nulhypothese, óók als aselecte steekproef uit het (oneindige) universum van de nulhypothese kunnen gelden. De voorwaarde waar het op aankomt is, dat de uitschakeling òf volgens een volstrekt (machine-)objectief principe (vgl. 6;2;1) geschiedt, óf als zij niet volstrekt objectief kan zijn, door een corrector, die geen enkele aanwijzing kan hebben over de uitgezonden serieGa naar voetnoot1 - dezelfde conditie als hierboven werd gesteld voor de medewerker, die patiënten moest selecteren voor al-dan-niet opnemen in het onderzoek (6;3;3). Praktisch komt deze eis erop neer, dat de uitschakeling vooraf moet geschieden. Zij mag in ieder geval niet zijn opgedragen aan de corrector, die met de sleutel in de hand de scoring verricht. Het behoeft geen nader betoog, dat ook bij de scoring en de telling van het aantal treffers alle mogelijke objectiviteitsmaatregelen - dubbele, onafhankelijke scoring, liefst door leken, die niet weten waar het om gaat, liever nog door een scorings- en telmachine - moeten worden in acht genomen. Wie in ESP gelooft, kan zich gemakkelijk vertellen of verrekenen ten gunste van het aantal treffers. Het is ons niet bekend, of deze strenge condities altijd volledig vervuld zijn geweest bij Van Busschbach's onderzoekingen - die overigens telkens weer een zwak, maar consistent en over grote aantallen hoog significant positief resultaat opleverden (zie van busschbach 1952-1958). Het is helaas niet op alle gebieden mogelijk om zulke strenge objectiviteits-eisen de experimentatie en de bewerking te stellen. In het algemeen is het van belang eventueel te nemen uitschakelingsbeslissingen vooraf te regelen en objectief vast te leggen, dus ze niet ad hoc te nemen. Wil men bijvoorbeeld via een collegezaal-enquête een onderzoek doen naar bepaalde aspecten van de attitude van eerste-jaars studenten ten opzichte van de Universiteit, dan is het van belang vooraf vast te stellen, welke van de respondenten in de zaal men als ‘oneigenlijke gevallen’ zal uitschakelen. Elimineren van bijvoorbeeld personen boven de dertig, die geheel anders tegenover de studie staan, is geen moeilijk te nemen besluit - | |
[pagina 209]
| |
maar wat doet men met een jongen van 18, die hier eerste-jaars is, maar daarvóór een jaar aan de T.H. heeft gestudeerd, of met de 23-jarige, die weliswaar nu ‘zo van de H.B.S.’ komt, maar daarvóór H.T.S.-examen heeft gedaan en een jaar in de praktijk heeft gewerkt? Heeft men zulke moeilijkheden voorzien, dan zijn in de enquête ook vragen opgenomen over vooropleiding en eventuele werkkringen met data, op grond waarvan men uitschakelingsbeslissingen volgens objectieve, vooraf gestelde criteria kan nemen. Ook wanneer men zulke vragen niet heeft opgenomen, kan men natuurlijk nog, vóórdat men het materiaal heeft bekeken, een objectieve beslissing nemen, bijvoorbeeld alleen op grond van de leeftijd (boven de twintig: oneigenlijke gevallen); maar het is de vraag of dit dan wel de meest adequate is. Heeft men het materiaal eenmaal gezien, en bijvoorbeeld juist bij enkele van die twijfelgevallen zulke ‘goede opmerkingen’ gelezen (passend bij de te toetsen hypothese), dan is een objectieve beslissing al nauwelijks meer te nemen. Er is op deze wijze - b.v. aanhalingen bij de evaluatie (5de fase) uit protocollen van dubieuze maar welkome proefpersonen - helaas in het verleden vaak, opzettelijk of onopzettelijk, geknoeid. Soms is vastlegging vooraf van de uitschakelingscriteria niet mogelijk, omdat men eerst het materiaal zelf grondig moet kennen om te weten, welke gevallen ‘oneigenlijk’ zijn. Dit doet zich vooral voor bij complexe, niet-experimentele, bijvoorbeeld geschiedkundige materialen, waarin men eerst expert moet zijn, voordat men een verstandige uitschakelingsbeslissing kan nemen. Dikwijls gaat het hierbij om onderzoekingen niet van een steekproef maar van een geheel universum. Een, fictief, voorbeeld daarvan hebben wij reeds genoemd: hoe schakelt men ‘oneigenlijke gevallen’ van Romeinse keizers uit, anders dan door een grondige geschiedkundige studie, die maakt dat de keuze, door een onderzoeker die een hypothese wil toetsen of een interpretatie wil beproeven reeds bij voorbaat gecontamineerd is? Toch zijn ook hiervoor wel eenvoudige, redelijk objectieve methoden aan te geven. Men kan trachten de beslissing te baseren op objectieve gegevens, die los staan van de hypothese of interpretatie; de duur van de regering, de omvang van de beschikbare historische gegevens, beide met een eveneens objectief geregelde grens en met een objectieve ‘formule’ voor de combinatie van beide criteria, of iets dergelijks. Is dit onmogelijk, dan is een, op deze terreinen helaas zelden maar in de klinische psychologie wel gebruikt alternatief (b.v. bendien 1959), een collega- | |
[pagina 210]
| |
expert te raadplegen, die het materiaal wel kan beoordelen maar niet gecontamineerd is door kennis van het speciale doel van het onderzoek. Deze expert is soms aanwezig in de vorm van een handboek, een studie over het onderwerp in kwestie. Zo kon schrijver dezes, bij een onderzoek gericht op een psycho-analytische interpretatie van middeleeuwse Sint Nicolaaslegenden (de groot 1949), de vraag welke legenden in de Westerse traditie als ‘typisch voor Sint Nicolaas’ en ‘belangrijk’ konden worden beschouwd en dus moesten worden opgenomen, beantwoorden via het desbetreffende, geboekstaafde oordeel van een kerkhistoricus (meisen 1931), wiens opvattingen stellig niet door enige psychoanalytische gedachte waren beïnvloed. Juist op deze complexe, interpretatieve gebieden - dieptepsychologie, geschiedkundige, sociologische, anthropologische interpretatie, klinische psychologie - bestaan veel meer mogelijkheden tot toepassing van eenvoudige, objectieve methoden en zelf-controles, dan gewoonlijk worden gerealiseerd. Op dit onderwerp komen wij echter in 9;2 nog terug. |
|