Methodologie

(1961)–A.D. de Groot– rechtenstatus


5;3 Toetsing en evaluatie 5;3;1 Uitvoering van de toetsing. In het ideale geval verloopt een tot in details voorbereid toetsings-onderzoek ‘glad’: geheel volgens plan. Mogelijke storende factoren zijn voorzien en geelimineerd, gunstig verlopen vooronderzoekingen garanderen de uitvoerbaarheid, alle details van de uitvoering zijn vooraf geregeld en zwart op wit gezet; er kan nauwelijks iets mis gaan. Een dergelijk ideaal verloop komt inderdaad voor, ook in de gedragswetenschappen, met name bij toetsings-onderzoekingen die of geheel in de studeerkamer of geheel in het laboratorium kunnen worden uitgevoerd. In het eerste geval kan het voorkomen, dat het studie-materiaal, dat met het oog op de toetsing moet worden onderzocht, òf reeds aanwezig is (in de studeerkamer), òf zonder onvoorziene moeilijkheden beschikbaar blijkt te zijn of te komen. In het tweede geval - b.v. bij psychologische laboratorium-experimenten - moet het materiaal weliswaar nog worden verkregen, maar het is niet ongewoon, dat men de condities, en de proefpersonen (b.v. studenten) zo goed in de hand blijkt te hebben, dat alles inderdaad volgens plan verloopt. Over dergelijke gevallen is van methodologisch standpunt niet veel te zeggen. Ook na een goede voorbereiding zijn verrassingen in het algemeen echter verre van uitgesloten. Dit geldt met name voor veld-onderzoekingen, waarin de onderzoeker afhankelijk is van, bijvoorbeeld, de vrijwillige deelname van proefpersonen en/of van de bemiddeling en de doorlopende welwillendheid van derden. Het kan dan voorkomen, dat toegezegde archieven toch niet geopend worden, of bronnen niet toegankelijk blijken, of dat zorgvuldig vooraf berekende aantallen (gevallen of proefpersonen) toch niet worden gehaald, of dat menselijke mede-
[pagina 159]
werkers falen, of dat onvoorziene storende factoren in het spel komen, die de confirmatie-waarde van de bevindingen op losse schroeven zetten. Een voorbeeld van dit laatste: bij het studenten-onderzoek aan de Technische Hogeschool te Delft (t.h. delft 1959, zie p. 75) werd getracht de bevindingen over de predictieve waarde van tests en andere voorspellers van studiesucces, zoals die waren verkregen met de jaargang 1953, te toetsen aan de jaargang 1954. De opkomst van studenten voor dit tweede onderzoek was echter, ondanks alle voorbereidingen, matig en, wat erger was, (aantoonbaar) scheefgetrokken - waarschijnlijk ten gevolge van een in bepaalde kringen tegen het onderzoek gevoerde actie. De steekproef was daardoor niet meer representatief te achten noch te maken voor de Delftse studentenpopulatie; zodat de confirmatie-waarde van de uitkomsten dubieus werd. Dit geval staat niet alleen; overal waar met vrijwillige opkomst of deelname moet worden gewerkt, is de kans op een storende selectiefactor niet gering en moeilijk weg te werken.Ga naar voetnoot1 Zulke verrassingen bij de uitvoering van de toetsing kunnen ertoe leiden, dat de verificatie van de voorspelling(en) de derde mogelijke uitkomst oplevert (vgl. 3;4;2): verifieerbaarheidscondities niet vervuld. In de praktijk van het onderzoek komen natuurlijk vele grensgevallen voor: het onderzoek heeft zwakheden, maar toch ‘zegt het wel iets’. Het zou prettig zijn, wanneer het mogelijk was een strakke grens aan te geven tussen gevallen waarin men het onderzoek beter geheel kan terzijde leggen (c.q. het materiaal weggooien) en gevallen waarin men het toch nog als een verificatie van de voorspelling kan opvatten; maar dit is niet goed in algemene termen te doen. Aangezien ook een uitgebreide casuïstiek hier niet in aanmerking komt, zullen wij volstaan met enkele vage, op gezond verstand en ervaring gebaseerde aanbevelingen, die misschien toch hun nut kunnen hebben. In de eerste plaats is het van belang, dat de onderzoeker niet zonder duidelijke aanwijzingen de conclusie van een ‘storende factor’ bij de uitvoering trekt. De neiging om de uitkomsten zo, dus als (c)-, en niet als (b)-geval te interpreteren (vgl. 3;4;2), kan sterk zijn; en er is zeer vaak een
[pagina 160]
zekere ruimte om dit te doen, aangezien de verifieerbaarheidscondities, zoals we gezien hebben, altijd enigszins rekbaar zijn. Metanderewoorden: men verzette zich tegen de neiging om op te losse gronden een storing aan te nemen - om daarmee een geliefde hypothese tegen niet-uitgekomen voorspellingen te beschermen (vgl. 3;4;3). Dit is een van de rationalisaties, die ten grondslag ligt aan het, helaas frequente, gebruik om alleen positieve uitkomsten (a) te publiceren. Een uiterst ongewenst gevolg van dit gebruik is vaak, dat wie zich via publikaties over de confirmatie-stand van een hypothese of theorie wil oriënteren, een scheefgetrokken beeld krijgt. Ook als men meent, dat de interpretatie (verifieerbaarheidscondities niet vervuld) juist is, doet men er goed aan de negatieve (niet-(a)) uitkomsten te publiceren, desgewenst met de interpretatie erbij; zodat een ander die kan bestrijden. Anderzijds: is de storende factor specifiek aantoonbaar, is het bijvoorbeeld duidelijk, dat het onderzoek gecontamineerd was, dat het materiaal te klein was, dat de getrokken steekproef niet representatief kon worden geacht, of iets dergelijks, dan is de prullemand vaak de enige logische bestemming; een bestemming die men moet durven kiezen. Hoogstens kan een goede reden om dit niet te doen soms deze zijn, dat een open beschrijving van de mislukking van de toetsing leerzaam kan zijn voor anderen, die op hetzelfde terrein toetsingen willen verrichten, of dat bijvoorbeeld gevonden of vermoede storende factoren van belang kunnen zijn voor de hypothesevorming. Een sprekend voorbeeld van het laatste is het al eerder genoemde mislukte Relay Assembly Test Room experiment in het Hawthorne-onderzoek (roethlisberger en dickson (1939) 1949). Tenslotte - en dit is kennelijk gezond verstand - is het beter ten halve te keren dan ten hele te dwalen. Met andere woorden: bij onderzoekingen, die zich over een langere tijd uitstrekken, is het van belang vroeg te merken, dat de opzet niet deugt of door uitwendige factoren niet volgens plan kan verlopen, en zo vroeg mogelijk het besluit te nemen het onderzoek te staken als het toch geen duidelijke confirmatie kan opleveren. Een dergelijk besluit kan pijnlijk zijn, maar ook heel verstandig. Dit betekent, dat de toetsingsprocedure nooit gedachteloos mag worden afgewerkt, ook al is zij nog zo perfect-mechanisch voorbereid: de mogelijkheid moet blijven bestaan, dat confirmatie- of praktische overwegingen (5;1;2 en 5;1;3) onderweg kracht van veto krijgen.
[pagina 161]
De uitvoering van Barendregt's onderzoek, tot de bespreking waarvan wij ons verder zullen beperken, verliep zonder ernstige uitvoeringsmoeilijkheden. Zoals gewoonlijk blijkt dit in zijn boek uit het feit, dat er praktisch niets over wordt gezegd.
5;3;2 Storende factoren. Kunnen Barendregt's, op de meeste (6 van de 7) hypothesen positieve, uitkomsten op andere wijze dan als positieve confirmatie van die hypothesen worden geïnterpreteerd? Waren er zwakheden in zijn opzet respectievelijk in de uitvoering daarvan, waren er contaminaties, die alternatieve interpretaties - in de zin van toeschrijving aan storende factoren - mogelijk maken? Twee punten zijn voornamelijk in de kritiek op zijn werk naar voren gekomen.Ga naar voetnoot1 Het eerste betreft de diagnose astma: deze werd gesteld door de artsen van de afdeling. Van hen kan worden aangenomen, dat zij niet alleen werkten met, maar ook geloofden in de psychosomatische theorie over astma. Zij hingen stellig niet de klassieke medische opvatting over astma aan, dat het een allergische ziekte is. Gesteld nu, dat beide ontstaanswijzen voorkomen, dat beide factoren van belang kunnen zijn - een door velen gehuldigde opvatting - dan vormt het feit, dat de patiënten, die aan dit onderzoek deelnamen, zich juist bij deze kliniek gemeld hebben en door de daar aanwezige artsen als astmatici zijn gediagnostiseerd, een mogelijke contaminatie: deze patiënten kunnen een selectie vormen, die meer psychosomatische astmatici bevat dan de gehele astma-populatie. Of, sterker nog: de patiënten zijn niet alleen naar hun astma maar ook naar hun ‘astma-karakter’ (volgens de psychosomatische theorie) vóórgeselecteerd; de gevonden correlatie is dus een artefact van deze selectie. Het tweede punt betreft de scoring op enkele van de gebruikte variabelen, o.a. de hostility-index. Deze scoring was wel aan nauwkeurige richtlijnen gebonden, maar toch niet geheel objectief; en zij werd verricht door de onderzoeker zelf, die (a) wist van welke patiënten-groep (astma, ulcus, gezond) een bepaald antwoord afkomstig was, en die (b) uiteraard
[pagina 162]
wetenschappelijk geïnteresseerd was, evenals de artsen, in een positieve uitkomst van het toetsingsonderzoek. Opnieuw een storende contaminatiefactor dus. Wat het eerste punt betreft, kunnen wij beginnen met op te merken, dat de mogelijke invloed van deze selectiefactor in het gegeven organisatorische verband, waarin Barendregt werkte, praktisch nauwelijks te elimineren was: het onderzoek moest aan deze kliniek worden verricht, alleen deze patiënten waren beschikbaar. Dat disculpeert de onderzoeker enigszins - dit was niet zijn verantwoordelijkheid - maar het is natuurlijk geen wetenschappelijk argument. Voor een wetenschappelijke analyse moeten wij trachten na te gaan hoe ernstig de invloed van een selectiefactor kan zijn geweest in verband met de experimentele probleemstelling. Deze was: aan te tonen, dat er een (statistisch) verband bestaat tussen astma en (één der) door de psychosomatische theorie gespecificeerde karaktertrekken van de astmaticus. Wordt dit gevonden, wat wordt er dan weerlegd (vgl. 4;1;3)? Het experiment discrimineert, qua statistische toetsing, in ieder geval niet tussen de puur psychosomatische theorie en de theorie dat zowel psychosomatische als allergische vormen voorkomen. Het argument, dat de steekproef door de selectie relatief méér psychosomatische gevallen zou bevatten, is dus van weinig betekenis; het gaat vooralsnog in de eerste plaats om het bestaan van zulke gevallen, en nog niet om hun frequentie in de populatie. De pretentie van het onderzoek is alleen, dat de nulhypothese - geen verschil tussen astma en ulcus - kan worden verworpen; en deze correspondeert met de zuiver allergische theorie. Alleen het ‘sterke’ argument, dat de gevonden correlatie geheel een artefact van de selectie zou zijn, is dus een ernstig bezwaar: dat zou de weerlegging van de allergische opvatting op losse schroeven zetten. Tegen dit bezwaar kunnen geen strenge logische argumenten in het veld worden gebracht. Men kan alleen zeggen, dat het zeer ‘onwaarschijnlijk’ lijkt, dat een statistisch significant verschil, in de lijn van een op zorgvuldige klinische observaties gebaseerde theorie, bij zo betrekkelijk kleine steekproeven geheel zou kunnen worden teweeggebracht door een onbewuste selectie-factor bij de aanmelding (1) en bij de, toch grotendeels objectief-medische, diagnose-stelling (2). Vooral het tweede punt lijkt weinig rekbaar: wie astma heeft, heeft astma, en wordt als patiënt opgenomen. Het eerste punt is moeilijker te evalueren; er zijn stellig
[pagina 163]
gevallen, waarin juist een dergelijke oncontroleerbare selectie misleidend is. Hier zou dat echter in concreto betekenen, dat bij voorkeur toevalligerwijze hostiele persoonlijkheden zich bij deze, gemeentelijke, kliniek melden; een weinig plausibele veronderstelling. Ernstiger is het tweede punt: het zou in principe kunnen zijn, dat de positieve uitkomsten op de niet-objectieve variabelen een artefact zijn van, eventueel onbewuste, wens-scoringen van de onderzoeker, hoezeer hij ongetwijfeld ook naar objectiviteit heeft gestreefd. Men kan daartegen inbrengen, dat de scoring toch vrij streng aan richtlijnen was gebonden en bijna objectief; maar dit is toch niet geheel voldoende, te minder omdat deze contaminatie-factor experimenteel had kunnen worden voorkomen, namelijk door afzonderlijke (‘uitgeknipte’) antwoorden te laten scoren door een beoordelaar, die geen middelen heeft om te weten uit welk protocol zij afkomstig zijn. Deze kritiekGa naar voetnoot1 is voor Barendregt dan ook aanleiding geweest het onderzoek te repliceren met een in dit opzicht verbeterde opzet (vgl. barendregt 1956 en barendregt, arisdijkstra, diercks en wilde 1958); het resultaat was, voor onze (zesde) hypothese, opnieuw positief.
5;3;3 Generalisatie-problemen. Wij hebben in 5;2;4 gezien, dat door de gelijkschakeling van de steekproef-groepen (astma en ulcus, en evenzo voor de gezonden), naar variabelen als sexe, leeftijd, intelligentie, beroepsniveau en, tenslotte, proefleider - variabelen waarvan bekend is, dat zij invloed kunnen hebben op Rorschach-scores - een (nieuwe) verbijzondering van de concrete experimentele vraagstelling tot stand komt. De experimentele groep (astma) wordt daardoor een steekproef uit ‘een populatie van gehospitaliseerde mannelijke patiënten, van vergelijkbare leeftijds-, intelligentie-, beroepsniveau-verdeling’ (5;2;4, p. 155). Verder is de experimentele variabele, strikt genomen, alleen: de hostility-score volgens Elizur, afgeleid uit Rorschach-protocollen van proefleider P. Aanvaarden wij de statistische generalisatie van steekproef-
[pagina 164]
bevinding naar populatie, dan hebben wij weliswaar een algemene hypothese geconfirmeerd, maar deze hypothese heeft betrekking op een wel zeer specifiek kenmerk in een beperkte populatie. Ging het alléén om het bewijs van de existentie van bepaalde verschillen - eventueel alleen in een beperkte sub-populatie - dan zijn al die beperkingen niet van zo veel belang. Maar men wil van hieruit toch ook verder komen, de theorie zelf confirmeren. De vraag is nu allereerst, in hoeverre het geoorloofd is de generalisatie verder uit te strekken, en wel a) naar minder specifieke kenmerken, b) naar een ruimer gedefinieerde populatie. Barendregt zelf heeft zich over deze kwestie nauwelijks uitgelaten. Zijn eigen evaluatie blijft in dit opzicht vrijwel beperkt tot de mededeling in de slotzin van zijn conclusies (op. cit., p. 49): ‘Met de steun, die wij in dit onderzoek aan deze uit de medische literatuur afgeleide hypothesen konden geven, menen wij ook de algemeen geformuleerde hypothese der psychosomatische specificiteit steun verleend te hebben.’ De generalisatiestappen worden niet gespecificeerd. Men zou hem dit als een tekortkoming kunnen aanrekenen, met name vanuit het gezichtspunt van het (vierde) principe, dat men de empirische referenties van zijn theorie of hypothese duidelijk moet omlijnen (3;1;5), ware het niet, dat hij zijn bijdrage uitdrukkelijk presenteert als alléén een toetsing, en wel van hypothesen ‘uit de medische literatuur’. Anderen dragen dus de primaire verantwoordelijkheid voor de empirische referenties. Bovendien is het niet nodig, na ieder detail-onderzoek uitvoerig te evalueren; men kan daarmee vaak beter wachten totdat een overzicht over een groter aantal samenhangende empirische studies kan worden verkregen. Voor ons is het probleem hiermee echter nog niet afgehandeld. Onderstaande beschouwingen hebben betrekking op het generalisatievraagstuk, zoals zich dit in het algemeen bij de evaluatie van onderzoekbevindingen voordoet; Barendregt's onderzoek wordt er alleen hier en daar ter illustratie bij betrokken. Het zal duidelijk zijn, dat het gaat om het inductie-probleem (vgl. 2;1;2), of, zo men wil om het gegeneraliseerde confirmatie-probleem (vgl. 4;1 en 4;2), en wel om een bijzonder belangrijke en moeilijke vorm ervan. Dit probleem is van grote betekenis, onder meer bijvoorbeeld voor de evaluatie van strenge experimentele (laboratorium-) proeven in de psychologie, waarin vaak talrijke beperkingen en condities worden ingevoerd terwille van een scherpe hypothese-toetsing met een duidelijke
[pagina 165]
statistische confirmatie-waarde - ten detrimente van de inhoudelijke algemeenheid.Ga naar voetnoot1 Hoe moet men hier de ‘weg terug’ bewandelen (vgl. 4;1;1), hoe komen wij van hier verder naar die algemene uitspraken die ons eigenlijk interesseren? Een feit is in ieder geval, dat wij deze ‘weg terug’ in de wetenschap bewandelen, dat wij zulke generalisaties maken, vrijwel dagelijks. Dit weerspiegelt zich reeds in de taal, die wordt gebruikt: ‘With scarcely an exception, the conclusions of all studies of behavior express an (...) expansion beyond the researcher's observations to an indefinite universe of events. We speak not of ‘the rats in this study’ but of ‘organisms’; not of ‘running this alley’ but of ‘response’; not of ‘college sophomores’ but of ‘small groups’. With remarkable unanimity, scientists are willing to lay down inclusive dicta about events which they have not observed, even about events which could not have been observed’. (mandler en kessen 1959). Hoe kan men tot dergelijke generalisaties komen, hoe zijn zij te rechtvaardigen, waarop zijn zij gebaseerd? Strikt genomen zijn zij eenvoudig logisch onmogelijk, als wij geen ‘inductie-principe’ aanvaarden (vgl. 2;1;2, verder 4;1 en 4;2). Dat wil zeggen, dat het enige antwoord op de gestelde vragen in het empirische vlak gevonden kan worden: onderzoek óók (alle) andere vertakkingen van dezelfde hypothese of theorie. Dit zou in casu betekenen: experimenteer ook met andere proefleiders, met andere operationele definities (specificaties) van ‘vijandigheid’, met andere testmethoden en tenslotte met andere uit dezelfde theorie afgeleide astma-persoonlijkheidskenmerken - voor wat betreft de generalisatie naar kenmerk. En evenzo voor de generalisatie naar populatie: experimenteer ook met andere intelligentie-niveaus, met andere leeftijden en andere beroepsniveaus, en met name ook met vrouwen en kinderen. Dit strikt empirische antwoord is in zoverre zeer reëel, dat gevarieerde experimentatie voor een meer algemene confirmatie van de betreffende hypothese en theorie absoluut noodzakelijk is. Maar het zou niet reëel zijn te menen, dat het mógelijk was om, bij zoveel mogelijke vertakkingen, ook maar bij benadering ‘volledig’ te zijn. Het empirische antwoord behoeft dus aanvulling. Voor een zeker deel
[pagina 166]
is deze aanvulling te verkrijgen door een technisch antwoord: met behulp van experimentele kunstgrepen en statistische technieken. Moderne technieken van experimentele opzet en statistische bewerking maken het mogelijk, door systematische variatie van een aantal variabelen tegen elkaar, de invloed van ieder van hen apart te bepalen en/of redelijkerwijs uit te schakelen (vgl. b.v. edwards 1956; maxwell 1958). Men kan dan dus verschillende vertakkingen in één goed opgezet onderzoek tegelijk afwerken. Een moeilijkheid bij de experimentatie in de psychologie is alleen, dat men weliswaar uitwendige experimentele condities - b.v. de proefleider of de te geven test - zeer wel systematisch kan variëren, ook binnen één onderzoek, maar dat men voorgeschreven combinaties van psychische kenmerken (b.v. intelligentie, beroepsniveau) niet kan manipuleren, maar hoogstens moeizaam kan trachten te vinden. Ook afgezien daarvan: geraffineerde experimentatie- en bewerkingswijzen kunnen weliswaar bijdragen tot efficiënte vormen van onderzoek, maar zij kunnen voor zulke samengestelde theorieën als die over de astmapersoonlijkheid toch de ‘volledigheid’ niet veel minder onbereikbaar maken. Men kan ook trachten een probabilistisch antwoord te geven, door het generalisatie-probleem toch weer tot een statistisch confirmatie-vraagstuk te herleiden. Daartoe neemt men bijvoorbeeld aan, dat de verschillende verbijzonderingen - de keuze van een proefleider, van een persoonlijkheidskenmerk, van een operationele definitie daarvoor; respectievelijk de keuze van de populatie-beperkingen, zoals sexe, intelligentie, etc. - zijn tot stand gekomen door een reeks aselecte keuzen uit successief voorgeschreven keuze-mogelijkheden. Is de aanname van de aselecte keuzen houdbaar, dan kan men een dergelijke getrapte procedure opvatten als een manier om een ‘systematisch-aselecte’ steekproef op te stellen, enerzijds uit alle mogelijke vertakkingen van de theorie, anderzijds uit de totale populatie waarop de theorie betrekking heeft. Met de populatiegeneralisatie heeft men dan geen moeite meer: de steekproef is, onder een aantal aannamen, ook op te vatten als een willekeurige greep uit de totale populatie. En wat de kenmerk- (of hypothese-)generalisatie betreft, men heeft er - aselect - één gekozen; doet men dit nog een aantal keren, opnieuw ‘aselect’, en is het resultaat steeds positief, dan kan men bijvoorbeeld met de tekentoets, of met een scherpere methode die de afzonderlijke P-waarden mede in rekening brengt, tot een statistische confirmatie van de gehele theorie geraken.
[pagina 167]
Deze redenering is zeker verhelderend, in zoverre zij de mogelijkheid van een probabilistische theorie-confirmatie schematisch laat zien. Weliswaar kan deze mogelijkheid slechts in uitzonderingsgevallen tot een werkelijk exacte confirmatie-methodiek worden uitgewerkt; maar het is toch van belang dat er probabilistische gronden aan te voeren zijn voor het standpunt, dat wij niet volledig behòeven te zijn in het toetsingsonderzoek van vertakkingen. In feite verloopt zowel de keuze van een vertakking als de gegeneraliseerde confirmatie echter heel anders. Niets is ‘selecter’ dan de keuze van de verbijzonderingen die de onderzoeker invoert: zij zijn, zoals we in 5;2 gezien hebben, op reële, omschrijfbare praktische (5;1;3) en confirmatie-overwegingen (5;1;2), en op daaruit afgeleide verwachtingen gebaseerd. Om nog een voorbeeld te noemen: Kurt Lewin placht zijn medewerkers voor onderzoekingen op een nieuw gebied aan te raden: ‘Start strong’, d.w.z. kies die vertakking c.q. verbijzonderingen - b.v. hostiliteit?, mannen als proefpersonen? - waarvan je verwacht, dat zij duidelijke, positieve confirmatie zullen opleveren. Komt die verwachting uit, dan weet je tenminste, dat wat je wilt doen (het onderzoekgebied, de theorie) de moeite waard is. Een dergelijke keuze is wel het tegendeel van aselect; en hetzelfde geldt voor verreweg de meeste specificaties en deducties die tot de voorspelling leiden. Het probabilistische antwoord is dus, ook in combinatie met het ‘empirische’ en het ‘technische’, niet voldoende; of liever het is niet reëel. De ruimte tussen de gespreide, afzonderlijke toetsingspunten op het vlak, dat de theorie geheel pretendeert te bestrijken, of, met een ander beeld: de grote mazen in het nomologische net, worden in feite ook door andere generalisatie-overwegingen gevuld. Voor de generalisatie van onderzoekbevindingen en voor de aanvaarding van een theorie of hypothese (vgl. 4;2), hetzij door de individuele onderzoeker hetzij door het forum, is óók van belang - het valt niet te ontkennen - of die generalisatie of theorie ‘plausibel’ is. Is zij dat, dan interpoleren wij zonder veel scrupules, is zij dat niet, dan willen wij méér tussenliggende toetsingspunten zien. Daarbij is ook van belang, dat de toetsingspunten min of meer gespreid liggen over het gehele pretentie-gebied van de theorie; vandaar bijvoorbeeld de aanbeveling om laboratorium-experimenten met veldonderzoekingen aan te vullen (festinger 1953, p. 140-141). Met andere woorden: de feitelijke gegeneraliseerde confirmatie-waarde
[pagina 168]
hangt er óók van af, of het geheel van interpretaties en generalisaties - interpolaties tussen de toetsingspunten - inzichtelijk aanvaardbaar is, in overeenstemming is met algemene ervaringen, bijvoorbeeld in de kliniek of in het dagelijks leven of eventueel bij toepassingen van de theorie, en daarmee met een heel aantal grotendeels impliciete hypothesen,Ga naar voetnoot1 die wij op grond van die ervaringen aannemen. Weliswaar worden in de wetenschap juist zulke ervaringen, terecht, telkens weer in twijfel getrokken, maar men kan niet blijven doorgaan met twijfelen, zeker niet bij de evaluatie van onderzoekingen. Als voorlopige afsluiting gaat men er dan toch toe over om op de generalisatie-vraag een evidentieantwoord te geven, dat is een ‘begrijpelijke’ samenhang te aanvaarden - tot op zekere hoogte de ‘verstehende’ methode dus. Daarmee worden de mazen in het net gevuld; met dien verstande dat deze ‘evidentie’ in het wetenschappelijk proces nooit als eind-argument wordt opgevat (vgl. 2;2;5). Ook een aanvaarde theorie blijft wetenschappelijk ‘voorlopig’ (vgl. 3;2;2 en 4;2;2); het toetsingsonderzoek kan immers altijd in een nieuwe cyclus worden hervat (vgl. 1;4;6). De theorie blijft openstaan voor weerlegging of verwerping. Hoe staat het nu met de mogelijkheid van ‘evidente generalisaties’ bij het onderzoek van Barendregt? Het zou te ver in de theorie voeren wanneer wij dit in detail gingen uitwerken. Samenvattend kan men inderdaad wel, met Barendregt, het ‘evidentie-antwoord’ geven, dat aan de psychosomatische theorie van astma een zekere steun is verleend door het onderzoek (vgl. echter 5;3;4). Maar zij staat toch nog niet zo heel sterk. In feite is de theorie zeker niet algemeen aanvaard (door het forum); wel wordt zij, tenminste als een partiële verklaring, aanvaard door een steeds groter wordend aantal deskundigen. De basis voor deze aanvaarding - en daarmee ook ten dele voor de generalisatie van Barendregt's bevindingen - wordt gevormd: door een aantal andere psychologische toetsingsonderzoekingen (o.a. hecht 1952; poser 1953; little en cohen 1951; raifmann 1957), door de klinische casuïstiek en inter-
[pagina 169]
pretaties (o.a. dunbar 1947; groen 1950), door dagelijkse ervaringen met astma-patiënten, door therapeutische resultaten (o.a. groen 1950, 1953) - en door de ‘begrijpelijke samenhang’ tussen dit alles, die in de theorie wordt weergegeven.
5;3;4 Oorzaak of gevolg? Wij kunnen de bespreking van de evaluatie van Barendregt's onderzoek niet besluiten zonder de aandacht te hebben gevestigd op een andere mogelijke tegenwerping. De kritische vraag is, of de eigenaardigheden in de karakterstructuur van de astmaticus niet veeleer gevolg dan oorzaak van zijn ziekte zijn. Bij dit tegenargument aanvaardt men dus de concrete bevindingen, en de eerste generalisatie daarvan: astmatici zijn meer ‘vijandig’, etc. Wij hebben dus niet te doen met een storende factor (5;3;2), maar met een mogelijke alternatieve theoretische interpretatie van de bevindingen (vgl. 5;1;2). De tegenredenering loopt ongeveer als volgt. Astma is een allergische ziekte, die door een allergische aanleg wordt veroorzaakt. Aanvallen zijn gekenmerkt door een gevoel van benauwdheid. Dit gevoel van beklemming, van zich onvrij voelen, gaat het psychische leven van de astmaticus beheersen, ook buiten de aanvallen (alternatieve interpretatie van Barendregt's vijfde hypothese). In het sociale contact krijgt dit de kleur van een zich bedreigd voelen en onvrij te zijn in het verweer; vandaar de sterkere hostiliteit (zesde hypothese). Tegen deze redenering is, op basis van Barendregt's experimenten, weinig of niets aan te voeren. Zijn hostiliteits-bevindingen en de beweringen over een voor astma karakteristieke persoonlijkheidsstructuur worden er niet door aangetast, maar wel aangetast wordt de confirmatie-waarde voor de psychosomatische theorie over de aetiologie van astma. Als de hostiliteit òòk gevolg kan zijn, dan is niets bewezen met betrekking tot de karakter-structuur als oorzakelijke factor. Het zal duidelijk zijn, dat tegen dit argument geen ‘evidente generalisatie’ hulp kan bieden. Het is geen generalisatie-kwestie, maar een causale vraag, die door een correlatie-onderzoek als dat van Barendregt niet kan worden beantwoord. Het enige mogelijke antwoord is het empirische antwoord; bijvoorbeeld: directe onderzoekingen over het ontstaan van astma bij kinderen, wier persoonlijkheidsstructuur nog niet door veelvuldige aanvallen beïnvloed kan zijn, of iets dergelijks. Gemakkelijk zal
[pagina 170]
dit niet zijn, gezien de wisselwerking, die al vroeg in de ontwikkeling wel tussen de persoonlijkheidsstructuur en de astma-ervaringen moet ontstaan. Misschien is de persoonlijkheidsstructuur (Groen's eerste consequentie, vgl. 5;2;1) toch niet zo'n geschikt aangrijpingspunt. Bij astma althans, dat zich vaak al zo vroeg manifesteert, kan een op de persoonlijkheidsstructuur gericht onderzoek geen scherpe discriminatie tussen het oorzaak- en het gevolg-model tot stand brengen. Als deze conclusie juist is, zou het verdere onderzoek zich bijvoorbeeld beter op milieu-factoren kunnen richten (Groen's tweede consequentie, 5;2;1), eventueel met name op de ‘astma-moeder’ - die in de theorie als ‘liefdevol-tyranniek’ wordt beschreven (vgl. groen 1950). Enzovoorts. Overzien wij alle confirmatie-beschouwingen, die in 5;3 zijn gegeven, dan zal het duidelijk zijn, dat Barendregt's onderzoek weliswaar een antwoord geeft op bepaalde vragen en een zekere confirmatie-waarde heeft, maar vooral een groot aantal nieuwe empirische en theoretische vragen opwerpt. Dit is niet alleen hier het geval, maar in het algemeen een karakteristiek evaluatie-resultaat. Ieder wetenschappelijk onderzoek vraagt om en leidt tot nieuw, nader en beter gericht onderzoek; het werk gaat voort, de spiraal draait verder.	voetnoot1 Een duidelijke demonstratie van de invloed, die zulke selectie-factoren kunnen hebben, leverde een Amsterdams studenten-onderzoek op (spitz 1955). Daar bleek de factor; (vrijwillig) opkomen of niet opkomen zelf een betere studiesucces-voorspeller te zijn dan welke test ook - in die zin, dat het later blijkende studiesucces over het algemeen aanzienlijk hoger lag bij de subgroep die opgekomen was dan bij hen die waren weggebleven. voetnoot1 Beide genoemd in de mondelinge oppositie bij de promotie door wijlen prof. dr. D. van Dantzig. voetnoot1 De kritiek was niet nieuw: In een discussie, lopende het onderzoek, werd de aandacht op deze contaminatie-factor gevestigd. Het onderzoek was reeds te ver gevorderd - praktische overweging - om het te staken en opnieuw te beginnen, wat in een vroeger stadium het enige juiste besluit zou zijn geweest. Ernstig kan de invloed niet zijn geweest - vgl. de open discussie ervan op p. 36, op. cit. - maar het was toch een fout in de opzet. voetnoot1 Men vergelijke de discussie over de betekenis van sociaal-psychologische groeps-experimenten onder inhoudelijk sterk beperkende ‘onnatuurlijke’ laboratoriumcondities (o.a. duijker 1955). voetnoot1 Als wij in leer-proeven van bevindingen met ratten naar ‘organismen’ generaliseren, is de impliciete hypothese duidelijk: wij nemen een essentiële analogie aan tussen de reactiewijze van ratten en andere dieren. Evenzo voor, bijvoorbeeld, generalisatie van (gemiddeld) 45-jarige mannen (barendregt 1954, p. 12) naar, zeg, 30-jarige mannen; of van mannen met een (gemiddeld) IQ van 113 (op. cit., p. 13) naar mannen met een (gemiddeld) IQ van 100. Sommige van zulke generalisaties (impliciete hypothesen) accepteren wij eenvoudig - eventueel totdat zij worden weerlegd.

Vorige Volgende

Methodologie

5;3 Toetsing en evaluatie

5;3;1 Uitvoering van de toetsing.

5;3;2 Storende factoren.

5;3;3 Generalisatie-problemen.

5;3;4 Oorzaak of gevolg?