Methodologie
(1961)–A.D. de Groot– Auteursrechtelijk beschermd
[pagina 103]
| |
4. Formulering van theorieën en hypothesen
| |
[pagina 104]
| |
van een vast samengaan van het ene scherp omschrijfbare verschijnsel, A, met een ander, B. We hebben in 3;2;3 reeds gezien dat nu iedere willekeurige A voor een voorspelling, afgeleid uit een dergelijke hypothese, als test case kan dienen. Maar wat zegt het resultaat met betrekking tot de hypothese? Dit hangt klaarblijkelijk af van de uitkomst: of de onderzochte A werkelijk B is. Indien niet, dan is de hypothese zonder meer weerlegd; indien wel, dan is zij echter allerminst bewezen. Eén geval waarin het ‘uitkomt’ is uiteraard niet voldoende; ook een groot aantal gevallen, waarin het uitkomt, bewijst nog niets. Alleen door het gehele universum van alle A-gevallen te onderzoeken kan men met zekerheid vaststellen dat iedere A ook B is. Dit laatste behoort soms wel eens tot de mogelijkheden, wanneer namelijk het universum van A-gevallen eindig is, niet te groot en voor verificatieonderzoek bereikbaar. Het zal echter duidelijk zijn dat het in de wetenschap vooral te doen is om generalisaties; generalisaties over gedeeltelijk onbereikbare, of zeer grote, of onbeperkte (c.q. oneindige) universa. Dit laatste geldt, onder meer, voor alle deterministische hypothesen, die door middel van onbeperkt herhaalbare experimenten kunnen worden getoetst. Klaarblijkelijk is de juistheid van de algemene stelling niet deductief of te leiden uit het kloppen van bijzondere consequenties, hoe vele ook. Een positieve, universele, deterministische hypothese met betrekking tot een gedeeltelijk onbereikbaar of praktisch onbeperkt (c.q. oneindig) universum kàn dus niet geverifieerd worden, als zij juist is; wel kan eventueel worden geverifieerd, dat zij onjuist is. Eenvoudiger uitgedrukt: zij kan niet positief geverifieerd worden, in de letterlijke zin van waargemaakt worden; zij kan wel worden weerlegd of gefalsifieerd. Van de (deterministische) existentie-hypothese (‘Er is minstens een A, die B is’) weten wij reeds, dat zij in het algemeen equivalent is met een zgn. negatieve universele hypothese: ‘Het is niet waar, dat alle A niet-B zijn’, in ons geval. Hiervoor geldt het omgekeerde: zij kan wel positief worden geverifieerd - één A-geval, dat B is, is voldoende - maar niet gefalsifieerd. De onjuistheid van de hypothese is niet logisch te deduceren uit nog zo veel A-gevallen, die niet B zijn. Men kan het contrast tussen de twee typen hypothesen ook zo beschrijven, dat het weliswaar in beide gevallen gaat om universele hypothesen van het type: Alle A zijn P (waarbij P respectievelijk B of niet-B is, maar dat is geen principieel verschil), maar dat de onderzoeker deze | |
[pagina 105]
| |
algemene stelling in het ene geval graag zou willen bewijzen, in het andere geval weerleggen. Zoals K.R. Popper heeft opgemerkt (popper (1934) 1959), maakt dit echter voor de methodologie van het onderzoek niet zo veel verschil. Wie de algemene hypothese wil weerleggen zal ongetwijfeld zoeken naar A-gevallen die niet-P zijn - maar wie haar wil bewijzen, doet dat óók, zij het in de hoop ze niet te vinden! Een goed opgezet wetenschappelijk toetsingsonderzoek is in feite altijd op falsificatie gericht. Men kan volhouden, dat empirisch wetenschappelijk onderzoek niet streeft naar bewijs van (deterministische) theorieën en hypothesen - dat is immers onmogelijk - maar naar weerlegging ervan, en dat het ook via zulke falsificaties vordert.Ga naar voetnoot1 Voor deze opvatting is veel te zeggen. Aangezien verificatie van een deterministische hypothese van het positieve universele, dat is van het meest vruchtbare en meest rendabele type, niet mogelijk is, kunnen wij inderdaad niet beter doen dan haar zo kras mogelijk op de proef te stellen. Houdt ze stand, dan hebben wij een des te betere reden om ons vertrouwen erin te continueren, eventueel tot de volgende toetsing. Valt zij, dan worden wij gedwongen een stap verder te doen, een nieuwe hypothese te beproeven. Wij kunnen in ieder geval alvast stellen: 1) dat een wetenschappelijk toetsingsonderzoek van een deterministische hypothese op falsificatie gericht moet zijn - hetzij van de hypothese zelf, hetzij van een alternatieve hypothese, en 2) dat ‘falsifieerbaarheid’ een uiterst belangrijk desideratum is, niet alleen voor voorspellingen (3;4;3), maar ook voor deterministische hypothesen en theorieën. | |
4;1;2 Probabilistische confirmatie en probabilistische hypothesen.Hoewel het ongetwijfeld een goede stelregel is de hypothese die men wil toetsen, ‘zo zwaar mogelijk’ op de proef te stellen, blijft het een moeilijkheid deze zwaarte te wegen. Men zou graag de een of andere maat willen hebben voor de confirmatiewaarde van een (positieve) toetsingsuitkomst. Dit probleem is in sommige gevallen op telossen dooreen waarschijnlijkheids-theoretische benaderings- | |
[pagina 106]
| |
wijze, die voor het geval van ‘alle A zijn B’ in principe ongeveer als volgt verloopt. Stel, ten eerste, dat het mogelijk is om A-gevallen (test-cases) aselect te kiezen, d.w.z. ‘willekeurig’, zo dat iedere A uit het universum evenveel kans heeft om gekozen te worden. Stel, ten tweede, dat het redelijk is om aan te nemen - eventueel bij gebrek aan beter - dat er, indien onze (causale) hypothese niet juist is, evenveel A-gevallen in het universum zijn die B zijn als die niet-B zijn. Op grond van deze laatste hypothese, die wij voorlopig als nulhypothese aanvaarden (vgl. 3;2;1), zou de kans dat een (aselect gekozen) A tevens B is even groot zijn als de kans dat hij niet-B is. Gaan wij nu (aselect gekozen) A-gevallen onderzoeken, en vinden wij achtereenvolgens 1, 2, 3, 4... enz. A-gevallen die àlle B zijn, dan wordt het steeds onwaarschijnlijker dat de nulhypothese juist is. Men kan de zgn. overschrijdingskans voor opeenvolgende B-gevallen, dat is de kans dat een zo grote of een nog grotere afwijking van wat op grond van de nulhypothese te verwachten zou zijn (evenveel B als niet-B), exact berekenen. Is nu het resultaat van het onderzoek van gevallen, dat deze overschrijdingskans kleiner is dan een, vooraf vastgesteld, conventioneel bedrag (b.v. P = .01, d.w.z. één kans op honderd, dat zoiets voorkomt àls de nulhypothese juist is), dan kan men besluiten de nulhypothese te verwerpen - waarbij men dus 1% risico van een foutief besluit neemt. Wil men grotere zekerheid, dan kan men het zgn. significantie-niveau scherper stellen, bijvoorbeeld op P=.001. Maar men kan ook (of tevens) de nulhypothese scherper stellen, bijvoorbeeld: ‘er zijn in het universum 90% A-gevallen die B zijn, en 10% die niet-B zijn.’ Lukt het, in een nieuw toetsingsonderzoek, ook deze nulhypothese volgens vooraf opgestelde, conventionele confirmatie-criteria, in casu bijvoorbeeld opnieuw een significantie-niveau van P=.01, te ‘weerleggen’ (ten gunste van méér A's die B zijn), dan komt deze uitkomst erop neer, dat men ‘gerust kan aannemen’ dat meer dan 9 van de 10 A's, in de populatie, B zijn. De mate van ‘gerustheid’ wordt bepaald door de aangenomen P=.01. Desgewenst kan men op deze wijze de confirmatie-waarde van de bevindingen verder opvoeren, en de hypothese die men eigenlijk zou willen bewijzen (Alle A's zijn B) steeds dichter benaderen. Deze benaderingswijze lijkt wat absurd, als men een werkelijk streng (causaal) verband meent gevonden te hebben. Zij wordt ook weinig in deze vorm toegepast, als men bij voortduring en uitsluitend A's vindt die | |
[pagina 107]
| |
B zijn. Zij krijgt echter grote betekenis, zodra zich bepaalde complicaties voordoen, bijvoorbeeld bij de vaststelling of een geval B of niet-B is. Het kan zijn, dat het instrument of de menselijke beoordelaar, die dit beslist, niet geheel betrouwbaar is (b.v. 5% fouten maakt); het kan zijn, dat weliswaar een streng deterministisch verband wordt aangenomen, maar dat de operationele definitie, die men voor de onderscheiding tussen B en niet-B wel moet gebruiken, slechts een benadering is van de onderscheiding, die in de hypothese wordt bedoeld (vgl. 3;3;5); het kan zijn dat op andere wijze door het onderzoek een aanwijsbare, betrekkelijk onbetekenende, maar niet weg te werken storende factor heenspeelt (vgl. 3;4;2). Dergelijke situaties - een deterministische hypothese, die zich echter niet in 100% bevindingen kan uitdrukken, omdat de aangenomen oorzaak of het aangenomen effect niet scherp van andere oorzaken of effecten te onderscheiden is - doen zich in de gedragswetenschappen bijzonder veel voor. Men kan dan geen 100% B's verwachten; maar men kan wel het bestaan en de sterkte van het feitelijke A-B verband onderzoeken en op de boven beschreven wijze nulhypothesen trachten te verwerpen. Dikwijls wordt in gevallen als het bovenstaande de in feite te toetsen hypothese geformuleerd als een probabilistische hypothese: ‘De meeste A's zijn B’, of: ‘Een A heeft 80% kans B te zijn’, en dgl. Daarbij wordt dan eventueel de definitie van B (en niet-B) ditmaal wel aan de bepalingswijze (c.q. benaderende operationele definitie) gebonden. Inderdaad is het geval van een ‘gestoorde’ deterministische hypothese dikwijls moeilijk te onderscheiden van een ‘echte’ probabilistische hypothese, waarbij men met zoveel woorden de werking van een toevals-proces veronderstelt (b.v. in de erfelijkheidsleer, bij de overerving van genen).
Kenmerkend voor probabilistische hypothesen is, dat nu ook een exacte falsificatie van een (positieve) hypothese niet meer mogelijk is: één ‘tegenvoorbeeld’ is immers niet voldoende voor de weerlegging van een statistisch verband. Het verschil tussen positieve en negatieve hypothesen, en tussen verificatie-in-engere-zin en falsificatie wordt gerelativeerd. Voor alle typen hypothesen geldt nu, dat zij deductief noch bewijsbaar (verifieerbaar in engere zin) noch weerlegbaar (falsifieerbaar) zijn. Zij kunnen hoogstens geconfirmeerd worden met behulp van probabilistische confirmatie-criteria zoals hierboven beschreven. | |
[pagina 108]
| |
Wat hier voor enkelvoudige hypothesen werd uiteengezet, geldt mutatis mutandis ook voor hypothesen van meer samengestelde structuur. Ook daarvoor kunnen vaak, maar dan op een meer ingewikkelde wijze, probabilistische confirmatie-criteria worden opgesteld. Een dergelijke hypothese moet eerst geëxpliciteerd worden in consequenties van enkelvoudige structuur. Men kan dan bepaalde conventionele confirmatiecriteria kiezen voor elk van die meer specifieke consequenties, en vervolgens zo verstandig mogelijk, in de vorm van een combinatie-formule, vastleggen, in welke gevallen men de oorspronkelijke hypothese als positief geconfirmeerd wil beschouwen, in welke als negatief geconfirmeerd en, eventueel, in welke men haar wil aanhouden. Het grote belang van vooraf opgestelde, eventueel bij conventie geregelde, confirmatie-criteria, zal uit het bovenstaande duidelijk zijn geworden. Het is gebruikelijk, dat een onderzoeker, voordat hij zijn onderzoek uitvoert, zich op bepaalde criteria voor bevestiging en nietbevestiging van de hypothese(n), die hij wil toetsen, vastlegt. Daarmee bereikt hij enerzijds, dat hij zichzelf niet in de verleiding brengt, resultaten achteraf ‘goed te praten’, anderzijds, dat de uitkomst van het gehele onderzoek op de vorm van een verifieerbare voorspelling wordt gebracht (vgl. 3;2;3). Dit laatste heeft ook voordelen in verband met herhaalde toetsingen van eenzelfde hypothese aan nieuwe steekproeven (replicatieonderzoek). Men kan dan namelijk desgewenst opnieuw gaan tellen (uitgekomen, niet uitgekomen) - in de hoop dat ‘alle A blijken B (uitgekomen) te zijn’. In de praktijk is geen enkel confirmatie-argument sterker dan dit: dat een bepaald voorspeld verband telkens opnieuw, zonder uitzonderingen, werd gevonden. Ook dit laat zich weer in termen van kansen uitdrukken. Het zal duidelijk zijn, dat positieve confirmatie van veruit de meeste en de belangrijkste typen hypothesen niet logisch dwingend is; in tegenstelling tot het geval van de falsificatie van een deterministische, universele, positieve hypothese. De gangbare confirmatie-methoden monden hoogstens uit in een kans-uitspraak, zij het dat deze in termen van duidelijke, vooraf gestelde criteria gegoten kan zijn. Een dergelijke uitspraak kan echter de onderzoeker niet dwingen de hypothese als juist te beschouwen; zij behoeft de aanvulling van zijn beslissing het aanwezige fouten-risico te aanvaarden. Zolang er een fouten-risico is, hoe klein ook en hoe nauwkeurig ook bepaald, kan het betoog ten gunste van de | |
[pagina 109]
| |
hypothese in kwestie niet dwingend zijn. Een hypothese wordt niet bewezen, maar, in het gunstigste geval, algemeen - door het forum - aanvaard. Dat dit laatste vooral zal gebeuren, wanneer het fouten-risico laag ligt, spreekt vanzelf. Maar hier is geen vaste, bij conventie te regelen formule voor op te stellen. De aanvaardbaarheid van een fouten-risico hangt namelijk niet alleen af van de, berekende of geschatte grootte van dat risico zelf. Zij hangt ook af van andere factoren: de inhoud van de hypothese, haar samenhang met andere hypothesen, haar plaats in een theorie (‘embeddedness’). Een interessant voorbeeld is, opnieuw, dat van de existentie van paranormale verschijnselen (telepathie en helderziendheid). In sommige onderzoekingen is stellig aan de strengst denkbare probabilistische confirmatie-eisen voldaan. De kans, dat de gesignaleerde verschijnselen toevalsprodukten zijn in plaats van effecten van buitenzintuiglijke waarneming is bijzonder klein (zie b.v. soal en bateman 1954, p. 311); niettemin is de forum-discussie, zeker ten aanzien van de prognosie (helderziendheid in de toekomst), nog niet gesloten - omdat de inhoud van de hypothese zo moeilijk te rijmen valt met wat wij verder van de wereld weten. In het algemeen zal de forum-discussie - voorzover deze enigerlei concrete vorm krijgt - zich intussen niet zozeer met afzonderlijke hypothesen als wel met theorieën bezighouden. Het confirmatie-probleem ten aanzien van theorieën (en interpretaties, vgl. 9;2) ligt niet principieel anders dan ten aanzien van hypothesen, maar wel ingewikkelder en minder doorzichtig; ten eerste omdat berekeningen, van het fouten-risico besloten in de aanvaarding of verwerping van een theorie als geheel, slechts zelden mogelijk zijn, ten tweede omdat hier eerst recht vele andere factoren van invloed zijn op de beslissing. Voor de uitwerking hiervan wordt de lezer naar 4;2 verwezen. | |
4;1;3 Relevantie van een voorspelling.Voor de praktijk van het wetenschappelijk toetsingsonderzoek is het van groot belang, dat de onderzoeker zich vooraf rekenschap geeft van de mogelijke confirmatie-waarde van de uitkomst van de voorspelling die hij gaat verifiëren, ten eerste met betrekking tot de hypothese waaruit zij direct is afgeleid, ten tweede met betrekking tot de theorie of theorieën die hij wil onderzoeken. Men kan uit eenzelfde theorie op verschillende wijzen | |
[pagina 110]
| |
hypothesen en uit een hypothese op verschillende wijzen voorspellingen afleiden. De onderzoeker heeft de vrijheid zelf een expliciterings-vertakking uit te werken of te kiezen en de opzet van zijn toetsingsonderzoek - die vastgelegd moet zijn voor de voorspelling - zelf te bepalen. Hoe moet hij er nu voor zorgdragen dat de voorspelling zo ‘relevant’ mogelijk is, d.w.z. dat de uitkomst ervan een zo hoog mogelijke confirmatie-waarde heeft voor hypothese en theorie? Wij laten de technische kant van dit vraagstuk - experimentele opzet, en dgl. - weer voorlopig rusten (vgl. 5;1), en bepalen ons tot de vraag waarvan deze relevantie van een voorspelling afhangt. Ook dit is een vraag die niet met een formule te beantwoorden is; wij zullen er alleen enkele opmerkingen over maken. Een factor van betekenis is de mate van verbijzondering, die heeft plaatsgevonden, gezien vanuit de theorie, om tot de voorspelling te geraken. Deze verbijzondering kan, zoals we weten (3;2;1), een gevolg zijn van dwingend logische deducties (van het type bd) enerzijds, van niet altijd dwingende empirische specificaties (van het type bs) anderzijds. Alles bij elkaar kan de resulterende versmalling van de strekking van het beweerde aanzienlijk zijn. Men toetst slechts één van vele logische consequenties, of men werkt vaak met een beperkte materiaal-keuze of een smalle operationele definitie, etc. - zodat de uitkomst nog maar weinig bijdraagt als ondersteuning van de theorie. Als iemand bijvoorbeeld uit het complexe theoretische systeem van de psychoanalyse één consequentie uitwerkt en experimenteel aantoont, dat onder bepaalde voorwaarden van emotionele beïnvloeding ‘verdringing’ kan voorkomen, dan is daarmee weliswaar op zichzelf iets belangrijks gevonden, maar nog slechts zeer weinig ten gunste van de psychoanalytische theorie gezegd (vgl. hilgard, kubie, lawrence, pumpian-mindlin 1952, o.a.p. 36-45; en b.v. eriksen 1954 over perceptual defense). Een andere voor de hand liggende factor is de mate van nauwkeurigheid van de voorspelling. Is deze gering, dan kan het voorkomen, dat het uitkomen ervan praktisch ‘niets zegt’, d.w.z. niets nieuws oplevert, ten opzichte van wat wij al wisten of op grond van toeval konden verwachten. Een nieuwe economische hypothese leidt bijvoorbeeld tot de voorspelling dat een bepaalde index in een bepaald jaar tussen de 130 en 140 zal liggen, en dit komt uit; maar tevens blijkt, dat toepassing van een oudere theorie of een meer eenvoudig model hetzelfde presteert, met een voorspellings- | |
[pagina 111]
| |
interval (vgl. 3;4;2), dat niet groter is. De confirmatie-waarde van de positieve uitkomst is dan gering, de voorspelling was weinig relevant. Uiteraard is de relevantie van een voorspelling des te groter, naarmate de speciale consequentie of aanname in het theoretische model, op de toetsing waarvan zij gericht is, in de theorie fundamenteler is. Maar wat is een fundamentele aanname? In het nomologisch netwerk gezien ongetwijfeld een aanname, die zelf weer in veel consequenties - deducties - doorwerkt. Lukt het een dergelijke fundamentele aanname min of meer direct aan te vatten en op de proef te stellen, dan kan de confirmatiewaarde van de uitkomst, dus de relevantie van de voorspelling, inderdaad aanzienlijk zijn - vooral als zij onjuist blijkt. Zo waren bijvoorbeeld anthropometrische ras-theorieën veelal gebaseerd op bepaalde schedelmetingen, die geacht werden betrouwbare statistische ras-kenmerken op te leveren. Een fundamentele aanname was, dat zulke maten - als raskenmerken immers - gemiddeld over de generaties constant zouden blijven binnen één ras-groep. Onderzoekingen met emigranten toonden echter aan, dat zich bij emigratie vrij aanzienlijke wijzigingen kunnen gaan voordoen. Daarmee viel een belangrijk deel van de basis van de betreffende theorieën weg (zie b.v. fischer 1924; shapiro 1939 en boas 1940). De (negatieve) uitkomst had grote confirmatiewaarde, de constantie-hypothese was fundamenteel en de daaruit afgeleide concrete voorspelling relevant. Van het standpunt van toetsing gezien kan men nog een ander criterium aanleggen voor het belang van een aanname. Wij noemen een aanname of hypothese in een theorie kritisch, als zij strijdig is met een aanname in een belangrijke concurrerende theorie. De punten waarop twee modellen met elkaar in conflict zijn, bieden vaak goede aanknopingspunten voor het opstellen en empirisch (c.q. experimenteel) realiseren van relevante voorspellingen. Het ideaal is, dat de voorspelling niet mag uitkomen als de ene theorie en moet uitkomen als de andere theorie juist is. Er wordt dan, afgezien van uitkomsten in het niemandsland, waar de voorspelling als niet verifieerbaar wordt beschouwd (vgl. 3;4;2), in ieder geval iets weerlegd of althans (negatief) geconfirmeerd. Bijvoorbeeld: theorie A leidt tot de predictie van een verhoging van prestatie - op welk gebied dan ook - onder een bepaalde conditie; theorie B tot de predictie van een verlaging van prestatie. Of: volgens theorie A is onderwijs-methode a het meest effectief, volgens theorie B methode b; lukt het nu een bevredigend | |
[pagina 112]
| |
objectief criterium voor de bedoelde effectiviteit te vinden, dan kan men de methoden, en daarmee de theorieën, in een experiment tegen elkaar uitspelen. Ook als niet uitdrukkelijk twee concurrerende theorieën gegeven zijn, wordt de confirmatie-waarde van een uitkomst in belangrijke mate bepaald door wat deze aan alternatieve hypothesen (of theorieën) weerlegt of verwerpbaar maakt; vergelijk de bespreking van de operaties met een nulhypothese in 4;1;2. In overeenstemming hiermee kunnen we nu ook stellen, dat een voorspelling des te relevanter is, naarmate de uitkomst ervan meer vooruitzichten biedt op het ònmogelijk maken - weerleggen of doen verwerpen - van nog gangbare (alternatieve) hypothesen; en hoe fundamenteler deze hypothesen zijn des te beter. |
|