Methodologie
(1961)–A.D. de Groot– Auteursrechtelijk beschermd
[pagina 344]
| |
9;3 Complexe problemen en hulpmiddelen9;3;1 Veelheid van variabelen.Bijna alle problemen van complexiteit, zoals die zich in de gedragswetenschappen voordoen, zijn te herleiden tot twee vragen: Welke variabelen moeten wij construeren of kiezen? en: Op welke wijze moeten wij ze met elkaar in verband brengen, d.i. combineren in onze definities en onze onderzoek-ontwerpen? Ten aanzien van beide vragen bestaat in de gedragswetenschappen vaak een embarras de choix. Doordat het menselijk (of dierlijk) organisme enerzijds, en het milieu waarin de mens leeft anderzijds, klaarblijkelijk niet anders dan in een grote veelheid van oorzakelijke en structurele ‘factoren’ wetenschappelijk te beschrijven valt, is complexiteit van de probleemstelling dikwijls onvermijdelijk. Het is dan ook geen wonder, dat men vaak opereert met samengestelde instrumenten, dat zijn technische hulpmiddelen en werkwijzen, die meer dan één variabele opleveren (en dus ook meer dan één ‘instrument’ definiëren, in de zin van hoofdstuk 8; vgl. de voetnoot op p. 257 in 8;1;1) Zo bepaalt men bijvoorbeeld met behulp van één belangstellingstest de scores op 11 variabelen: 9 richtingsschalen en 2 niveauschalen (wiegersma 1959); of met behulp van één vragenlijst de scores op verschillende persoonlijkheidsvariabelen, zoals ‘neuroticisme’ en ‘introversie-extraversie’ (wilde 1962). Men kan ook bijvoorbeeld uit één interview een aantal variabelen afleiden, hetzij in de zin van antwoorden op afzonderlijk beschouwde, geprecodeerde Ja-Nee-vragen, zoals bijvoorbeeld bij opinie-onderzoek gebruikelijk is, hetzij via beoordeling door de interviewer (b.v. ydo 1947; vgl. ook 7;3), hetzij door na-codering van het opgenomen interview-protocol in de zin van 7;1;2 of 7;1;3. Men kan weliswaar van mening verschillen over de vraag of een interview- (en coderings-) methode een ‘samengesteld instrument’ mag worden genoemd, maar het principe is hetzelfde: men verkrijgt via één procedure een aantal variabelen. Terwijl het, op zichzelf in methodologisch opzicht niet bijzonder interessante, verschijnsel van de ‘samengestelde instrumenten’ voortvloeit uit de behoefte aan een veelheid van variabelen, zo vloeit omgekeerd de samengestelde variabele dikwijls voort uit de behoefte de veelheid van empirische gegevens op systematische en theoretisch verantwoorde wijze | |
[pagina 345]
| |
in te perken. Onder een ‘samengestelde variabele’ verstaan we een variabele, die een mathematische functie is van meer dan één empirische variabele.Ga naar voetnoot1 Voorbeelden zijn: de verkregen waarde op een meer-dimensionale classificatie (zie voetnootGa naar voetnoot1); een totaal-score op een testserie; een attitude-score afgeleid uit een aantal item-scores die ook zelf als variabelen worden beschouwd; een intelligentie-quotiënt; een factorscore gebaseerd op een factoranalyse van een aantal variabelen; een interveniërende variabele, die gedefinieerd is via en exact kan worden bepaald uit empirische variabelen (vgl. 2;3;6); een dichotome variabele gedefinieerd door een cutting-score op een samengestelde voorspellingsformule (vgl. b.v. de groot 1960); een punten-totaal bij de werkclassificatie; en dgl. Het grote probleem bij samengestelde variabelen is steeds dat van de theoretische verantwoording van juist deze manier van combineren van empirische variabelen. De argumenten daarvoor kunnen van verschillende aard zijn. Zij kunnen van empirische aard zijn, zoals bijvoorbeeld bij een samengestelde predictie-score als men een goed criterium heeft (vgl. 8;2;1): de voorspelling klopt zó zo goed mogelijk. Samengestelde scores berusten soms op ‘gezond verstand’, dat is op niet theoretisch geformaliseerde, plausibele aannamen, waarvan wij hopen dat zij ‘gezond’ zijn, zoals bijvoorbeeld bij de bepaling van verhoudings-getallen als het zo- | |
[pagina 346]
| |
genaamde ‘Erlebnis-Typus’ in de Rorschach-test (rorschach 1921), of van som- of verschil-scores bij profielen. Zij kunnen berusten op een combinatie van empirische bevindingen en theoretische overwegingen in de zin van een onderzoek naar de begripsvaliditeit van de samengestelde variabele (vgl. 8;2;3). Zij kunnen ook op de uitkomsten van een bepaalde factor-analytische techniek gebaseerd zijn. In dit laatste geval is bijzonder duidelijk, dat ook zekere veronderstellingen met betrekking tot het meetmodel (of de meet-theorie) aan de samengestelde variabele (b.v. een factor-score) ten gronslag liggen: de mogelijkheid van lineaire en dus compensatorischeGa naar voetnoot1 combinatie, de methode van factor-extractie, de criteria voor de rotatie, etc. Ditzelfde geldt echter voor alle samengestelde scores, in nog sterkere mate dan bij enkelvoudige variabelen (vgl. echter 8;4;3), over item-weging bij eindscores). Gegeven de veelheid van variabelen, waarmee rekening moet worden gehouden, is het verder in de gedrags-wetenschappen dikwijls noodzakelijk met multi-factor-methoden van experimentele opzet en van verwerking van uitkomsten te opereren. Zo heeft men bijvoorbeeld bij validiteitsonderzoek vaak niet alleen met een veelheid van voorspellers maar ook met een veelheid van criterium-variabelen te maken. Ook bij meer theoretisch gerichte onderzoekingen, zowel in het veld als in het laboratorium, komt het dikwijls voor, dat men effecten van verschillende variabelen tegelijk moet of wil onderzoeken. Daarvoor zijn tegenwoordig diverse technieken van materiaal- (c.q. proefpersonen-) selectie, van experimentatie en van statistische bewerking beschikbaar. Zo kan men bijvoorbeeld met behulp van variantie-analyse de invloed van factoren, die men niet experimenteel kan buitensluiten, niettemin bij de analyse elimineren en afzonderlijk bestuderen. Ook is een variantie-analytische onderzoek-opzet dikwijls aan te bevelen uit een oogpunt van efficiëntie bij de experimentatie: men kan met relatief kleine steekproeven volstaan en meerdere verbanden tegelijk onderzoeken. De behandeling van zulke | |
[pagina 347]
| |
technieken valt echter buiten het bestek van dit boek (zie b.v. fisher 1935; edwards 1956; maxwell 1958). Tenslotte een enkel woord over de denkwijze van de onderzoeker wat betreft de causaliteit. Er wordt in de gedragswetenschappen natuurlijk wel degelijk causaal gedacht, maar de denkschema's waarmee men werkt, staan onder invloed van de klaarblijkelijk onvermijdelijke complexiteit van het gebied. Ten eerste zijn de causale samenhangen, die men empirisch kan onderzoeken, gewoonlijk bijzonder grof ten opzichte van wat men met betrekking tot de eraan ten grondslag liggende processen wel moet veronderstellen. De mate waarin dit geldt is weliswaar variabel naar gelang van het onderzoeksgebied. In laboratorium-onderzoekingen komt men dichter bij wat men fundamentele causale samenhangen zou willen noemen dan in onderzoekingen in het maatschappelijke veld, bijvoorbeeld over het effect van propagandamateriaal op bepaalde attitudes, of over de samenhang van persoonlijkheidsvariabelen met bepaalde psychosomatische ziekten (vgl. 5;2), of over de ontwikkeling van de intelligentie of het taalgebruik van een kleuter met de leeftijd. We kunnen echter wel algemeen stellen, dat in de gedragswetenschappen meestal vrij complexe en grotendeels onbekende tussenliggende processenGa naar voetnoot1 moeten worden verondersteld tussen wat wij als causale factor en wat wij als effect beschouwen. In die tussenliggende processen - trouwens ook in de te meten variabelen zelf - spelen, zo moeten wij wel aannemen, talrijke andere factoren en feitelijke condities een rol. Voor een deel kunnen wij deze elimineren, voor een ander deel althans bepalen en controleren, voor nog een deel kunnen wij ze bewust randomiseren (vgl. 6;3;4) - maar voor het grootste deel nemen wij maar aan, dat zij min of meer toevallig verdeeld zullen zijn: wij verwaarlozen ze eenvoudig en nemen genoegen met theoretische constructies, waarvan wij weten dat ze grove benaderingen zijn. Een consequentie van deze betrekkelijke grofheid is de bijzonder | |
[pagina 348]
| |
hoge frequentie van lineaire, additieve (en dus compensatorische) meetmodellen in de gedragswetenschappen. De eerste, lineaire benadering is gewoonlijk goed genoeg. Is een verband monotoon, dan kan men er trouwens vaak een lineair verband van maken door de definities der variabelen wat aan te passen en/of zekere veronderstellingen over de verdelingen in te voeren - operaties, die dikwijls weliswaar willekeurig zijn, maar niet of nauwelijks willekeuriger dan de oorspronkelijke operationele definities. Ook is dikwijls niet goed op grond van de onderzoekresultaten te zeggen, wat oorzaak en wat gevolg is (vgl. ook 5;3;4). Dit verschijnsel is natuurlijk ook in andere wetenschappen niet onbekend. Bij de uitleg van de correlatie-coëfficiënt in statistische leerboeken wordt er vaak op gewezen, dat een gevonden correlatie niets prejudiceert over de aard en zelfs over de aanwezigheid van een als causaal te beschouwen relatie. Men kan echter hetzelfde zeggen van andere wiskundige denkschema's en formules: de differentiaalvergelijking in de natuurkunde is eveneens ‘causaal indifferent’. Soms is de relatie weliswaar duidelijk asymmetrisch. Dit geldt vooral als er een tijds-factor in het spel is: als B na A intreedt kan A wel oorzaak van B, maar B moeilijk oorzaak van A zijn. Zogenaamde ‘finale’ samenhangen vormen hierop, in tegenstelling tot een gangbare mening, géén uitzondering. Stellen wij voor een menselijk subject de hypothese, dat zijn gedrag nù de functie heeft naar een bepaald, eventueel onbewust doel in de toekomst toe te werken (b.v. ‘vlucht in de ziekte’), dan nemen wij namelijk wel degelijk ecn oorzaak aan, die aan het gedrag (b.v. ‘zich een ziekte op de hals halen’) voorafgaat. Men kan deze oorzaak bijvoorbeeld als volgt algemeen omschrijven: een instelling hebben, die ziekte of ongeval minder afschrikwekkend, meer acceptabel en zelfs begerenswaard maakt, en die de instinctieve zorg voor eigen gezondheid doet verslappen. Omdat deze oorzaak (instelling) moeilijk vooraf meetbaar is, nemen wij haar hypothetisch aan en omschrijven wij haar in termen van een doel in de toekomst. Eventueel wordt het bestaan van de oorzaak (de juistheid van de hypothese) mede met behulp van het al dan niet bereiken van het doel (i.c. ziekte) getoetst. Het verschil is niet principieel: een finale hypothese is een speciaal type causale hypothese. Wanneer vele samenhangende verschijnselen tegelijk optreden, is echter dikwijls een ordening naar oorzakelijke- en effect-variabelen bijzonder moeilijk. Een onderwerp waarbij dit vaak ter sprake is gekomen | |
[pagina 349]
| |
is dat van het ‘plezier in het werk’ (ydo 1947; roethlisberger en dickson (1939) 1949, hdst. 14: Complaints and Personal Equilibrium). Wanneer een arbeider klachten heeft over zijn werk, relatief weinig produceert, vaak absent is, thuis moeilijkheden heeft en niet overweg kan met één van zijn naaste collega's, dan hebben wij te doen met een reeks factoren, die ieder of als oorzaak of als gevolg van de anderen kan figureren. Men spreekt bij zo'n systeem van interacties wel van causaalnetten. Ten behoeve van een onderzoek naar de werking van zulke causaalnetten - waaruit men niet afzonderlijke factoren kan afsplitsen, zonder aan de werkelijke interacties in de situatie te kort te doen - is het dikwijls wel nuttig bepaalde factoren als ‘oorzaken’, andere als ‘gevolgen’ op te vatten. Men spreekt dan echter liever van het kiezen, en definiëren, van bepaalde factoren als onafhankelijke en van andere als afhankelijke variabelen. Daarin wordt tot uitdrukking gebracht, dat men voor een ander onderzoek-doel een andere keuze zou hebben kunnen treffen. Voor de wiskundige vormgeving maakt deze relativering van het onderscheid tussen oorzaak en gevolg weer geen principieel verschil. Als variabele X1 een functie is van X2, X3...Xk - of X1 = f (X1) met i = 2, 3...k - kan men in het algemeen even goed X2 of X3 als functie van de overigen opvatten, dus: b.v. X2=g (X1) met i = l, 3, 4...k. Een veel toegepast denk- en bewerkingsschema voor de analyse van de invloeden van verschillende onafhankelijke variabelen op één afhankelijke variabele is dat van de variantie-analyse. Daarbij wordt weer een lineaire benadering toegepast, in dier voege, dat de score op de afhankelijke variabele wordt geschreven als een som van ‘effecten’, uitgaande van de ‘oorzaken’ geïncorporeerd in de onafhankelijke variabelen, afzonderlijk èn in wisselwerking. Behalve de veronderstellingen, die uit de lineariteit van de basisformule voortvloeien, moeten ook andere vervuld zijn, wil men variantie-analyse legitiem toepassen. Hiervoor verwijzen wij echter weer naar de reeds genoemde literatuur. | |
9;3;2 Complexe procedures van onderzoek.Ook in andere opzichten dan voor wat betreft de veelheid van variabelen, waarmee rekening moet worden gehouden, zijn de onderzoekmethoden in de sociale- en gedragswetenschappen vaak ingewikkelder dan in de beschrijvingen tot dusverre is tot uiting gekomen. Een vorm van complexiteit, die in ieder geval moet worden genoemd, | |
[pagina 350]
| |
is die van de combinatie van verschillende typen onderzoek; ‘typen’ in de zin van 9;1;2. Een voorbeeld hiervan is Frijda's onderzoek over het begrijpen van gelaatsexpressies (frijda 1956). Men vindt in dit boek verspreide verslagen over toetsings- en exploratieve experimenten tezamen met literatuurstudie (hfdst. 2), een uiteenzetting over de fenomenologie van het expressie-verstaan (hfdst. 3) en, talrijke interpretatieftheoretische gedeelten, die tenslotte uitlopen op een eigen theorie-vorming (hfdst. 10). Als geheel zou men dit werk het beste als een interpretatieftheoretische studie kunnen kenschetsen, maar deze is dan toch gelardeerd met eigen exploraties en toetsingsexperimenten. Een dergelijke complexe onderzoek- (en publikatie-)vorm is gewenst en gebruikelijk bij empirische onderzoekingen van langere adem die erop gericht zijn eigen theoretische bijdragen te leveren. Verslagen over aldus gerichte research-programma's, die zich over een aantal jaren uitstrekken, vertonen vaak dit gemengde beeld. Wanneer men een afgerond onderwerp met theoretische implicaties ‘van alle kanten wil bekijken’, dan is deze vorm vrijwel noodzakelijk. Men moet dan wel ‘diep’, d.w.z. niet alleen descriptief maar ook interpretatief-theoretisch, op de literatuur ingaan, zelf materiaal verzamelen en exploreren, bepaalde hypothesen, die voor de theorie-ontwikkeling essentieel zijn, zelf toetsen, en tenslotte de bevindingen weer samenvatten, d.w.z. hun belang voor de theorievorming recapituleren en met een eigen theorie of revisie van bestaande theorieën besluiten. Deze vorm van samengesteld onderzoek komt in Nederland veel voor. Wij zouden gemakkelijk talrijke voorbeelden kunnen aanvoeren - maar deze zouden grotendeels niet al te gelukkig zijn. Zulke complexe, op theorievorming gerichte onderzoekingen zijn namelijk nog moeilijker dan zuiver theoretisch-interpretatieve studies zonder eigen empirisch onderzoek. Om dit werkelijk goed te kunnen doen, moet men meester op alle methodologische wapens, in alle onderzoekvormen zijn, en dat is slechts weinigen gegeven. Er is in Nederland helaas een tendentie om deze onderzoek-vorm als norm voor een goede dissertatie te stellen: men neme ‘een onderwerp’ en bekijke dit ‘van alle kanten’. De eisen, die een dergelijke onderneming aan de onderzoeker stelt, hangen natuurlijk voor een deel van het onderwerp af, maar men kan toch zeggen, dat deze norm - vooropgesteld, dat men goed, theoretisch relevant werk vereist - in het algemeen te hoog ligt. | |
[pagina 351]
| |
Vooral omdat er in de sociale wetenschappen in Nederland reeds een overdaad aan weinig belangrijke beschouwingen en privé-theorieën bestaat en anderzijds een tekort aan technisch-doorwrochte onderzoekingen van het toetsings-, het instrumentele en het systematisch-descriptieve type,Ga naar voetnoot1 is het ongewenst dat deze norm wordt gehandhaafd. Wordt hij gehandhaafd, dan kan het resultaat van de arbeid van de gemiddelde promovendus - de uitzonderlijk begaafden niet te na gesproken - alleen half werk zijn, gekenmerkt door een teveel aan gratuite interpretaties, niet tot conclusies leidende exploraties en onvoldoende doordachte en daardoor weinig vruchtbare toetsingen (vgl. 5;1). Aan ‘gemengde’, theoretisch gerichte onderzoekingen moet de reeds eerder genoemde eis worden gesteld, dat de onderzoeker de verschillende vormen en werkwijzen in hun betekenis goed uit elkaar houdt (vgl. 2;2;3 en 2;2;4). De betekenis van het significantie-niveau bijvoorbeeld hangt sterk af van de vraag of we met een toetsings- of een exploratief onderzoek te doen hebben. Exploreert men, bijvoorbeeld, net zo lang totdat men iets ‘significants’ heeft gevonden, dan is dit, door de voorafgaande selectie, niet meer significant in de statistische zin. Formeel kan het probleem zo worden gesteld: bij, al dan niet systematische, exploratie van een materiaal, is aan de orde de vraag naar de statistische significantie van k (van de N) toetsingsuitkomsten; die men echter op grond van hun ‘significantie’ heeft geselecteerd - met de bijkomende complicatie, dat N gewoonlijk onbekend en groot is (vgl. de groot 1956b). Hiermee wordt dikwijls onvoldoende rekening gehouden. Deze moeilijkheid treedt reeds op bij toetsing van een groot aantal hypothesen tegelijk, wanneer daarvan slechts een fractie significant blijkt (vgl. block 1960); zij treedt ook op, helaas in niet numeriek controleerbare vorm, bij interpretaties (vgl. 9;1;3 en 9;1;4). Een andere veel gemaakte fout is deze, dat positieve significantieuitkomsten worden gebruikt om veel verder gaande inhoudelijke interpretaties van de uitkomsten te dekken met het respectabele argument van de statistische toets. Dit type verwarring tussen de denkwijzen van | |
[pagina 352]
| |
verschillende in één studie samengebrachte onderzoek-vormen is helaas zo frequent, dat wij de lezer uitdrukkelijk moeten vragen het niet als een persoonlijke discriminatie op te vatten wanneer wij slechts één voorbeeld noemen (zeldenrust-noordanus 1956). Overigens is dit slechts één vorm van de algemene fout hypothese-vormende en -toetsende onderzoekgedeelten door elkaar te halen. Op deze fout werd in dit boek reeds herhaaldelijk gewezen (zie b.v. 1;4, verder hfdst. 2 en 3). Samenvattend kunnen wij zeggen, dat complexe procedures van onderzoek, waarbij een onderwerp ‘van alle kanten wordt bekeken’ - theoretisch-interpretatief, theorie-vormend, descriptief, exploratief, toetsend - weliswaar soms noodzakelijk en uiterst belangrijk zijn, maar bijzonder hoge eisen aan de onderzoeker stellen, waaraan bijvoorbeeld de gemiddelde promovendus in de sociale wetenschappen niet geacht mag worden te kunnen voldoen. Als norm voor een proefschrift stelle men zich liever een meer homogeen onderzoek-type voor ogen. Daarvoor komt in de eerste plaats het toetsingsonderzoek in aanmerking. | |
9;3;3 Mathematische modellen.Zelden is duidelijker dan in de laatste vijfentwintig jaren gebleken, hoezeer de praktische methodologie van het empirisch-wetenschappelijk onderzoek afhangt van de ontwikkeling van logisch-mathematische en ‘technische’ hulpmiddelen. In de theorievorming, zowel als in de onderzoekmethodiek bij de toetsing van theorieën in de gedragswetenschappen kunnen wij bijvoorbeeld duidelijk de invloed constateren van recente ontwikkelingen in de logica (zie b.v. tarski 1953), in de statistica (b.v. van nonparametrische toetsen, vgl. siegel 1956), in de informatietheorie (b.v. attneave 1959), in de speltheorie en de besliskunde (b.v. von neumann en morgenstern 1944; luce en raiffa 1957), in de cybernetica (b.v. ashby 1957). Opvallend is daarbij, dat men meer dan vroeger geneigd is theoretische modellen voor complexe gebieden van verschijnselen te ontwerpen en in zijn geheel te toetsen. Deze werkwijze is ontleend aan de deductieve wetenschappen, waar zij, in haar meest exacte vorm, bekend staat als de axiomatische methode. Deze methode komt erop neer, dat men er bij de vormgeving van de theorie voor zorg draagt: ten eerste, dat alle theoretische uitspraken streng logisch kunnen worden afgeleid uit een aantal primitieve uitspraken of axioma's, voor zover de eerstgenoemde uitspraken niet zelf axioma's | |
[pagina 353]
| |
zijn; ten tweede, dat datgene, wat voor deze afleidingen nodig is - ‘primitieve termen’, ‘gedefinieerde termen’, regels voor de afleiding ontleend aan als geldig beschouwde ‘voorafgaande wetenschappen’ (b.v. de logica zelf, de rekenkunde), vgl. tarski 1953, hfdst. 6 - strikt is vastgelegd; ten derde, dat het aldus verkregen systeem aan een aantal eisen voldoet. Die eisen kennen wij reeds uit 3;1. Het gaat hier met name om de formele eisen: economie (een zo gering mogelijk aantal axioma's en primitieve termen, vgl. 3;1;3), en logische consistentie (3;1;2), nietstrijdigheid. Bij deductieve theorieën is verder een belangrijk methodologisch begrip dat van de ‘volledigheid’: terwijl een theorie niet-strijdig is ‘als geen volzin er zowel in bewezen als weerlegd kan worden’, is zij ‘volledig als elke volzin geformuleerd in termen van de theorie erin bewezen òf weerlegd kan worden’ (tarski op. cit., p. 147). In deze ideale vorm is ‘volledigheid’ een veel te strenge eis om als criterium voor de opbouw van een empirischc theorie te kunnen dienen: zelfs de rekenkunde en de hogere meetkunde voldoen er niet aan (op. cit., p. 149). De gedachte, die eraan ten grondslag ligt is echter wel altijd van groot belang; minder streng geformuleerd: spreekt de theorie zich uit over alle relevante verschijnselen binnen het gebied dat zij geacht wordt te bestrijken? Toepassingen van de axiomatische methode en van minder streng deductief maar toch mathematisch uitgewerkte modellen in de gedragswetenschappen vindt men, zoals gezegd, vooral op complexe gebieden van verschijnselen. Het theoretische model wordt dan vaak gebruikt om te zien ‘hoe ver men ermee kan komen’. In het besef, dat het, gezien de complexiteit van het gebied, stellig niet alles zal kunnen verklaren en in principe een benadering is, werkt men de belangrijkste consequenties deductief zo nauwkeurig mogelijk uit met het oog op een veelzijdige en vaak min of meer globale evaluatie. Men stevent als het ware, met een zekere verwaarlozing van details, onmiddellijk af op de theorie als geheel en haar aanvaardbaarheid (vgl. 4;2). Kloppen de deductieve uitwerkingsuitkomsten ‘in grote lijn’ met de bijbehorende empirische feiten, dan vindt de onderzoeker daarin ten eerste een aanwijzing dat hij met de theorie-vorming althans op de goede weg is, terwijl hij ten tweede in de discrepanties tussen theoretische voorspellingen en feiten duidelijke aanknopingspunten vindt voor de modificaties die het model behoeft. Deze procedure is zeker niet geheel nieuw. In de economie-benaderende wetenschap bij uitstek - wordt allang zo gewerkt. Maar ook in de | |
[pagina 354]
| |
gedragswetenschappen in engere zin bestaan manteltheorieën, die vooral de functie hebben grote gebieden globaal te dekken en die dan, min of meer als werktheorie (4;2;2), in hun consequenties worden uitgewerkt. Ook hierbij gaat het primair om de globale overeenstemming, om de bruikbaarheid en om de heuristische vruchtbaarheid van het model als geheel. Men kan ook een geheel verbale theorie als Selz' denkpsychologie als een dergelijke manteltheorie opvatten (vgl. de groot 1954b). Ook de psychoanalyse kàn men op deze wijze zien. Er zijn echter twee belangrijke verschilpunten, waarop trouwens al in 2;3;1 werd gewezen: de taalvorm van het moderne ‘model’ is mathematisch, zodat de deductieve uitwerkingen exact kunnen zijn; en het model is uitdrukkelijk tentatief. Deze twee kenmerken hangen samen. Bij een verbale theorie-vorming is de kans niet gering, dat de onderzoeker sterk emotioneel, zo niet dogmatisch betrokken zal raken bij zijn bouwwerk in woorden en ertoe zal neigen, hetzij door onwillekeurige verschuivingen in de betekenis van zijn begrippen hetzij door willekeurige modificaties in de theorie - waar de consistentie niet beter op wordt (3;1;2) - zijn systeem tegen alle ‘aanvallen’ van de feiten (of van tegenstanders) te handhaven. Bij een mathematische vormgeving is deze mogelijkheid praktisch uitgesloten. Dit geldt met name als een axiomatische vorm is gekozen, d.w.z. als het model aan alle eisen van strengheid voldoet. De deductieve uitwerkingen zijn dan scherp en onafwijsbaar, als het model eenmaal is geponeerd. Daardoor kunnen ook eventuele discrepanties met de empirie onafwijsbaar zijn. De onderzoeker moet zijn model dus wel als een tentatieve benadering zien, zolang het nog discrepanties vertoont. Gezien het feit, dat mathematische modellen in hun gebruik in de gedragswetenschappen vaak de functie hebben, een tentatieve ordening te bewerken in grote, complexe gebieden - b.v. ‘keuze-gedrag’ (luce 1959), of ‘leren’ (bush 1960) - zijn zulke discrepanties, wanneer men ernaar zoekt, meestal niet zo gering in aantal. Soms kan men ze wegwerken door het bereik van de theorie drastisch in te krimpen, maar dan verliest ze dikwijls met haar pretentie haar aantrekkelijkheid, terwijl men bovendien gemakkelijk in problemen van ‘volledigheid’ verzeild geraakt: ook bij beperking van het gebied blijven er lacunes. Het grote methodologische probleem is blijkbaar, hoe ver men in een bepaald stadium van theorie-ontwikkeling kan en mag gaan met het accepteren van discrepanties tussen theorie en werkelijkheid. In het | |
[pagina 355]
| |
algemeen kan men zeggen, dat het hierbij niet anders gaat dan bij theorieën die in een andere vorm gesteld zijn: een model is althans tijdelijk aanvaardbaar zolang er geen beter is (vgl. 4;2;2). Maar daar moet dan wel aan worden toegevoegd, dat het oordeel ‘dat er geen beter model is’ - of dat er (nog) geen ermee strijdige feiten in de literatuur vermeld staan - op een grondige kennis gebaseerd behoort te zijn.Ga naar voetnoot1 Het is tenslotte bepaald ongewenst, dat theorieën worden ontworpen, die bij hun geboorte al als weerlegd moeten worden beschouwd. Het nieuwe model mag niet alleen maar een persoonlijke constructie zijn, die wel anders maar in geen enkel opzicht beter is dan reeds eerder gepubliceerde ontwerpen; ook moet het niet onmiddellijk strijdig zijn met wat uit andere bron met zekerheid over de verschijnselen in kwestie bekend is. Het zou niet nodig zijn deze evidente opmerking te maken, als de ervaring niet had geleerd dat de fascinerende bezigheid van het maken van mathematische modellen (of: machine-modellen, zie 9;2;4) gemakkelijk in een spel kan ontaarden, of in een kunst: ‘l'art pour l'art’. | |
9;3;4 Machine-modellen: simulatie van gedrag.Een nieuwe variant op deze vorm van onderzoek van complexe gebieden is die, waarbij niet met een mathematisch, maar met een programma-model voor het onderzoekgebied in kwestie wordt gewerkt. De recente ontwikkeling van de elektronische, digitale rekenmachine (digital computer) heeft het mogelijk gemaakt een theorie in programmainstructies te expliciteren. Men kan hier spreken van een nieuwe taal-vorm (vgl. 2;3;1), die evenzeer als de mathematische aan alle eisen van objectiviteit en precisie voldoet (vgl. de definitie van ‘objectiviteit’ in 6;1;3). Met deze nieuwe taalvorm corresponderen nieuwe methoden van toetsing - of misschien liever: evaluatie - van theoretische modellen en, uiteraard, nieuwe methodologische problemen, waarop wij kort zullen ingaan. Het idee om machine-programma's op te vatten als mogelijke modellen voor menselijk gedrag is voortgekomen uit bepaalde ontwikkelingen in | |
[pagina 356]
| |
de technische toepassingssector, die men wel aanduidt met de term ‘kunstmatige intelligentie’ (artificial intelligence). Het was oorspronkelijk vooral voor praktische doeleinden, dat men servo-mechanismen - partiële robotten - trachtte te bouwen, respectievelijk programma's trachtte te ontwikkelen, die prikkels (informatie) niet alleen automatisch registreerden, maar ook verwerkten en omzetten in adequate reacties (decisies), machines die van ‘ervaring’ konden ‘leren’ (learning machines), die ‘denk’-operaties konden verrichten, rationele ‘beslissingen’ konden nemen, etc. Evenals bij de reken-machine in engere zin ging het bij zulke, merendeels niet-numerieke prestaties van kunstmatige intelligentie aanvankelijk vooral om het resultaat: de robot, het machine-programma moest de mens kunnen vervangen, d.w.z. dezelfde prestatie kunnen leveren als de mens, liefst met grotere precisie en in veel kortere tijd. Men ontdekte echter al gauw, dat er ook theoretisch belangrijke mogelijkheden in deze ontwikkeling besloten lagen. Machine-processen werden vergeleken met en leverden modellen voor neurologische processen (b.v. mc culloch en pitts, 1943) en biologische processen (b.v. rashevsky 1948). Shannon leverde met zijn informatie-theorie (shannon en weaver 1949) een belangrijke theoretische bijdrage, terwijl Wiener de nieuwe wetenschap der ‘Cybernetica’ proclameerde (wiener's definitie: ‘the science of control and communication, in the animal and the machine’ (1948); vgl. ook ashby 1957). Volgens Green kan men de meeste programma's, die tot nu toe voor de simulatie van menselijke processen zijn uitgewerkt en beproefd in één van de vier volgende categorieën indelen: neurologische netten, patroon-herkenners (waarnemers), probleem-oplossers en taal-verwerkers (green 1961, p. 86). Wij zullen ons hier beperken tot enkele opmerkingen over de methodologische problemen van de denk-simulatie, dus tot de ‘problem solvers’ in Green's terminologie. Karakteristiek voor het gebruik van machine-programma-modellen voor de ontwikkeling en toetsing (of evaluatie) van theorieën is, dat men niet alleen naar het resultaat kijkt, maar ook naar het proces, dat tot dit resultaat leidt. De theorie, die in het machine-programma geïncorporeerd is, is in principe alleen dan aanvaardbaar als het ‘gedrag’ van de machine, volgens nader te bepalen criteria, ononderscheidbaar is van het gedrag van een menselijk proefpersoon. Tracht men bijvoorbeeld een schaakprogramma te ontwikkelen, dan is bij deze opvatting van machine- | |
[pagina 357]
| |
simulatie het doel niet alleen, en misschien zelfs niet in de eerste plaats, van de machine een ‘goede speler’ (c.q. een meester, een wereldkampioen) te maken, maar veeleer ‘denk-processen’ - dus machine-protocollen - te verkrijgen, die op een aantal theoretisch essentieel geachte punten precies lijken op protocollen van menselijke proefpersonen die hardop denken. Natuurlijk blijft het criterium van de prestatie ook dan belangrijk; maar er wordt meer vereist. Onderzoekers, die van dit theoretische uitgangspunt uitgaan (met name newell, shaw en simon 1958a, b, c; newell en simon 1961a, b, c) moeten worden onderscheiden van de velen, die bijvoorbeeld het idee van een schaak-machine vooral hebben aangegrepen uit een oogpunt van oefening in ‘artificial intelligence’, om hun krachten te beproeven op een gecompliceerd probleem (shannon 1950; turing naar bowden 1950; bernstein en roberts 1958). Ook bij deze laatsten is het doel natuurlijk niet direct praktisch. Het gaat bij hen echter primair om de ontwikkeling van technische vaardigheden - waarbij een zekere winst aan inzicht in menselijke processen een belangwekkend bijprodukt kan zijn. Terwijl de eerste groep er bewust naar streeft de machine uit te rusten met aan het menselijk denken ontleende, vereenvoudigde maar niet gegarandeerd tot de beste oplossing leidende, zgn. heuristische routines - in feite geprogrammeerde ‘denkmethoden’ (de groot 1946, 1954b) - is voor de tweede groep een blinde, maar volledig alle mogelijkheden dekkende, zgn. algorithmische routine preferabel zolang deze niet te veel rekenwerk en dus machine-tijd vereist. Het criterium in het tweede geval is niet de gelijkenis met het menselijke denken qua proces, maar alleen de gelijkheid, of liever nog superioriteit van het resultaat. Het feit echter, dat bij niet- numerieke problemen het menselijke denken in zijn hoogste vormen vooralsnog aanzienlijk efficiënter werkt dan de beste machines, heeft ten gevolge, dat ook zij die alleen het resultaat tellen, wel moeten zoeken naar heuristische oplossingen. Er is tegenwoordig een duidelijke convergentie van de twee richtingen te constateren. De methodiek van de onderzoekers, die het programmamodel als een (explicitering van een) theorie opvatten, is bijzonder duidelijk beschreven door Newell, Shaw en Simon. Zij stellen, dat de manier waarop zij trachten het ‘juiste’ programma te ontwikkelen, d.i. de theorie, die het gedrag verklaart, precies dezelfde is als bij de ontwikkeling van theorieën | |
[pagina 358]
| |
over willekeurige andere fenomenen. Bij de ontwikkeling van een denkprogramma gaat het in principe als volgt (newell en simon 1959): Verzamel protocollen van menselijke proefpersonen die hardop denken terwijl zij problemen oplossen; tracht een machine-programma te schrijven waarvan je verwacht, dat het de menselijke processen zal simuleren; realiseer het programma op een machine en bepaal wat voor gedragsprotocollen de machine produceert, indien geconfronteerd met dezelfde (typen) problemen als de proefpersonen; vergelijk het gesimuleerde met het werkelijke gedrag; modificeer het programma op basis van de gevonden discrepanties. Ga hiermee zo lang door totdat je tevreden bent met de overeenstemming. Dit is inderdaad ten duidelijkste de spiraal van het voortschrijdende wetenschappelijk onderzoek (1;4). De schrijvers vergelijken het proces in het bijzonder met, bijvoorbeeld, de ontwikkeling van een natuurkundige theorie: observaties maken - differentiaal-vergelijkingen opstellen - numeriek integreren van de vergelijkingen - vergelijken van de voorspellingen met de uitkomsten - modificeren van de differentiaalvergelijkingen - doorgaan totdat de overeenstemming bevredigend is. Uit deze vergelijking blijkt nog eens zeer duidelijk, dat de programma-taal en -explicitering de taak van de mathematische vormgeving heeft overgenomen. Via de machine ‘integreren’ de onderzoekers de veelheid van principes en routines zoals de mathematische fysicus over een veelheid van variabelen integreert. In een andere publikatie (newell, shaw en simon 1958a) stellen dezelfde schrijvers terecht, dat zij zich precies houden aan de canon van de inductieve methode in de empirische wetenschappen. Het ziet er inderdaad naar uit, dat tegen de grote lijn van hun betoog niets in te brengen is. Toch rijzen er wel enkele fundamentele methodologische vragen. Wij kunnen deze hier alleen aanstippen. Een belangrijke vraag is die naar de criteria voor werkelijke ‘simulatie’, of anders gesteld, voor de bereikte overeenstemming tussen machine- en menselijk protocol. Er moet hier naar twee kanten worden afgegrensd. Bepaalde details in het machineproces zijn ‘van technische aard’ en niet van belang als explicitering van de theorie; maar ook bepaalde details in het denkproces moeten worden | |
[pagina 359]
| |
verwaarloosd, bijvoorbeeld voor zover zij meer de belevings- dan de activiteits-aspecten van het denk-gebeuren weergeven. Het probleem is, waar en hoe men precies die grenzen moet leggen. Verder is het duidelijk, dat dit eigenlijk vooraf moet gebeuren, d.w.z. men moet vooraf vaststellen welke principes van resultaat, van dynamiek, van opeenvolging, van proces-verloop men van belang acht om te simuleren, d.i. om in het theoretische ontwerp op te nemen. Deze afgrenzing is namelijk te zien als een definitie van het bereik van de theorie, dus van het gebied van verschijnselen waarop zij betrekking zal hebben, en daarmee als een vastlegging van de empirische feiten waaraan zij zal worden getoetst. Het ziet ernaar uit, dat men het beste doet niet zomaar van een paar protocollen uit te gaan, maar van een bestaand of zorgvuldig doordacht theoretisch ontwerp in verbale vorm, bijvoorbeeld van de theorie van Selz-De Groot - wat Newell c.s. trouwens tot op zekere hoogte ook hebben gedaan (vgl. newell, shaw en simon 1958a). Doet men dit niet, dan bestaat het risico, dat een ‘bevredigende overeenstemming’ wordt bereikt, doordat men de beide afgrenzingen op die overeenstemming instelt, d.w.z. doordat men het bereik van de te verklaren denkverschijnselen enerzijds en dat van de relevant geachte machine-verschijnselen anderzijds ad hoc beperkt tot wat met elkaar klopt. Met andere woorden: wanneer men zo wil werken, dan moet een grondige theoretische bezinning aan het programmeren voorafgaan. Men moet zich onder meer ook rekenschap ervan geven - b.v. bij de schaaksimulatie - in hoeverre men geheugen- en waarnemings-hypothesen in de te programmeren denktheorie wil opnemen. Daarvan zal immers mede afhangen of bepaalde onderdelen van de programmerings-techniek al dan niet als relevant voor de theorie moeten worden beschouwd. Verder is het ook bijzonder gewenst het onderzoek naar de denkverschijnselen parallel met de ontwikkeling van het machine-programma en vooral ook daarna voort te zetten. Als het programma de theorie ‘is’, zoals Newell c.s. het soms stellen, dan moet deze niet alleen worden ontwikkeld aan de hand van observaties, maar ook telkens aan nieuw materiaal worden getoetst. Denkpsychologische experimenten kunnen dan de status van toetsingsexperimenten krijgen, erop ingericht om specifieke hypothesen uit de theorie te falsifiëren. Tenslotte: ‘Is’ een programma werkelijk een theorie? Men kan daarover | |
[pagina 360]
| |
verschillend denken. Velen zullen zich met deze theorie-vorm, met deze nieuwe taal niet erg gelukkig voelen. Het lijkt echter ook niet nodig haar als eind-vorm te accepteren: het moet mogelijk zijn dat wat essentieel is in het programma in een even objectieve andere vorm - mathematisch en/of exact-verbaal - terug te vertalen.
Wij hebben slechts enkele methodologische aspecten van de simulatie kunnen aanstippen; er zijn kennelijk nog vele onopgeloste problemen. Zeker is echter, dat de explicitering van een vage, verbale theorie in een machine-programma een uiterst belangrijk methodologisch hulpmiddel is, naast of in combinatie met de explicitering in symbolisch-logische of mathematische vorm. Hoe men ook over de confirmatie-waarde van de overeenstemming tussen machine- en menselijke verschijnselen moge denken, omwerking tot een programma is in ieder geval instructief en vruchtbaar. Het dwingt tot precisie en tot beantwoording van vragen die bij een verbale taal-vorm in het vage kunnen blijven, het dwingt tot principiële onderscheidingen, bijvoorbeeld tussen informatie- en decisieprocessen, tussen waarnemings-, geheugen- en denkverschijnselen, het dwingt de onderzoeker ertoe zich nauwkeurig rekenschap te geven van wat hij voor een sluitende theorie nodig heeft, en van wat hem daartoe in zijn oorspronkelijke theorie-vorming ontbrak. Zelfs als men alleen maar programmeert - in één van de daarvoor beschikbare abstracte talen - en niet werkelijk simuleert, dus zelfs zonder machine, kan men al deze vruchten plukken. Over het belang van de nieuwe methode als stimulans tot theoretische bezinning en opfrissing van het denken kan géén verschil van mening bestaan. |
|