Spektator. Jaargang 8
(1978-1979)– [tijdschrift] Spektator. Tijdschrift voor Neerlandistiek– Auteursrechtelijk beschermd
[pagina 47]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Effect-onderzoek taalvaardigheid
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 48]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1. Richtlijnen van GeelGlobaal genomen komen de adviezen en raadgevingen van Geel op het volgende neer: een schrijver gaat uit van een zo breed en systematisch mogelijke vraagstelling. Om alle aspecten van een te bespreken probleem te onderkennen maakt hij gebruik van het zogenaamde topisch systeem, een reeks stereotype vragen als waarom, hoe, wanneer etc. De toepassing van dit topisch systeem op een globale vraagstelling mondt uit in een aantal concrete subvragen, aan de hand waarvan de schrijver zijn materiaal gaat verzamelen. Het verzamelde materiaal wordt uitgewerkt en gerubriceerd, onderwerp bij onderwerp. Vervolgens bedenkt de schrijver een logische volgorde van de gegevens per onderwerp en rangschikt daarna de rubrieken. Dit laatste komt neer op het opstellen van een schema. Op basis van dit schema kan worden begonnen met het schrijven van een eerste versie; bij het schrijven is het van belang niet naar perfectie te streven en ‘zo open’ mogelijk te staan voor ideeën die zich aandienen. Abstracte ideeen probeert de schrijver te concretiseren door aan de dagelijkse werkelijkheid te refereren. De schrijver gebruikt de werkelijkheid als identificatiebron voor de lezer, zodat deze gemotiveerd wordt tot verder lezen. Een eenmaal verkregen eerste versie wordt herschreven, daarbij lettend op de spelling, onzorgvuldige formuleringen etc. Werken deze richtlijnen? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2. Waarom empirisch effect-onderzoek?Waarom zouden we niet domweg de leraren die een tijd met het boek van Geel gewerkt hebben, vragen of de richtlijnen en adviezen werken? Is er soms een sterker en overtuigender bewijs voor de effectiviteit van de raadgevingen nodig dan het positieve oordeel van de man in de praktijk? De moeilijkheid hierbij is dat mensen selectief waarnemen, onthouden en oordelen (Jones en Gerard 1976). In de regel rechtvaardigen mensen zware inspanningen achteraf door een positief oordeel uit te spreken over het behaalde eindresultaat - of dat nu intersubjektief gesproken positief of negatief is. Men spreekt in dit verband van ‘effort-justification’. Een schat aan empirische gegevens laat over de waarde van bovengenoemd gezichtspunt weinig twijfel bestaan (Festinger 1957). Ter toelichting een voorbeeld. Aronson en Mills nodigden studentes van een Amerikaans college uit om deel te nemen aan groepsdiscussies over de psychologie van de sex (Aronson en Mills 1959). Een groep studentes moest een lijst zwaar-obscene woorden hardop voorlezen; men suggereerde hen dat voorkomen moest woorden dat meisjes, die al te zeer van streek raakten, de dynamiek van het groepsproces zouden verstoren. Een andere groep studenten werd zonder meer tot de discussiegroep toegelaten. Vervolgens luisterden alle meisjes via een koptelefoon naar een aan de gang zijnde discussie die onovertrefbaar saai en vervelend was. Meisjes die een zware initiatie hadden ondergaan bleken achteraf de groepsdiscussie veel aantrekkelijker gevonden te hebben dan meisjes die zonder meer tot de discussiegroep waren toegelaten. De moeite en inspanning die men zich moest getroosten om het lidmaatschap van de groep te verwerven beïnvloedde kennelijk het ‘onafhankelijke’ oordeel.Ga naar eindnoot1. Het is onwaarschijnlijk dat men van de man in de praktijk, die zich heeft ingezet en moeite heeft gedaan om de schrijfvaardigheid van zijn leerlingen te verbeteren, betrouwbare informatie zal verkrijgen ten aanzien van de door Geel gegeven adviezen. Wat de mensen zeggen behoeft niet noodzakelijkerwijs overeen te komen met de fei- | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 49]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
telijke stand van zaken. De empirisch-georiënteerde onderzoeker kent geen al te grote waarde toe aan de meningen en belevingen van de ‘man in het veld’. Niet dat deze onbelangrijk zouden zijn, integendeel zelfs. Waar het hem echter om gaat, is dat die meningen op zichzelf noodzakelijk noch voldoende zijn om de effectiviteit van de ‘methode Geel’ aan te tonen. De empirisch-georiënteerde onderzoeker concentreert zich op een feitelijke stand van zaken. Hij laat zich daarbij leiden, zo zegt men vaak, door het adagium ‘let the data speak’. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3. Bewijzen, weerleggen en ‘weerleggen’Wie nu van een empirische aanpak onomstotelijke bewijzen voor de effectiviteit van de methode Geel verlangt, komt bedrogen uit. Empirische wetenschap is trouwens überhaupt niet in staat te bewijzen, te verifiëren. Ter toelichting een voorbeeld. Een onderzoeker wil twee methoden ter verbetering van de schrijfvaardigheid van leerlingen op hun effectiviteit onderzoeken. Methode Geel wordt op school A gebruikt, methode X op school B. Hij vergelijkt na een cursusjaar de opstelcijfers van school A met die van B (A gemiddeld 9, B 7) en komt tot de conclusie dat methode Geel de meest effectieve is. Deze claim is echter onhoudbaar, want het is mogelijk dat de leraar op school A hogere cijfers geeft dan die op school B. De onderzoeker, hierop geattendeerd, zet een nieuw onderzoek op en laat de opstellen nakijken door onpartijdige buitenstaanders. Weer ‘blijkt’ methode Geel beter dan methode X. Weer wordt dezelfde conclusie getrokken, en weer komt de kritiek: het verschil tussen methode Geel en methode X zou niet verklaard hoeven te worden uit de intrinsieke merites van methode Geel, maar zou ook verklaard kunnen worden uit het verschil in presentatie. De leraar op school A brengt methode Geel soepel en enthousiast, de leraar op school B onderwijst saai en vervelend. De onderzoeker zou in bovenstaand geval een hypothese H, een veronderstelling kunnen formuleren: methode Geel is beter dan methode X. Deze hypothese is in deze vorm niet rechtstreeks te toetsen. Direct of indirect wordt uit die hypothese een testimplicatie I afgeleid: als methode Geel effectiever is dan methode X, dan zullen leerlingen onderwezen met methode Geel betere opstellen schrijven dan leerlingen onderwezen met methode X. Deze concrete testimplicatie wordt getoetst aan de hand van verzamelde gegevens, i.c. opstellen. Gesteld nu dat leerlingen onderwezen met methode Geel betere produkten afleveren. Is de hypothese H nu bewezen? In schema:
Dit redeneerschema, dat bekend staat onder de naam ‘drogreden van de bevestiging van de consequens’, is logisch ongeldig. Dat laatste betekent, dat conclusie 3 onwaar kan zijn, ook al zijn de premissen 1 en 2 beide waar. Zelfs uitgebreide toetsing met onverdeeld gunstige resultaten levert nog geen sluitend bewijs voor de geldigheid van een hypothese; deze geeft er alleen meer of minder sterke steun aan (Hempel, 1973). Een empirische aanpak is dus niet in staat de effectiviteit van methode Geel te bewijzenGa naar eindnoot2.. Gesteld nu dat de onderzoeker had gevonden dat leerlingen onderwezen met metho- | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 50]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
de Geel geen betere opstellen schreven dan leerlingen onderwezen met methode X. In schema:
Dit redeneerschema, dat in de logica bekend staat onder de naam ‘modus tollens’, is deductief geldig: als de premissen 4 en 5 beide waar zijn, dan is conclusie 6 noodzakelijkerwijs waar. Het lijkt dus mogelijk theorieën c.q. hypothesen op grond van één empirisch tegenvoorbeeld te weerleggen, te falsifiëren. Toch leert nadere analyse dat ook deze opvatting, gepropageerd door de zogenaamde dogmatisch falsificationisten, onhoudbaar is (Lakatos, 1977). De effectiviteit van methode Geel is logisch gezien niet alleen niet te bewijzen, maar ook niet te weerleggen. Het probleem bij een strikte weerlegging van de hypothese zit hem in de waarheid van premisse 5: 1 is niet waar, zo blijkt uit de gegevens. Premisse 5 is een zogenaamde ‘observational’ bewering, waarvan de waarheidswaarde afhankelijk is van een waargenomen stand van zaken in de werkelijkheid. Logisch gezien kan men uitspraken alleen bewijzen op grond van andere uitspraken, niet op grond van feitelijk geobserveerde gegevens. Wat we immers waamemen kunnen we niet noodzakelijkerwijs voor waar aannemen. Bijvoorbeeld: een stok in het water gestoken lijkt door het water gebroken te worden. Spoorrails van dichtbij geobserveerd lopen evenwijdig, in de verte lijken ze elkaar te snijden. We moeten kennelijk een onderscheid maken tussen schijn en werkelijkheid, tussen correcte en incorrecte observaties op basis van kennis en theoretische inzichten in de werkelijkheid. Die kennis en theoretische inzichten hangen echter ook weer af van feilbare observaties. Kortom, de waarheid van ‘observational’ uitspraken kan dus niet op grond van waargenomen gegevens ondubbelig bewezen worden. Toch is het volgens het methodologisch falsificationisme mogelijk om onder bepaalde condities hypothesen te ‘weerleggen’, door namelijk waarheidswaarde toe te kennen aan sommige ‘observational’ uitspraken. Omdat het toekennen van waarheidswaarde het nemen van riskante, eventueel foutieve beslissingen impliceert, spreken de methodologisch falsificationisten niet van weerleggen, maar van ‘weerleggen’. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4. Theorie-afhankelijkheid van dataWaarheidswaarde toekennen impliceert het nemen van riskante, eventueel foutieve beslissingen. Het betekent ook dat men geen illusies behoeft te koesteren ten aanzien van harde data, harde feiten, experimentele bewijsvoeringenGa naar eindnoot3.. De implicatie van deze visie voor het onderhavige effect-onderzoek is de volgende: data spreken niet voor of uit zichzelf, maar alleen binnen het kader van een scherp gearticuleerde theorie. Enkele voorbeelden uit de geschiedenis van de wetenschap kunnen dit illustreren: de astronoom Flamsteed (1694) werd tijdens zijn loopbaan door de voortdurende herzieningen in Newtons theorie herhaaldelijk gedwongen zijn oorspronkelijke ‘observaties’ te corrigeren, zodanig dat deze overeenkwamen met de door Newtons theorie voorspelde waarden (Lakatos 1977, 130). In de 19e eeuw ontwikkelde Prout een theorie (atoomgewichten van alle zuivere chemische elementen zijn gehele getallen) die in flagrante tegenspraak was met de tot dan toe verzamelde | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 51]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
‘feiten’. De theorie handhaafde zich, de vigerende experimenteel-chemische technieken werden opgeblazen en vervangen door ‘adequatere’ (Lakatos 1977, 138). Guilfords theorie over de structuur van het intellect, die 120 onafhankelijke intelligentiecomponenten postuleert, wordt door aanhangers in de regel getoetst middels de zogenaamde Procrustusrotatie (Guilford 1972). Het komt er op neer dat de verzamelde gegevens in een op basis van de theorie gespecificeerde structuur geperst worden. Is de ‘stress’ tussen de geobserveerde en theoretisch te verwachten waarden niet al te groot, dan beschouwt men dat als een ondersteuning van Guilfords theorie. Let the data speak! Data zijn kennelijk kneedbaar, zacht; ze lijken slechts hard binnen een theorie. Wanneer nu scherp gearticuleerde verwachtingen op basis van een theorie ontbreken dan wordt de interpretatie van de data, het resultaat van een enkel onderzoek, wel een uiterst hachelijke zaak. In deze situatie leiden replicaties (herhalingen) van het onderzoek typisch tot een vergroting van de interpretatieproblemen: inconsistente resultaten. Zo is er in de jaren vijftig en zestig een onafgebroken stroom publikaties verschenen over het effect van geprogrammeerde instructies in vergelijking met die van de ‘klassieke’ methode. Nu eens bleek geprogrammeerde instructie superieur, dan weer de klassieke methode, dan weer bleken beide didactieken even effectief (cf. Hartley 1972, Schramm 1964). Bij gebrek aan een scherp theoretisch kader waarbinnen gegevens geïnterpreteerd kunnen worden, leiden dergelijke a-theoretische onderzoekingen eerder tot een vergroting dan tot een verkleining van de chaos. Hét probleem bij het onderhavige effect-onderzoek (werkt methode Geel?) is dat een dergelijk onderzoek moet plaatsvinden in een theoretisch vacuüm. We zullen verderop zien dat de onderzoeker er bij de opzet van het onderzoek niet aan kan ontkomen bepaalde verwachtingen uit te spreken. Afhankelijk van de juistheid van deze verwachtingen kunnen de data spreken. Zwijgen ze, dan is of de verwachting onjuist, of de methode Geel ineffectief, aangenomen dat het onderzoek verder correct is opgezet en uitgevoerd. ‘The attempt to create knowledge needs guidance; it cannot start from nothing. More specifically, it needs a theory, a point of view that allows the researcher to separate the relevant from the irrelevant (...)’ (Feyerabend 1977). | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5. Interne validiteitWe hebben in paragraaf 3 gezien dat het effect van methode Geel niet sec werd bekeken, maar vergelijkenderwijs. Vergelijken, contrasteren, constateren van verschillen, dat zijn de activiteiten die ten grondslag liggen aan elke vorm van wetenschappelijke kennis. Boring drukt het aldus uit: ‘Actually it is the use of the method of difference, that is to say, of control, that puts rigor into science. A fact is a difference’ (Boring 1973, 2). Het nut van wetenschappelijk onderzoek dat het effect van de methode Geel geisoleerd natrekt, d.w.z. zonder die methode te contrasteren met een andere, is praktisch gesproken nihil. Elke schijn van absolute kennis, kennis opgedaan zonder ‘control’, blijkt bij nadere beschouwing op illusie te berusten (Campbell en Stanley 1966). Een voorbeeld. Een leraar gebruikt de methode Geel gedurende een jaar, en constateert na afloop van dat jaar dat er vooruitgang is geboekt. In schema ziet dat onderzoeksontwerp er aldus uit: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 52]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
O1 methode Geel O2 O1 (observatie) staat voor het gemiddelde opstelcijfer aan het begin van het jaar, O2 voor dat aan het eind van dat jaar. Het verschil tussen O2 en O1 is positief, er is immers vooruitgang geboekt. Aan welke factoren moet de leraar die vooruitgang toeschrijven? Aan de intrinsieke merites van methode Geel? Het hoeft nauwelijks betoog dat het bovenstaand onderzoeksontwerp, het one-group-pretest-posttest-design, een aantal rivaliserende verklaringen niet uitsluit: naast of in plaats van methode Geel kunnen andere factoren de geobserveerde vooruitgang in schrijfvaardigheid van de leerlingen teweeg gebracht hebben. Om er enkele te noemen: het louter oefenen, het schrijven van een aantal opstellen of essays gedurende het cursusjaar, kan de vooruitgang veroorzaakt hebben. Alle biologische en psychologische processen binnen het individu die systematisch veranderen in functie van het verstrijken van de tijd (bv. rijper worden) zouden het verschil kunnen verklaren. Een systematische verandering in het meetinstrument, i.c. een verschuiving van de normen bij het beoordelen van de opstellen, zou een verklarende factor kunnen zijn, met name wanneer de leraar overtuigd is van de effectiviteit van methode Geel (dit is het zogenaamde ‘observer-effect’ cf. Rosenthal 1973, 182). De leraar als wetenschappelijk onderzoeker behoort uiteraard ‘blind’ te zijn ten aanzien van het feit of een opstel binnen de klasse O1 of O2 valt. Past men die laatste methodologische zorgvuldigheid bij het opzetten van bovenstaand onderzoek toe, dan moet men dit als een fout van de misplaatste precisie karakteriseren: het aantal alternatieve verklaringen van het resultaat bij een dergelijk design blijft desondanks te groot. Er ontbreekt controle. Goed onderzoek is zo opgezet dat alternatieve verklaringen van het geobserveerde resultaat totaal worden uitgesloten. Dat komt er in de praktijk op neer dat alle potentieel storende variabelen (zoals bv. oefening, ouder worden en dergelijke) zijn uitgeschakeld of onder controle zijn gehouden. Voldoet een onderzoek aan deze eis, dan noemt men het intern valide. Interne validiteit is een conditio sine qua non voor elk empirisch onderzoekGa naar eindnoot4.. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6. Dilemma'sAbsolute kennis, kennis van één geïsoleerd fenomeen, is dus geen haalbare zaak. Laten we daarom methode Geel contrasteren met een andere, bijvoorbeeld de methode van Drop en De Vries (Drop en De Vries 1974). In schema:
Dit onderzoeksontwerp sluit onder andere de mogelijkheid uit dat de effectiviteit van de methode Geel is toe te schrijven aan louter oefening: beide groepen oefenen exact even veel, behoren dit methodologisch gezien althans te doen. Het ontwerp sluit dus een alternatieve verklaring uit, maar introduceert andere. De leerlingen in groep 1 en 2 kunnen systematisch verschillen in hun beginniveau wat betreft schrijfvaardigheid (of creativiteit, of intelligentie, of verbaal begrip, kortom al die variabelen die systematisch kunnen samenhangen met schrijfvaardigheid). Het zijn deze verschillen die een eventueel positief effect van methode Geel kunnen verklaren. Dergelijke storende | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 53]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
variabelen kunnen we uitschakelen door de leerlingen aselect, d.w.z. louter op grond van het toeval, toe te wijzen aan groep 1 of 2. Deze lotingsprocedure garandeert niet voor de volle honderd procent dat de leerlingen in beide groepen op alle potentieel storende variabelen equivalent zijn, maar maakt het statistisch gezien wel uitermate waarschijnlijk. Helaas is zo'n methodologisch vrij bevredigend onderzoeksontwerp, het posttest-only-control-group-design, in de praktijk meestal niet uitvoerbaar. In de regel is men in het onderwijs niet bereid bestaande klassen op te splitsen. Maar zelfs indien men daartoe al bereid was, dan zou deze procedure zoveel artefacten kunnen produceren dat een ondubbelzinnige interpretatie van de onderzoeksuitkomsten bij voorbaat uitgesloten is. (Artefacten zijn onbedoeld tot stand gebrachte ‘feiten’ op grond van een experimentele situatie.) Het eenvoudige weten deel te nemen aan een onderzoek, teweeg gebracht door het opsplitsen van intacte klassen, kan het gedrag van de leerling drastisch veranderen. En niet alleen het gedrag van de leerling, maar ook dat van de leraar. Een voorbeeld. In de jaren dertig onderzocht een groep industrial researchers de produktiviteit van een groepje vrouwelijke arbeiders in een fabriek teneinde optimale werkomstandigheden te identificeren. Hoe men de externe omstandigheden ook varieerde (lichtvariatie, werktijdenvariaties etc.), de produktiviteit van de groep bleef relatief constant, en dat op een onvoorstelbaar hoog niveau. Wat er gebeurde was, dat de vrouwen op het observatieproces zelf reageerden en zich gedroegen op een wijze die atypisch was voor hun werk onder normale omstandigheden (Roethlisberger en Dickson 1939). Een ander voorbeeld: proefpersonen in een laboratoriumsituatie moesten een aantal optelsommen maken. Ze kregen ieder een pak papier van 2000 vel, met op elk vel 224 rekenopgaven. Als ze klaar waren met een vel, moesten ze van een stapel een kaart pakken waarop verdere instructies stonden. Elke kaart in die stapel vertelde de proefpersoon onveranderlijk dat hij zijn vel papier, dat hij juist voltooid had, in ten minste 32 stukjes moest scheuren en moest doorgaan met het volgende vel. Proefpersonen bleven doorgaan met deze absurde taak, totdat de experimentator het na vijf en een half uur opgaf (Orne 1977). Een stroom van methodologisch georiënteerde publikaties laat geen twijfel bestaan over de vaak desastreuze invloed van de hierboven geillustreerde I-am-a-guinea-pig-attitude (Rosenthal en Rosnow 1973). Niet alleen de leerling, maar ook de leraar mag strikt genomen niet weten dat hij aan een onderzoek deelneemt. Maar hoe moet men dit laatste realiseren? Terug naar het onderzoeksontwerp. Het posttest-only-control-group-design lost dus enkele validiteitsproblemen op, maar introduceert door de aperte kunstmatigheid van het aselecteren nieuwe moeilijkheden. Die kunstmatigheid kunnen we echter voorkomen door niet individuele leerlingen, maar bijvoorbeeld twee bestaande klassen aselect toe te wijzen aan één van beide methoden. In schema:
In dit ontwerp vindt er een voormeting plaats, (Ob) waarbij het beginniveau in schrijfvaardigheid wordt vastgelegd, en een nameting waarbij het eindniveau wordt bepaald. Dit ontwerp staat bekend onder de naam non-equivalent-control-group-design. Die non-equivalentie betreft uiteraard een eventueel systematisch verschil in beginniveau tussen beide klassen. In principe kunnen we een dergelijk verschil statistisch uitschakelenGa naar eindnoot5.. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 54]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ook aan dit design, een van de meest gehanteerde binnen de onderwijsresearch, zit een aantal haken en ogen. Zelfs indien verschillen tussen klas 1 en 2 in hun beginniveau zijn uitgeschakeld, dan nog kan een positief effect ten gunste van methode Geel aan andere irrelevante factoren worden toegeschreven: de leerlingen in klas 1 zijn beter gemotiveerd, de leraar in klas 1 presenteert beter etc. Wat erger is, door de keuze van dit design gaat een schat aan, voor de praktijk van het onderwijs, potentieel waardevolle informatie verloren. Bij de keuze van een heel ander design zou het volgende interessante resultaat uit de bus kunnen komen:
Methode Geel heeft een negatief effect bij leerlingen met een hoog schrijfvaardig-heidsniveau, geen effect bij leerlingen met een middelmatig schrijfniveau en een positief effect bij leerlingen met een laag niveau. Dat dergelijke differentiële effecten ook in de praktijk optreden moge blijken uit een opmerking van Rudolf Geel: ‘Bij sommigen werkte deze (aanpak) niet terwijl zij wel gemotiveerd waren voor het werk. De meesten evenwel voelden zich door deze aanpak wel gestimuleerd in hun zelfwerkzaamheid. Op grond van deze ervaringen zou ik dus minstens twee strategieën moeten hanteren om studenten aan het schrijven te krijgen.’ (Geel 1977, 106) Inderdaad, de praktisch relevante vraag is niet: werkt de methode Geel, maar bij wie werkt de methode Geel, en bij wie niet? Helaas is een dergelijke zinvolle vraag moeilijk te beantwoorden met behulp van het non-equivalent-control-group-design, dat ontwerp dat in de praktijk veelal het meest haalbare is. In dat ontwerp wordt het beginniveau van de leerling immers bewust ‘geneutraliseerd’. Er bestaat een ontzaglijke hoeveelheid literatuur over allerlei designs, elk met hun specifieke mogelijkheden en moeilijkheden. Ik heb slechts een heel beperkt aantal designs besproken, voldoende wellicht om een indruk te geven van de dilemma's waarmee een empirisch effect-onderzoeker geconfronteerd wordt: praktisch zinvolle en relevante vragen kunnen vaak moeilijk op streng methodologische wijze beantwoord worden; kiest een onderzoeker een bepaald ontwerp dat vergeleken met een ander een aantal alternatieve verklaringen uitsluit, dan wordt hij gewoonlijk met nieuwe validiteitsproblemen geconfronteerd. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
7. De methode Geel en de didactiek GeelTot nu toe heb ik steeds over methode Geel gesproken. Zoals gezegd, hiermee bedoel ik een door Geel ontwikkelde strategie om het schrijven van verschillende soorten teksten te helpen vergemakkelijken. Voor zinvol effect-onderzoek is het noodzakelijk | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 55]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
dat de door Geel gegeven richtlijnen geëxpliciteerd worden, en wel zodanig dat een andere onderzoeker die verzameling richtlijnen c.q. operaties tot op zekere hoogte kan repliceren. Een gedetailleerde beschrijving van die richtlijnen is eveneens noodzakelijk voor een evaluatie van de generaliseerbaarheid van de onderzoeksresultaten. Wittreck merkte op, dat veel empirische studies van de zogenaamde learning-by-discovery didactiek deze niet voldoende geëxpliciteerd hebben. Omdat die didactiek door verschillende personen op andere wijze geïnterpreteerd wordt is het onduidelijk naar welke situaties de gevonden resultaten gegeneraliseerd kunnen worden (Wittreck 1966). Op analytisch niveau behoort men een scherp onderscheid te maken tussen methode Geel en didactiek Geel. Methode Geel heeft betrekking op de richtlijnen, didactiek Geel betreft de principes volgens welke die richtlijnen in de praktijk het best gerealiseerd kunnen worden. In de praktijk van het moedertaalonderwijs zijn de methode Geel en de didactiek Geel echter niet te scheiden. Dat impliceert dat het effect-on-derzoek in feite niet gericht is op de effectiviteit van de richtlijnen, maar op de effectiviteit van die richtlijnen binnen een bepaald didactisch kader. Wanneer het resultaat van het onderhavige effect-onderzoek negatief zou zijn, dan volgt daaruit niet de conclusie dat de methode Geel ineffectief is: de didactiek kan gefaald hebben, de methode kan gefaald hebben of beide. Kortom, er kan dan geen conclusie getrokken worden! Bovendien kan men alleen op abstract niveau van de methode Geel spreken. Eén advies uit de verzameling kan een positief effect hebben, een ander geen en weer een ander een negatief effect. Dit effect per afzonderlijke richtlijn kan uiteraard weer per leerling en per leraar verschillen. Jarenlang onderzoek zou nodig zijn om een dergelijke kluwen te ontwarren. Zoals het betrekkelijk zinloos is om te spreken over de methode Geel, zo is het eveneens betrekkelijk zinloos om te spreken over het effect. Methode Geel kan een effect hebben op de schrijfvaardigheid van de leerlingen, op de motivatie en attitude van de leerling, op het enthousiasme van de leraar etc. Zou het zin hebben de methode Geel, wanneer blijkt dat deze effectief is, in het onderwijs te introduceren indien leerlingen erdoor gedemotiveerd raakten? De methode Geel werkt, maar voor hoelang? In onderstaande figuren staan twee mogelijke interacties van methode Geel met de variabele ‘tijd’. T1 is het tijdstip vlak na beëindiging van de cursus Geel, T2 het tijdstip enkele jaren na beëindiging. Fig. 1
Fig. 2
Figuur 1 laat zien dat methode Geel alleen op korte termijn een positief effect heeft, figuur 2 laat zien dat methode Geel alleen op de lange duur een effect heeft. Dat effecten van een methode c.q. didactiek kunnen variëren in functie van de tijd is niet alleen een theoretische mogelijkheid (Krumboltz en Weisman 1962; Goldbeck en Campbell 1962). De methode Geel zou superieur kunnen zijn aan een traditionele primair omdat het een nieuwe methode is. Wanneer die nieuwheid er eenmaal af is, verdwijnt die superioriteit (zie figuur 1). Brownell onderzocht in Engeland en Schot- | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 56]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
land het effect van een nieuw ontwikkelde didactiek. In Schotland bleek men positieve resultaten te behalen, in Engeland echter niet. Nader onderzoek bracht aan het licht dat het programma in Schotland met groot enthousiasme ontvangen was en dat de leraren zeer bedreven waren in het gebruik ervan. In Engeland daarentegen had men het programma met de nodige reserves in praktijk gebracht, omdat men daar juist gewend geraakt was aan een ander, ook nieuw programma (Brownell 1966). Zulk soort resultaten hebben bij onderwijsresearchers het nodige pessimisme doen ontstaan over de zinvolheid van effect-studies. Het is immers nooit zeker of het voordeel van een nieuwe didactiek het gevolg is van het nieuwheidseffect of van de didactiek zelf (Gronbach 1963). De tegenpool van het nieuwheidseffect vormt het disrup-tie-effect: de leraar moet zich de kneepjes van een nieuwe didactiek eigen maken en dit kan tot gevolg hebben dat het programma in zijn beginfase ineffectief is. Na verloop van tijd, wanneer de leraar vertrouwd is geraakt met de nieuwe didactiek, kan deze superieur blijken te zijn aan een andere (zie figuur 2). | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
8. Externe validiteitPraktisch gesproken is het ondoenlijk alle leerlingen, klassen of scholen in het effectonderzoek te betrekken. Gewoonlijk zal een onderzoeker zich moeten beperken tot een (bij voorkeur) representatieve steekproef. De vraag is nu in hoeverre de resultaten, gevonden binnen deze beperkte steekproef, te generaliseren zijn naar alle leerlingen, klassen of scholen. De onderzoeker schrijft bijvoorbeeld honderd op grond van het toeval gekozen scholen aan en vraagt hun medewerking bij zijn onderzoek. Dertig scholen zeggen hun medewerking toe (gewoonlijk is men al heel tevreden met een medewerkingspercentage van 30%). De resultaten, gevonden bij die dertig scholen, zijn extern valide voorzover er geen relevante systematische verschillen bestaan tussen de dertig medewerkende en de zeventig weigerende scholen (Bracht en Glass 1968). De onderzoeker die vermoedt dat er wel systematische verschillen bestaan (bv. in schrijfvaardigheid of creativiteit) bevindt zich in een moeilijk parket. Zijn scholen die weigeren aan een onderzoek mee te werken wel bereid informatie te verschaffen over bijvoorbeeld de schrijfvaardigheid van hun leerlingen? Toch is deze informatie noodzakelijk, wil men met enig vertrouwen de resultaten kunnen generaliseren. Een tweede probleem betreft de grootte van de steekproef. De verwachtingen van de onderzoeker ten aanzien van de grootte en de richting van het verschil in opstelvaardigheid tussen beide groepen (de ene groep methode Geel, de andere groep een andere methode) is één van de factoren die de grootte van de steekproef bepalenGa naar eindnoot6.. Laten we aannemen dat de opstellen beoordeeld zijn op een 10-punt-schaal. Is de hypothese dat methode Geel effectieve is dan die andere nu bevestigd wanneer groep 1 een gemiddelde van 9 en groep 2 een gemiddelde van 6 behaalt? Ook nog indien groep 1 een 9 en groep 2 een gemiddelde van 8.5 haalt? Of moeten we dat laatste verschil van .5 als een toevalstreffer beschouwen? Kortom, hoe groot moet het verschil zijn, wil de onderzoeker zijn hypothese bevestigd zien? De onderzoeker acht zijn hypothese (onder meer) bevestigd indien het verschil in opstelvaardigheid tussen beide groepen significant is. In verslagen van empirisch onderzoek leest men vaak dat een resultaat statistisch significant is op 1 of 5% niveau. Grof gezegd betekent dit dat men hetzelfde of een groter verschil zou vinden wanneer het onderzoek 100 maal uitgevoerd zou worden. Een statistisch significant resultaat is | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 57]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
dus geen toevalstreffer. Het probleem bij statistische significatie is echter dat men willekeurig welk resultaat dan ook significant kan maken door de steekproefgrootte op te voeren. Indien de steekproef maar groot genoeg is (zeg 1000 observaties) dan schreeuwen de data; is daarentegen de steekproefomvang gering (zeg 10 observaties) dan zwijgen de data zelfs als er iets substantieels aan de hand is (voor een verklaring van dit verschijnsel zie Bakan 1966; Cohen 1965). De onderzoeker dient de steek-proefgrootte te schatten mede op basis van de te verwachten grootte van het effect, i.c. de grootte van het verschil tussen beide groepen. Als hij verwacht dat het effect van de methode Geel sterk is kan hij volstaan met een relatief kleine steekproef. Als hij echter een middelmatig of klein effect verwacht moet hij een grote steekproef nemen. Als een effect-onderzoeker geïnteresseerd is in middelmatige of kleine effecten en als hij niet een voldoende grote steekproef kan trekken, dan kan hij het onderzoek maar beter niet uitvoeren. In de regel kunnen dergelijke effecten in kleine steekproeven niet of nauwelijks aangetoond worden. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
9. OpstelbeoordelingenTot nu toe heb ik stilzwijgend aangenomen dat het effect van de methode Geel, i.c. de kwaliteit van opstellen, op betrouwbare wijze kan worden gemeten. De problemen bij het beoordelen van opstellen zijn allang bekend: verschillende beoordelaars van hetzelfde opstel of dezelfde opstellen zijn het onderling volstrekt niet met elkaar eens. ‘De coëfficiënten die de waarde van de intersubjectieve overeenstemming aangeven, zijn zo laag, dat ze bevestigen dat er ook bij de beoordelaars uit dit experiment geen sprake is van unanimiteit in het oordeel over de opstellen. Het “reukorgaan” van een afzonderlijke beoordelaar werkt wel, maar bij elke deelnemer anders.’ (Zondervan 1973) Bovendien zijn individuele beoordelaars het ook vaak met zichzelf niet eens. Wanneer men een beoordelaar tweemaal dezelfde opstellen laat beoordelen, bijvoorbeeld met een tussenperiode van een maand, dan blijken zijn beoordelingen vaak weinig overeenstemming te vertonen. Slaagt de effect-onderzoeker er niet in de opstellen op betrouwbare wijze te beoordelen, dan kán het effect van de methode Geel helemaal niet, nog afgezien van de hiervoor besproken problemen, aangetoond worden. In het verleden is gebleken dat een team dat gebruik maakt van een globale opstelbeoordelingsmethode tot een aanvaardbaar betrouwbaar eindoordeel over opstellen kan komen. De beoordelaars behoren de opstellen te beoordelen op basis van intuïtieve, niet geëxpliciteerde normen - vandaar de naam globale methode. Is de stelling, dat groepsoordelen superieur zijn aan individuele, evenwel houdbaar? Veronderstel dat vier beoordelaars 5 opstellen beoordelen volgens de globale opstelbeoordelingsmethode.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 58]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Beoordelaar a vindt opstel 4 het beste, dan opstel 5 en vervolgens 2, 3 en 1. Beoordelaar b daarentegen kent een heel andere volgorde, i.c. rangorde, aan de opstellen toe. Dit is een situatie die we in de praktijk kunnen tegenkomen (de gemiddelde rangcorrelatie tussen de verschillende beoordelaars is dan ook laag: -.4). Omdat we uit verschillende studies ‘weten’ dat groepsoordelen superieur zijn aan individuele, sommeren we de individuele rangorden (resultaat in kolom rangsom). Nu blijkt opstel 1 het beste te zijn, dan 2, 3, 4 en 5 (zie kolom gevonden rangorde). Laten we nu eens aannemen dat ‘in werkelijkheid’ opstel 1 het slechtst is, dan 2, 3, 4 en 5 (zie kolom ‘werkelijke’ rangorde). Als we nu het groepsoordeel volgen zitten we er lelijk naast; in werkelijkheid is opstel 1 het slechtst, maar het komt bij de groep als het beste uit de bus! Geen enkele individuele beoordelaar zat er zo naast als het groepsoordeel. Het blijft natuurlijk bij een gedachtenexperiment: in werkelijkheid kent men de ‘echte’ rangorde van de opstellen niet. Wat eruit geconcludeerd moet worden is dat de stelling, dat groepsoordelen betrouwbaarder zijn dan individuele, in deze vorm onhoudbaar is. Gecombineerde individuele oordelen zijn superieur aan individuele alleen indien de meerderheid van die individuen een oordeel uitspreekt dat redelijk correct is. Anders gezegd: als het gros van de correlaties tussen individuele en werkelijke rangorde positief is, dan is bovenstaande stelling juist. Zijn de correlaties in meerderheid negatief, dan zijn gecombineerde oordelen slechter dan individueleGa naar eindnoot7..
Het valt niet te ontkennen dat de titel van Geels boek Hoe zet ik mijn gedachten op papier tevens gelezen kan worden als ‘Hoe zet ik, Rudolf Geel, mijn gedachten op papier.’ Geels richtlijnen die betrekking hebben op het concretiseren (bedoeld ter verhoging van de begrijpelijkheid) zijn min of meer estetisch van aard - en dus subjectief. Beoordelen we de opstellen nu met de globale opstelbeoordelingsmethode, dan valt dat specifieke estetische aspect wellicht onder tafel. Gaan we uit van een analytisch systeem waarbij we expliciet die estetische component opnemen, dan creëren we wellicht een artefact: we stellen de beoordelingen dan zo bij dat de kans op een eventueel effect van de methode Geel maximaal is. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
10. Tot besluitIn de voorafgaande paragrafen zijn enkele karakteristieke problemen besproken die zich voordoen bij empirisch onderzoek naar het effect van de methode Geel. Juist terwijl dit onderzoek primair praktisch relevante resultaten voor het moedertaalonderwijs beoogt te produceren zal het, ongeacht het resultaat, afgesloten moeten worden met de conclusie dat er geen conclusie getrokken kan worden. Het moge duidelijk zijn geworden dat men van breed opgezet empirisch onderzoek, zonder sterke theoretische steun, nauwelijks praktisch relevante resultaten kan en mag verwachten. In dit verband is het jammer om te moeten constateren dat op het instituut ‘De Vooys’ juist een dergelijk exclusief-praktische oriëntatie op het vak Taalbeheersing wordt gepropageerd (De Vries 1974). Een dergelijke op Amerikaanse leest geschoeide pragmatische ‘ideologie’ is temeer merkwaardig omdat in Amerika de laatste jaren steeds meer stemmen opgaan om de heilloze weg van het praktisch geöriënteerde onderzoek te verlaten en terug te keren naar zuiver theoretisch gericht onderzoek. Kerlinger schetst het beeld van het Amerikaanse onderzoek van de laatste decennia aldus: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 59]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
‘A strong pragmatic attitude virtually forces focus upon outcomes and getting things done. What is good is what works! There is relatively less emphasis on why things work; most important is that they work’ (Kerlinger 1977, 4). De Vries' woorden komen volledig met dit beeld overeen: (...) we zoeken alleen theoretische inzichten als we ze nodig hebben (...) De taalhante-ringsdeskundige doet praktisch onderzoek; hij moet een resultaat hebben dat werkt (...) (De Vries 1974, 13). Maar leidt deze vorm van onderzoek wel tot enig praktisch bruikbaar resultaat? ‘This is a forlorn and futile expectation. Scientific research does not payoff in any simple way because it is not and cannot be aimed at practical problems. Indeed, our insistence on research leading to targeted and programmatic outcomes can have and has had deleterious consequences (Kerlinger 1977, 4). De teneur van het oderhavige artikel is enigszins somber en pessimistisch - een onbedoeld neveneffect van de poging om de aard en omvang van problemen bij empirisch effectonderzoek scherp in beeld te krijgen. Het is niet mijn bedoeling geweest empirisch onderzoek in het algemeen in discrediet te brengen, integendeel. Waar het om gaat is dat een empirische aanpak van Taalbeheersingsverschijnselen primair gericht moet zijn op fundamentele theorie-geladen problemen waarop zulk soort onderzoek in principe een ondubbelzinnig antwoord kan geven. Op de resultaten van dit theoretisch gerichte onderzoek behoort een richtlijnenschrijver zijn adviezen te baseren. Toegegeven, dat onderzoek is nog nauwelijks van de grond gekomen. In deze situatie staat de schrijver van boekjes zoals dat van Rudolf Geel voor een dilemma: hij zal, bij gebrek aan beter, zijn richtlijnen voornamelijk op intuities moeten baseren of hij zal zijn onderneming moeten staken. ‘De waarde van intuïtieve noties moet (echter) niet onderschat worden, al is het juist ze met grote voorzichtigheid te hanteren zolang er geen wetenschappelijk fundament bestaat waarop ze kunnen steunen. Naast het werken aan dat “fundament” dient ook het onderzoek naar meer effectieve procedures om mensen schriftelijke teksten te laten produceren, voortgang te vinden (...)’ (Geel 1977, 95). Een empirische benadering is bij uitstek geschikt om dat fundament gestalte te geven. Toch is een dergelijke aanpak niet in staat alle problemen in de praktijk van het moedertaalonderwijs op te lossen. De leraar, zijn inzet, zijn goede smaak, zijn enthousiasme, het blijven onmisbare schakels. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 60]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Bibliografie
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 61]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|