Tijdschrift voor Taalbeheersing. Jaargang 9

Het gebruik van het ‘Bolero’-observatiesysteem bij onderzoek naar tweede-taalonderwijs
K. de Bot, H. Lassche en S. Veenman

Het gebruik van het ‘Bolero’-observatiesysteem bij onderzoek naar tweede-taalonderwijs K. de Bot, H. Lassche en S. Veenman

Samenvatting

1 Proces- en produktevaluatie in tweede-taalonderwijs

2 Soorten observatiesystemen

3 Het observatie-instrument

De EPSON HX-20

4 Toepassing van het Bolero-systeem in een onderzoek naar tweede-taalonderwijs

5 Voor- en nadelen van toepassing van het Bolero-systeem

Bibliografie

(1987)– [tijdschrift] Tijdschrift voor Taalbeheersing– rechtenstatus

In dit artikel wordt een beschrijving gegeven van een gecomputeriseerd, real-time observatie-instrument voor onderzoek naar tweede-taalonderwijs. In § 1 wordt ingegaan op het onderscheid produkt/procesevaluatie, in § 2 op verschillende soorten observatie-systemen die ontwikkeld zijn voor procesevaluatie, met name gericht op leerkrachtgedrag en interactie in de klas. Vervolgens wordt in § 3 het Bolero-systeem behandeld en in § 4 de toepassing van dit systeem in een onderzoek naar vernieuwing van het taalonderwijs aan buitenlandse leerlingen van het LBO in het kader van het project ‘Van School Naar Beroep’. In de afsluitende § 5 worden enige suggesties gedaan voor verdere toepassingen van het Bolero-systeem in toegepast taalkundig onderzoek.

In de jaren '60 en '70 zijn er, onder invloed van onderwijskundige vernieuwingen die vooral een reactie waren op een behaviouristische aanpak, verschillende onderzoekingen opgezet met het doel de relatieve effectiviteit van verschillende taalonderwijsvormen/benaderingen vast te stellen. Deze onderzoekingen gingen vrijwel allemaal uit van produktevaluatie. Produktevaluatie is erop gericht na te gaan of een bepaalde methode of leergang werkt, en soms of deze beter werkt dan een andere. Onder ‘werken’ wordt hier verstaan: een duidelijke verbetering van het rendement van onderwijs, bijvoorbeeld wat betreft de taalvaardigheid. Bij produktevaluatie wordt meestal gebruik gemaakt van experimentele of quasi-experimentele designs: verschillende leerlinggroepen of scholen krijgen verschillende onderwijsmethoden of leergangen en door vergelijking middels voor- en natests wordt vastgesteld welke groep het meest vooruitgegaan is. Aan dit soort onderzoek kleven grote bezwaren en ‘ideaal’ onderzoek in deze richting is praktisch onuitvoerbaar (Long 1983a, Van Els e.a. 1984). Long (1983b) wijst erop dat bij methodenvergelijking pas vergeleken mag worden als is aangetoond dat de twee methoden die op papier van elkaar afwijken ook als onderwijsproces in de klas van elkaar afwijken. Veel onderzoekingen die gericht zijn op methodenvergelijking en die uitgaan van produktevaluatie houden geen rekening met de mogelijkheid dat de meest gevonden uitkomst (geen verschil waartussen dan ook) in feite een gevolg is van het gebrek aan verschillen in uiteindelijk onderwijs/leergedrag in de klas bij de twee methodes (De Bot e.a. 1985). Geleidelijk aan heeft bij de toegepaste taalkunde het inzicht veld gewonnen dat produktevaluatie zonder zicht op het onderwijsproces in feite weinig zinvol is.

Procesevaluatie wordt door Long (1983b, 415) als volgt gekarakteriseerd: ‘Process evaluation is the systematic observation of classroom behavior with reference to the theory of (second) language development which underlies the program being evaluated’. In deze definitie wordt terecht een belangrijke plaats toegekend aan het theoretisch kader waarbinnen de evaluatie plaatsvindt: de verwijzing naar een ‘theory of (second) language development’ moet hier overigens niet al te beperkt opgevat worden: ook didactische uitgangspunten c.q. een onderwijsprogramma waarin deze uitgangspunten zijn omgezet in aanwijzingen voor onderwijsgevenden kunnen volgens Long als zodanig geïnterpreteerd worden. Gaies (1983) en Mitchell (1985) onderscheiden in onderzoek gericht op procesevaluatie bij tweede-taalonderwijs 3 verschillende oriëntaties:

A	Gericht op de rol van de talige omgeving.
	Men gaat ervan uit dat kenmerken van de talige omgeving, waar het taal-aanbod van de leerkracht en het lesmateriaal maar een deel van is, invloed hebben op het proces van tweede-taalverwerving. De aandacht is daarbij ondermeer gericht op aanpassingen in het taalgedrag van leerkrachten (teacher-talk), op de kwaliteit van de interactie tussen leerlingen onderling, en op het verschil tussen input (alle aanbod in de tweede taal) en intake (dat deel van de input dat ook werkelijk wordt verwerkt).
B	Gericht op de invloed van foutenhantering.
	Fouten die taalleerders maken, kunnen door leerkrachten op verschillende manieren behandeld worden. Men is het er nu wel over eens, dat de opvatting dat het maken van fouten bij het leren van een tweede taal zo veel mogelijk vermeden moet worden, achterhaald is, en dat het maken van fouten onlosmakelijk verbonden is aan het vormen van hypothesen over de te leren taal. Onderzoek naar foutenhantering heeft zich vooral op de vraag toegespitst welke manier van corrigeren de taalverwerving positief of negatief beïnvloedt: direct/indirect; soms/altijd; leerstofgebonden/nietleerstofgebonden.
C	Gericht op de rol van de ‘eigen’ inbreng van de taalleerder in het verwervingsproces.
	De onder A en B genoemde oriëntaties richten zich vooral op omgevingsfactoren. Hier gaat het erom, vast te stellen wat taalleerders zelf ‘doen’ bij het verwerven van de taal, met andere woorden, wat denken ze erbij, welke strategieën passen ze toe, hoe komen ze tot bepaalde goede of foute oplossingen.
	De overzichten van Gaies en Mitchell vertonen een duidelijke bais in hun voorkeur voor de laatstgenoemde oriëntatie. Er is opvallend weinig aandacht voor bewuste structurering van het taalaanbod en andere curriculum-gebonden aspecten. Men gaat er blijkbaar vanuit dat het taalaanbod van de leerkracht van aanzienlijk minder belang is dan de inbreng vanuit de leerder zelf. Veel procesevaluatie-onderzoek is niet gericht op het geven van feedback aan onderwijsgevenden of curriculumontwikkelaars maar vooral op het evalueren van op dat moment populaire psycholinguïstische theorieën (Mitchell 1985, 345).

In zijn artikel ‘Interactie-analyse en het observeren van vreemde-talenonderwijs’ maakt Bogaards (1981) een onderscheid tussen ‘categorieënsystemen’ en ‘signaal-

systemen’. Bij de eerste soort worden een aantal categorieën gebruikt die zo gekozen zijn dat al het te observeren gedrag binnen één van de categorieën valt. Een bekend voorbeeld van zo'n systeem is het FIAC-systeem van Flanders, dat in aangepaste vorm ook is toegepast voor het vreemde-talenonderwijs. Nadelen van dit soort systemen zijn dat de categorieën vaak deels overlappen en dat ze nogal breed moeten zijn om alle gedragingen te kunnen herbergen. Bij de tweede soort, signaalsystemen, wordt niet gepoogd alle gedrag te categoriseren, maar wordt alleen gekeken naar het voorkomen van tamelijk specifieke activiteiten, bijvoorbeeld of een leerkracht een uitspraakfout van een leerling corrigeert. Bij signaalsystemen zou men iedere keer als een signaal optreed, dit kunnen noteren. Een andere mogelijkheid is, aan te geven of het signaal binnen een bepaalde periode (bijvoorbeeld 10 of 15 seconden) voorgekomen is. Verschillende auteurs wijzen op de voordelen van een dergelijk time-intervalsysteem (Bailey 1977, Veenman e.a. 1986).

Een veel voorkomend probleem bij observatiesystemen is dat men probeert alles wat er in de klas gebeurt vast te leggen. Uit onderzoek is duidelijk geworden dat dat in feite onmogelijk is en dat het methodologische bezwaren heeft dit na te streven: de kans op fouten en inconsistentie neemt toe met het aantal aspecten dat in de gaten gehouden moet worden. Bailey (1977) en Bogaards (1981) pleiten ervoor om van te voren heel precies te definiëren wat men wil observeren en dan uit te gaan van een beperkt aantal categorieën. De generaliseerbaarheid van de resultaten neemt daarmee af, de betrouwbaarheid echter toe. In het onderzoek naar vreemde-talenonderwijs is deze vorm van observatie nog niet veel toegepast. Een goed voorbeeld is het werk van Nina spada en haar collega's, dat veel bruikbare informatie bevat (Spada, te verschijnen).

Het in ons onderzoek gebruikte observatie-instrument is een aangepaste versie van een reeds bestaand. Ten behoeve van SVO-project ‘Het gebruik van de leertijd in combinatieklassen’ (Veenman e.a. 1985) is bij de Vakgroep Interdisciplinaire Onderwijskunde van de Katholieke Universiteit te Nijmegen het Bolero-systeem ontwikkeld (Bolero = Basisschool-Observatie-instrument van de Leertijd tijdens Reken- en lees/taal Onderwijs)

Het Bolero-systeem maakt gebruik van een beperkt aantal hoofdrubrieken en een groter aantal categorieën onder de hoofdrubrieken. Per hoofdrubriek kan slechts één van de onderscheiden categorieën worden gecodeerd. De keuze van hoofdrubrieken en categorieën is afhankelijk van het doel van het onderzoek waarvoor men het Bolero-systeem gebruikt. In het onderzoek van Veenman e.a. (1986) werden 5 hoofdrubrieken gebruikt: curriculumactiviteiten, setting, taakgerichtheid van de leerling, doelgroep van de leerkracht en activiteiten van de leerkracht. Bij het observeren in de klassen wordt gebruik gemaakt van een specifieke vorm van ‘time-sampling’, namelijk van de ‘predominant activity sampling’-procedure (Tyler 1979). Deze procedure houdt in dat gedurende een relatief korte tijdseenheid (bijvoorbeeld 10 sec.) wordt geobserveerd waarna het gedrag dat gedurende deze tijdseenheid het meest dominant is, wordt gecodeerd. In de oorspronkelijke versie van het Bolero-systeem is gebruik gemaakt van drie observatie-cycli per minuut: driemaal 10 sec. observeren en

10 sec. coderen (Veenman e.a. 1986). In ons onderzoek is gekozen voor 10 sec. observeren en 20 sec. coderen (in verband met het aantal categorieën en het feit dat alleen de leerkracht wordt geobserveerd). Per minuut zijn er dus twee observatie-cycli. De relatief korte tijdsintervallen van 10 sec. vormen steekproeven uit de tijdsintervallen van een halve minuut. Met andere woorden, het gedrag dat wordt gecodeerd wordt toegeschreven aan de periode van een halve minuut waaruit het observatiemoment werd ‘gesampled’. Wanneer bijvoorbeeld gedurende 10 sec. wordt geobserveerd dat de leerkracht individuele hulp geeft, worden de betreffende categorieën gecodeerd voor de gehele tijdsperiode van de halve minuut. Het is duidelijk dat door deze procedure ‘sampling error’ ontstaat. Bij het hierboven genoemde voorbeeld bestaat de mogelijkheid dat de individuele hulp door de leerkracht niet gedurende de gehele periode van een halve minuut voorkomt. Deze ‘sampling error’ wordt echter zeer klein wanneer een groot aantal momenten wordt geobserveerd en gecodeerd.

Deze vorm van ‘time-sampling’ wordt door Tyler (1979) aanbevolen als een geschikte methode voor het observeren van sociale interacties, met name voor het schatten van de duur van gedrag. De methode biedt de mogelijkheid meerdere leerlingen in dezelfde les te volgen, in het onderhavige onderzoek wordt echter alleen naar de leerkracht gekeken. Doordat het coderen van het gedrag pas plaatsvindt nadat gedurende 10 seconden is geobserveerd, heeft de observator meer bedenktijd voor de codering dan bij ‘event-sampling’ het geval zou zijn. Bij ‘event-sampling’ moet immers zodra een bepaalde te observeren gedraging zich voordoet, worden gecodeerd. Een mogelijk nadeel van de door ons toegepaste vorm van ‘time-sampling’ is de discontinuïteit van observeren. Informatie over de sequentiële afhankelijkheden van de gedragingen tijdens het klassegebeuren kan verloren gaan. Echter, omdat de te observeren gedragingen over het algemeen langer duren dan de observatietijd van 10 sec., kan door gebruikmaking van deze methode tot accurate voorspellingen van het tijdgebruik worden gekomen.

Een tweede mogelijk nadeel van discontinuïteit in de observatie-procedure is dat de discrimineerbaarheid van gedrag minder kan worden. De juiste interpretatie van het gedrag in een gegeven observatie-interval zou afhankelijk kunnen zijn van het (niet waargenomen) gebeuren dat eraan vooraf ging. Tyler (1979) merkt echter op:

‘When the behaviour is more complex, as is the case in many social interactions, predominant activity sampling would appear to be the more suitable convention, since it allows the observer more time to consider the behaviour before recording it’ (p.809).

De observatie-procedure gaat dus als volgt: eerst wordt de leerkracht geobserveerd, vervolgens wordt gecodeerd. Een dergelijke observatie-cyclus duurt een halve minuut. Per minuut worden er dus 2 observatie-cycli afgerond, zoals weergegeven in schema 1.

Schema 1: Indeling van 1 minuut observeren

In een les van 30 minuten komen zo, per observator, 60 cycli voor. De leerkracht is dan 60 keer geobserveerd. Dus de leerkracht wordt per les van 30 minuten 60 * 10 sec. = 10 minuten geobserveerd.

In elk observatie-interval is in het door ons uitgevoerde onderzoek gelet op zeven verschillende hoofdrubrieken. Twee aspecten hebben betrekking op de leerling: (1) vaardigheid, en (5) de setting. Vijf aspecten hebben betrekking op de leerkracht: (2) soort taal die op dat moment object van onderwijs is, (3) het linguïstisch niveau, (4) de interactie die plaats heeft, geïnstigeerd door de leerkracht, (6) de taakactiviteiten van de leerkracht, en (7) het correctiegedrag. Elk van deze zeven rubrieken bestaat uit een aantal categorieën (zie § 4). Na de 10 sec. observatietijd geeft de observator 20 sec. om in elk van de zeven genoemde rubrieken één categorie te coderen. Er worden in deze 20 sec. dus 7 codes toegekend

Iedere observator heeft ten behoeve van het coderen de beschikking over de portable micro-compter EPSON HX-20 (in plaats van het gebruikelijke aankruisen van de betreffende categorie op een observatieformulier worden nu de nummers van de betreffende categorieën op de computer ingetoetst). Voor aanvang van een te observeren les is de computer al zo veel mogelijk voor gebruik gereed gemaakt. Het startsignaal wordt gegeven wanneer de leerkracht duidelijk maakt dat met de les wordt begonnen (bijvoorbeeld ‘pak allemaal je boek en...’). Dertig minuten wordt er geobserveerd en gecodeerd volgens de aangegeven procedure. Na deze dertig minuten wordt de observatie gestopt.

Hieronder volgt nogmaals een beschrijving van de observatieprocedure maar nu aan de hand van de te verrichten handelingen op de draagbare micro-computer EPSON HX-20. Deze computer, die niet groter is dan een vel papier van het formaat A4, heeft naast een toetsenbord een venster voor het aflezen van 4 schriftregels, een ingebouwde printer en een micro-cassetterocorder voor de opslag van gegevens. De computer werkt op oplaadbare batterijen en is dus netspanning-onafhankelijk wat voor observatie in schoolklassen erg belangrijk kan zijn. Een sterk punt is verder dat na uitschakeling van het apparaat, de opgeslagen informatie in het geheugen behouden blijft. Een ingebouwde klok houdt datum en tijd bij. Ingevoerde programma's kunnen bij deze microcomputer permanent in aparte geheugen-gebieden worden opgeslagen.

De observator kan dus direct na het aanzetten van het apparaat het gewenste programma laten uitvoeren. De observatie-procedure kent drie stadia: de invoer van administratieve gegevens, de observatie zelf en de opslag van de ingevoerde gegevens.

Het observatie-programma start met het invoeren van verschillende identificatiegegevens. de observator toetst zijn eigen nummer en het nummer van de school en klas in. De codering LESTYPE wordt bepaald door het curriculum-onderdeel dat de leerkracht gebruikt. Vervolgens toetst hij het nummer van de te observeren leerkracht in.

Na het intypen van het aantal observaties (in ons geval 30) stuurt de computer door middel van het programma de handelingen van de observator. Iedere observatiecyclus duurt precies 1 minuut. De leerkracht wordt in die periode twee maal geobserveerd, en er worden twee keer codes ingetypt. Op het scherm verschijnt: OBSERVATIE 1, HELFT 1. De leerkracht wordt in de eerste helft van de minuut geobserveerd. Na 10 seconden geeft de computer een zacht signaal, waarna de observator 20 seconden tijd heeft om de gegevens van de 7 hoofdrubrieken in te typen. Op het scherm verschijnt: VAARDIGHEID? De observator typt in bijvoorbeeld 1 (= luisteren). Dan verschijnt: SOORT TAAL? (bijvoorbeeld 2 = algemene vaktaal). Vervolgens verschijnt LING.NIVEAU? (Bijvoorbeeld 3 - grammatica). De vierde vraag is INTERACTIE? (bijvoorbeeld 1 = leerkracht > klas). Dan komt der vraag SETTING? (bijvoorbeeld 1 = klassikaal). De activiteit van de leerkracht wordt gecodeerd bij de volgende vraag LEEKRACHT? (bijvoorbeeld 6 = presentatie leerstof mondeling en non-verbaal). Als laatste verschijnt: CORRECTIE? De observator toetst code 0 in (geen correctie) of 1 (wel correctie). Daarna geeft de computer aan dat de tweede helft van de observatie-cyclus start. Na 10 seconden observeren worden de codes wederom ingetypt. Na het intypen van de codes van de tweede helft is de eerste cyclus en de eerste minuut verstreken en verschijnt er op het scherm: OBSERVATIE 2, HELFT 1. Het programma gaat volgens dit vaste observatie-schema door tot en met het vereiste aantal observaties.

Alle ingetypte gegevens worden na de laatste observatie automatisch vanuit het programma op de micro-cassette weggeschreven. De gegevens worden na de observatieles(sen) nagekeken. Vervolgens worden de verzamelde gegevens via de uitgangspoort van de computer doorgestuurd naar het Universitair Rekencentrum voor latere verwerking. Voor een meer uitgebreide beschrijving wordt verwezen naar Feenstra & Veenman (1984).

Het kunnen hanteren van het observatiesysteem Bolero vereist een systematische training. Dit geldt ook voor de ten behoeve van een specifiek onderzoek aangepaste versie van het systeem. Het is namelijk noodzakelijk dat men:

-	goed tussen de categorieën kan discrimineren,
-	vaardigheid heeft in het onderbrengen van het wisselende klassegebeuren in de juiste categorieën,
-	een constant coderingsritme ontwikkelt van bijvoorbeeld 10 seconden observeren en 20 seconden coderen,
-	kan omgaan met de EPSON HX-20 als dataverzamelingsinstrument,
-	systematisch bij hetzelfde gedrag dezelfde code toekent.

De training is er op gericht de observator volgens bepaalde van te voren vastgelegde

regels het klassegebeuren op zo objectief mogelijke wijze te laten registeren. Objectief wil hier zeggen: dat wat waargenomen wordt is een kenmerk van het waargenomen object en geen toevallig kenmerk van de observator. De observatie dient vrij te zijn van storende invloeden vanuit de persoon van de observator. Empirisch kan dit blijken uit de mate van overeenstemming in de codering tussen twee of meer onafhankelijke observatoren.

In de onderzoekingen waarin het Bolero-systeem tot nu toe gebruikt is, werden veelal de volgende stappen onderscheiden in de training:

-	memoriseren van hoofdrubrieken en bijbehorende catgeorieën;
-	individueel scoren van lessen op video;
-	groepsgewijs scoren van ‘echte’ lessen op school.

Tijdens de training werd steeds terugkoppeling gegeven over de mate van overeenkomstig tussen observatoren en gezocht naar middelen om deze te verhogen.

In deze paragraaf wordt nader ingegaan op een toepassing van het Bolero-systeem in toegepast taalkundig onderzoek. Om aan te geven in welke kontekst de toepassing plaats vond, wordt eerst kort ingegaan op het project Van School Naar Beroep.

Met financiële steun van de Europese Commissie is door een team van taalkundigen en onderwijskundigen verbonden aan verschillende lerarenopleidingen, met name D'Witte Lelie, een project opgezet dat tot doel had de school/beroepsresultaten van buitenlandse leerlingen op het LBO te verbeteren. In het project VSNB (Van School Naar Beroep) ging men uit van een aantal basisprincipes die van invloed zouden moeten zijn op de vormgeving van het onderwijs (zie Steinert 1985):

-	Vakonderwijs en (tweede-) taalonderwijs moeten zo veel mogelijk geïntegreerd gegeven worden.
-	Bij de presentatie van leerstof moet rekening gehouden worden met de specifieke taalkundige situatie van de buitenlandse leerlingen: met name ambiguïteit van taal, en tekstkenmerken die specifiek zijn voor technisch taalgebruik moeten aandacht krijgen. Daarnaast moet er veel gebruik worden gemaakt van nonverbale presentatie.
-	Het taal/vakonderwijs is primair gericht op begrip en niet op (re-)productie. Er wordt uitgegaan van een opzet waarin de leerlingen niet onmiddellijk hoeven te spreken en te schrijven.
-	Correct Nederlands is minder belangrijk dan communicatief adequaat Nederlands.

Op basis van deze uitgangspunten zijn lesmaterialen voor het LBO ontwikkeld en als proef op een aantal scholen uitgezet.

Voorwaarde voor toekenning van gelden door de Europese Commissie was, dat het project extern geëvalueerd zou worden. Deze evaluatie is uitgevoerd aan het Instituut voor Toegepaste Taalkunde van de K.U. Nijmegen. In het evaluatieonderzoek is naast analyse van de lesmaterialen en bevraging van docenten betreffende hun ervaringen met deze materialen ook geobserveerd in klassen waar de lesmaterialen gebruikt werden. Doel van de observatie was na te gaan in hoeverre de leerkrachten zich hielden aan de aanwijzingen uit de lesmaterialen en bijbehorende docentenhandleiding. Op basis van de uitgangspunten van VSNB zijn de rubrieken en categorieën voor het Bolero-systeem opgesteld.

	METING 1	METING 2
Soort vaardigheid
1. luisteren	0.82	0.97
2. spreken	0.94	0.88
3. lezen	0.67	0.83
4. schrijven	0.91	0.97
5. handvaardigheid	-	(6) 1.00
6. niet duidelijk	0.84	1.00
Soort taal
1. domeintaal	0.97	0.94
2. algemene vaktaal	0.84	1.00
3. schooltaal	0.67	0.95
4. alledaagse taal	0.86	1.00
5. geen taal	(10) 0,33 *	-
Linguïstisch niveau
1. uitspraak	(9) 0.71	-
2. woordenbetekenis	0.58 *	0.99
3. grammatica	0.99	1.00
4. tekst	-	-
5. taalgebruik in situaties	-	-
6. geen specifiek linguïstisch niveau	1.00	1.00
Interactie
1. leerkracht > klas	0.49 *	1.00
2. leerkracht > leerling	0.44 *	0.91
3. leerling > leerkracht (10)	0.35 *	-
4. leerling > klas en leerkracht	0.92	0.89
5. geen verbaal contact	0.99	0.99
Setting
1. klassikaal	0.99	1.00
2. subgroep	-	-
3. individueel	0.83	1.00
Leerkracht
1. management	0.32 *	0.42 *
2. supervisie	0.93	0.99
3. niet-taakgerichte terugkoppeling	-	--
4. bezig met eigen werk presentatie leerstof:	(7) 0,54 *	1.00
5. mondeling	0.11 *	0.97
6. mondeling en non-verbaal	0.17 *	0.99
7. schriftelijk en mondeling	0.94	0.89
8. non-verbaal	-	-
Correctie
1. geen correctie	1.00	0.83
2. wel correctie	0.93	0.89

Tabel 1: De betrouwbaarheidsschattingen voor de observatie-categorieën meting 1 en meting 2

Zoals eerder aangegeven waren de rubrieken: 1. Soort Vaardigheid, 2. Soort Taal, 3. Linguistisch Niveau, 4. Soort Interactie, 5. Setting, 6. Leerkracht, 7. Correctie (zie voor een volledig overzicht van hoofdrubrieken en categorieën tabel 1. Een uitgebreide motivering voor de keuze ervan is te vinden in De Bot e.a. 1986, 76-83).

Voor het bepalen van de tussen-observator-betrouwbaarheid zijn door de drie observatoren eerst een aantal lessen geobserveerd. Op elke gecodeerde les volgde een nabespreking om te zien waar eventuele verschillen optraden. Deze werden bediscussieerd, wat soms leidde tot een bijstelling van de definitie van een categorie. Hierna werden op onafhankelijke wijze 3 lessen in 2 verschillende klassen door ieder van de 3 observatoren geobserveerd en gecodeerd. Ter bepaling van de tussenobservator-betrouwbaarheid werd gebruik gemaakt van variantie-analyse. Omdat het klassegebeuren in de LBO-klassen geobserveerd zou worden door één observator, werd de betrouwbaarheid van één observatie geschat volgens de door Winer (1971, 287) beschreven werkwijze. De betrouwbaarheidscoëfficiënten zijn weergegeven in tabel 1, onder meting 1. Deze schattingen voor de categorieën uit de 7 hoofdrubrieken hebben betrekking op 3 geobserveerde lessen.

De bereikte schattingen duiden niet in alle gevallen op een bevredigende graad van overeenstemming tussen de observatoren (volgens Frick en Semmel 1978). De sterretjes geven een lage coëfficiënt aan. De getallen tussen haakjes in tabel 1 staan voor het aantal keren dat de betreffende categorie in totaal is gecodeerd. Alleen de aantallen tot en met tien zijn vermeld. Het kleine aantal is waarschijnlijk van invloed op de coëfficiënt. De getallen laten zien dat een klein aantal observaties niet noodzakelijkerwijs leidt tot een lage betrouwbaarheidscoëfficiënt.

In verband met tijdsdruk bij de projectuitvoering is besloten te volstaan met het maken van sluitende afspraken tussen de 3 observatoren over de zwak gescoorde categorieën. Aan het eind van de observatieperiode, die ongeveer 2 maanden duurde, is opnieuw de tussenobservator-betrouwbaarheid berekend. De 3 observatoren hebben onafhankelijk van elkaar 2 lessen in 2 verschillende klassen geobserveerd en gecodeerd. De betrouwbaarheidscoëfficiënten van deze 2e meting zijn ook weergegeven in tabel 1. Ditmaal duiden de bereikte schattingen op een bevredigende graad van overeenstemming tussen de 3 observatoren. Toch blijkt dat op één subcategorie, namelijk ‘management’, bij beide metingen een vrij lage coëfficiënt optreedt. Blijkbaar is deze categorie nog onvoldoende gepreciseerd en voor observatoren nog teveel multi-interpretabel. Bij verdere toepassing van het observatiesysteem met deze categorieën is nadere bewerking dan ook noodzakelijk. In het onderhavige onderzoek is bij de training van de observatoren de procedure gevolgd die beschreven is in § 3. Het aantal uren besteed aan training bedraagt ongeveer 45.

Uit het onderzoek is gebleken dat het Bolero-systeem zich goed leent voor observatie van het soort activiteiten dat we in het kader van het VSNB-project wilden evalueren. In het evaluatie-onderzoek is om een aantal redenen afgezien van productevaluatie, waardoor hier geen koppeling tussen product- en proces-evaluatie gemaakt kan worden.

Een aantal welbekende bezwaren tegen gekwantificeerde observatie in de klas aangevoerd zijn (zie bijvoorbeeld Sturm 1983) worden door toepassing van het Bolero-systeem niet ondervangen:

-	Er blijft sprake van een interpretatie van gedrag door de observator. Door training kan de subjectiviteit verheven worden tot intersubjectiviteit, maar niet opgeheven.
-	Informatie over temporele en causale samenhang tussen gescoorde gedragingen wordt niet meegenomen.
-	Het systeem geeft slechts aan hoe vaak bepaald gedrag voorkomt. Elk gedragskenmerk krijgt daardoor een even zwaar gewicht.
-	Door observaties wordt alleen de ‘buitenkant’ van het onderwijsleerproces zichtbaar. Motieven achter gedrag blijven zo verborgen.

Tegenover deze nadelen staan ook een aantal voordelen als men kiest voor de benadering van procesevaluatie.

-	Het blijkt mogelijk om tamelijk betrouwbare scores te krijgen waardoor vergelijkingen, bijvoorbeeld tussen verschillende docenten, mogelijk zijn, ook als er verschillende observatoren zijn.
-	De dataverwerking kan zeer snel verlopen. In veel onderzoek gericht op procesevaluatie worden eerst audeo/video opnamen gemaakt die vervolgens moeten worden geprotocolleerd en gescoord. Het maken van opnamen wordt verdedigd met het argument dat bij ‘real-time’ scoren te veel informatie verloren gaat. Op zich is dat juist, aan de andere kant is werken met protocollen dermate tijdrovend en dus duur dat de rijkdom aan informatie in de opnames slechts zelden volledig gebruikt wordt.
-	het Bolero-systeem kan betrekkelijk makkelijk worden aangepast aan de onderzoeksvraag. Het niet van te voren vastliggen van rubrieken en categorieën dwingt de onderzoeker tot scherp formuleren en expliciteren van de onderzoeksvraag omdat deze aan concreet gedrag gekoppeld moet worden.
-	Met deze observatie-procedure kan zowel docent- als leerlinggedrag synchroon geobserveerd worden en in samenhang met elkaar geanalyseerd.

De conclusie die getrokken kan worden, is dat het Bolero-systeem geschikt is voor toepassing in onderzoek naar en in het taalonderwijs als men een onderzoeksvraag heeft die zich leent voor bestudering middels observatie in de klas.

Bailey, L.G., Observing Foreign Language Teaching. A new Method for Teachers, Researchers and Supervisors. Foreign Language Annals 10 (1977) p. 641-648

Bogaards, P., Interactieanalyse en het observeren van vreemde-talenonderwijs. Levende Talen 359 (1981) p. 146-165

Bot, K. de, A. Buster en A. Janssen-Van Dieten, Educational settings, teaching methods and second language proficiency of Turkish and Moroccan children. In: G. Extra en T. Vallen (eds.), Ethnic minorities and Dutch as a second language. Dordrecht: Foris (1984), p. 167-186

Bot, K. de, H. Lassche, C. Parren en J. van Weert, Evaluatie project Van School Naar Beroep: eindrapport. Nijmegen: intern rapport K.U., I.T.T., 1986

Els, T. van, Th. Bongaerts, G. Extra, Ch. van Os en A. Janssen-van Dieten, Applied Linguistics and the Learning and Teaching of Foreign Languages. London: Edward Arnold, 1984

Feenstra, H. en S. Veenman, Het Bolero-systeem. Computers op School 2 (1984) p. 18-20

Frick, T. en M. Semmel, Observer agreement and reliabilities of classroom observational measures. Review of Educational Research 48 (1978) p. 157-184

Gaies, S., The investigation of language classroom processes. TESOL Quarterly 17 (1983) p. 205-217

Long, M., Process and Product in ESL Program evaluation. TESOL Quarterly 18 (1983a) p. 409-425

Long, M., Inside the ‘Black Box’: research on language learning. In: H. Seliger en M. Long (eds.), Classroom oriented research in second language acquisition. Rowley, Mass.: Newbury House, 1983b p. 3-37

Mitchell, R., Process research in second language classroom. Language Teaching and Linguistics: Abstracts 18 (1985) p. 330-352

Spada, N., Relationships between instructional differences and learning outcomes: a process-product study of communicative language teaching. Te verschijnen in Applied Linguistics.

Steinert, I., Betekenis en functie van vaktaalonderwijs in het beroepsonderwijs. Samenwijs, 5 (1985) p. 155-158, 184-187, 219-222, 253-255, 283-287

Sturm, J., Enkele methodologische opmerkingen bij taalonderzoek van het (moedertaal) onderwijs. Gramma 17 (1983) p.369-391

Tyler, S., Time-sampling: a matter of convention. Animal Behaviour 27 (1979) p.801-810

Veenman, S., P. Lem, G. Winkelmolen, M. Voeten en H. Lassche, Het gebruik van de leertijd in combinatieklassen: eindrapport. Nijmegen: intern rapport K.U., I.S.O. 1985

Veenman, S., P. Lem, M. Voeten, G. Winkelmolen en H. Lassche, Onderwijs in combinatieklassen. Den Haag: SVO, Selectareeks, 1986

Winer, B., Statistical principles in experimental design. New York: McGraw-Hill, 1971

Vorige Volgende

intervallen van 10 seconden

Opmerking: * = observeren; c = coderen