| |
| |
| |
Henk Pander Maat en Leo Lentz
Waarom het lezersprotocol zo'n goede methode is om begrips-problemen op te sporen
Samenvatting
In het onderzoek naar pretestmethoden is tot nu toe niet veel aandacht besteed aan een methode waarbij proefpersonen hardop denkend een tekst lezen (verder: het lezersprotocol). In dit artikel wordt deze methode vergeleken met twee andere methoden: de plus-en-minmethode en het softwareprogramma Focus. De resultaten pleiten ervoor het lezersprotocol serieus te nemen als pretestmethode. In vergelijking met de plus-en-minmethode levert het lezersprotocol met name meer begripsproblemen op; voor dat type problemen blijkt de predictieve validiteit ook groter te zijn. De verschillen met Focus zijn minder groot. In een vervolgonderzoek is nagegaan wat de verklaring is voor dit resultaat. De conclusie is dat niet het hardop lezen van de tekst leidt tot de hogere opbrengst van het lezersprotocol, maar dat de kracht van de methode vooral zit in het direct verwoorden van reacties, hetgeen bij de plus-en-minmethode niet gebeurt.
| |
1. Inleiding
In dit artikel onderzoeken wij de waarde van een pretestmethode die tot nu toe in de literatuur nog weinig aandacht heeft gekregen: het lezersprotocol. We vergelijken die methode eerst met de plus-en-minmethode, en vervolgens met Focus, een softwareprogramma waarmee lezersreacties op een tekst kunnen worden verzameld. Tenslotte onderzoeken we verschillende varianten van het lezersprotocol, in een poging om een antwoord te krijgen op de vraag die gesteld is in de titel. De drie studies die hieronder worden besproken, zijn uitvoeriger gerapporteerd in Koppenaal (2000), Noorlander (2001) en Van Werven (2002).
Hieronder geven we eerst een korte schets van de drie onderzochte pretestmethoden, vervolgens rapporteren we de twee vergelijkende onderzoeken. Tenslotte gaan we dieper in op de specifieke kwaliteiten van het lezersprotocol.
| |
De plus-en-minmethode.
Bij de plus-en-minmethode wordt de proefpersoon uitgenodigd voor zichzelf de tekst door te nemen en plussen en minnen te zetten bij passages die positief dan wel negatief worden beoordeeld, om wat voor reden dan ook. In een nagesprek licht de proefpersoon zijn plussen en minnen toe. Ongerichte methoden van lezersonderzoek kunnen op twee manieren worden onderverdeeld (zie De Jong & Schellens 1995, 52-54). Ten eerste kan een methode meer gericht zijn op beoordeling van een tekst of op gebruik ervan. Ten tweede kan een methode synchroon zijn of retrospectief. Bij een syn- | |
| |
chrone methode wordt de feedback gegeven tijdens het lezen, bij een retrospectieve methode erna. In het licht van deze onderscheidingen kan de plus-en-minmethode worden gekenschetst als een beoordelingsmethode met een gemengd synchroon-retrospectief karakter: de plussen en minnen worden synchroon gezet en later toegelicht.
Over de kwaliteit van de plus-en-minmethode is redelijk wat bekend, met name door het werk van De Jong & Schellens (De Jong 1998, De Jong & Schellens 2000). In Nederland wordt de methode erkend als een praktisch goed bruikbare methode met een redelijke predictieve validiteit. Dat laatste wil zeggen dat de problemen die aan het licht komen met behulp van de methode hoogst waarschijnlijk reële problemen zijn, en blijkens onderzoek ook kunnen worden omgezet in revisies die de tekst effectiever maken.
Anderzijds bestaat er twijfel aan de relatie tussen de minnen van een proefpersoon en de problemen die tijdens het leesproces daadwerkelijk worden ervaren. Pander Maat (1996) gebruikte een onderzoeksopzet waarin daadwerkelijk optredende begripsproblemen werden vastgesteld door na de pretest een tekstbegripstoets af te nemen. Alle foute antwoorden in die begripstoets werden beschouwd als begripsproblemen. Slechts 32 % (n=382) van deze problemen werd spontaan gerapporteerd in de voorafgaande plus-en-mintest.
| |
Het lezersprotocol.
Bij een lezersprotocol leest de proefpersoon hardop, en spreekt deze direct de gedachtes uit die de tekst oproept. De onderzoeker houdt op een observatieformulier de commentaren bij, en in een nagesprek wordt ingegaan op onduidelijke commentaren en andere opvallende gebeurtenissen tijdens het lezen, zoals haperingen en fouten. De Jong & Schellens (1995) hanteren de term hardop-leesmethode in plaats van ‘lezersprotocol’. Wij nemen deze term niet over, omdat later zal blijken dat het hardop lezen van de tekst geen noodzakelijke voorwaarde is voor het verkrijgen van een lezersprotocol.
De Jong & Schellens wijzen erop dat het lezersprotocol niet mag worden verward met het gebruikersprotocol (zij spreken van de hardop-werkmethode). Dit is een gerichte methode waarbij vragen of opdrachten worden gebruikt, die hardop denkend met behulp van de tekst worden opgelost. Het lezersprotocol daarentegen is een ongerichte methode. Verder is hij synchroon en lijkt hij eerder gericht op tekstgebruik dan op tekstbeoordeling, zij het dat het om een ongerichte vorm van gebruik gaat: hardop denken geeft een indruk van het gebruik van een tekst door een lezer die alles wil begrijpen wat er staat. Deze vorm van begrijpend lezen zal in de praktijk vaak een voorbereiding zijn op het gebruik van de tekst om bepaalde vragen te beantwoorden. Bij protocollen wordt niet rechtstreeks om oordelen gevraagd, maar om een verslag van de verwerking.
Over de kwaliteit van lezersprotocollen als pretest is nog niet al te veel bekend. De Jong & Schellens (1995, 151-157) zijn uiterst behoedzaam in hun bespreking van de methode. Wel vermoeden zij dat hardop lezen en hardop denken slecht samengaan. Inderdaad stelden Allwood & Kalén (1993) vast dat er bij hun proefpersonen interferentie optrad tussen de twee taken. Daarnaast stellen De Jong & Schellens dat de methode wellicht leidt tot een onnatuurlijke leeswijze, in die zin dat de tekst van begin tot eind wordt gelezen zonder gedeelten over te slaan of vluchtig te lezen. Maar volgens ons staat daar een belangrijk voordeel tegenover: hardop lezen en direct commentaar verschaft waarschijnlijk meer inzicht in de activiteiten van de lezer dan de plus-en-minmethode, waarin het commentaar wordt uitgesteld tot na het lezen. Dit lijkt met name voor begripsactiviteiten een voordeel op te kunnen leveren. Niet alleen wordt een begripsprobleem direct gesignaleerd, ook de interpretaties van de betreffende passage worden direct zichtbaar.
| |
| |
Het meeste onderzoek over hardop-denkprotocollen gaat over de hardop-werkmethode (Flower e.a. 1983, Swaney e.a. 1991). Schriver (1991) is zelfs vrij pessimistisch over het afnemen van hardop-denkprotocollen aan proefpersonen zonder specifieke opdrachten. De enige twee studies die wel specifiek ingaan op het lezersprotocol zijn Dieli (1986) en Sienot (1997). Dieli vergeleek in kleinschalig onderzoek naar de kwaliteit van een handleiding lezersprotocollen met de gebruikersprotocollen. Zij constateerde dat lezersprotocollen meer problemen aan het licht brengen met de interpretatie van specifieke tekstpassages, terwijl de hardop-werkmethode meer licht werpt op de bruikbaarheid van de tekst als geheel. Sienot onderzocht de kwaliteit van een website met behulp van lezersprotocollen en de plus-en-minmethode. Hij vond dat de plus-en-minmethode meer problemen aan het licht bracht dan het lezersprotocol; het verschil lag met name in het grotere aantal waarderingsproblemen dat de plus-en-minmethode aan het licht bracht. Voor ons onderzoek heeft de studie van Sienot een beperkte relevantie, omdat hij een speciale variant van de plus-en-minmethode onderzocht. Omdat de proefpersonen geen plussen en minnen op het beeldscherm kunnen zetten omcirkelden zij eerst met de muis een passage die zij wilden becommentariëren, en meldden zij er mondeling bij of het een plus dan wel een min betrof. Deze procedure leidde ertoe dat veel proefpersonen het niet lieten bij een plus of een min, maar direct commentaar leverden op een bepaalde passage. Daarmee ging de plus-en-minmethode enigszins lijken op het lezersprotocol, wat wellicht de productiviteit ervan heeft bevorderd.
| |
Focus.
Het softwareprogramma Focus, ontwikkeld door De Jong en Lentz, stelt proefpersonen in staat teksten op een scherm te lezen, passages in de teksten aan te klikken waarop ze commentaar willen leveren en dit commentaar vervolgens zelf in te tikken in een apart commentaarblokje naast de tekst. De proefpersoon dient ieder commentaar onder te brengen in een probleemcategorie. Uit onderzoek dat De Jong & Lentz (2001) uitvoerden naar de eerste versie van het programma blijkt dat Focus praktisch goed bruikbaar is en even veel commentaar oplevert als de plus-en-minmethode.
Focus stelt de proefleider in staat om sneller commentaar te verzamelen dan de plus-en-minmethode. Misschien is er voor de proefpersoon een iets hogere drempel om commentaar te geven dan bij het lezersprotocol. Er moeten namelijk enkele computerhandelingen worden verricht, voordat het commentaar kan worden gegeven, en het commentaar wordt getikt en niet uitgesproken.
We vatten onze bespreking van de drie methoden samen met behulp van twee schalen. Op de schaal die loopt van synchrone naar retrospectieve pretestmethoden vinden we eerst het lezersprotocol, vervolgens Focus en tenslotte de plus-en-minmethode (zie Figuur 1). Daarnaast is er een schaal die loopt van tekstverwerkings- naar tekstbeoordelingsmethoden. Daarbij bedoelen we met tekstverwerking met name het opbouwen van een mentale representatie van de tekstinhoud en niet het toepassen ervan in uitvoeringshandelingen. Op de schaal die loopt van verwerking naar beoordeling ligt Focus samen met de plus-en-minmethode meer aan de kant van de beoordeling dan die van de verwerking, dit in tegenstelling tot het lezersprotocol (zie Figuur 2).
| |
| |
Lezersprotocol |
Focus |
Plus-en-min |
|
Synchroon |
|
|
Retrospectief |
Figuur 1 De drie methoden geplaatst op de schaal synchroon-retrospectief
Lezersprotocol |
Focus Plus-en-min |
|
Verwerking |
|
Beoordeling |
Figuur 2 De drie methoden geplaatst op de schaal verwerking-beoordeling
| |
Vraagstelling.
Het doel van de vergelijkende studies was om het lezersprotocol te vergelijken met de beide andere methoden. Daarbij stonden de volgende vragen centraal.
• | Hoeveelheid commentaar: in hoeverre verschilt het lezersprotocol van de andere methoden wat betreft de opbrengst in termen van probleemdetecties? |
• | Aard van het commentaar: verschilt het lezersprotocol ten opzichte van de andere methoden in het soort commentaar dat door proefpersonen wordt geleverd? We onderscheiden commentaar ten aanzien van: begrijpelijkheid, acceptatie, overbodige informatie, ontbrekende informatie, structuur, stijl en correctheid. |
• | Validiteit: in hoeverre verschilt het lezersprotocol van de beide andere methoden wat betreft de predictieve validiteit? |
Ten aanzien van de eerste vraag hadden we geen duidelijke verwachting over verschillen in opbrengst. Wat betreft de aard van het commentaar verwachtten we dat het lezersprotocol meer begripsproblemen aan het licht zou brengen dan de andere methoden. Daaruit voort vloeit de verwachting dat het lezersprotocol met name ten aanzien van dat soort problemen meer valide is dan de andere methoden. Dit is vastgesteld door de commentaren te vergelijken met de resultaten van een tekstbegripstoets.
| |
2. Procedure
Tekstmateriaal
De proefpersonen leverden commentaar op bijsluiterteksten. In het eerste onderzoek was dat een tekst over Teveten met 900 woorden, in het tweede onderzoek ging het om een tekst over Cinnarizine van 820 woorden.
| |
| |
| |
Proefpersonen
In beide studies werden voor iedere pretestmethode 15 proefpersonen gebruikt. De proefpersonen verschilden binnen iedere studie niet qua leeftijd, opleidingsniveau of geslacht. Wel waren de proefpersonen in de tweede studie jonger (gemiddeld 34 jaar) dan die in de eerste studie (gemiddeld 51 jaar). In beide studies waren hoger opgeleiden (HBO en academisch) oververtegenwoordigd (ze vormden in beide gevallen 67% van de proefpersonen).
| |
Uitvoering pretest
De pretesten werden afgenomen zoals hierboven beschreven. Vervolgens werd een tekstbegripstoets voorgelegd, die niet van te voren was aangekondigd. In de eerste studie duurde het afnemen van het onderzoek gemiddeld 31 minuten en was er nauwelijks verschil in tijd tussen het lezersprotocol en de plus-en-minmethode. In de tweede studie duurde het lezersprotocol gemiddeld 42 minuten en Focus gemiddeld 34 minuten. Overal geldt dat ongeveer de helft van die tijd heenging met het maken van de tekstbegripstoets, zodat de eigenlijke pretest telkens slechts 15 to 20 minuten duurde.
Bij het lezersprotocol werd gewerkt met observatieformulieren, waarop de commentaren in grote lijnen genoteerd werden, evenals eigenaardigheden tijdens het leesproces zoals haperingen of herlezingen. In het nagesprek werd op die momenten nog eens ingegaan. De ervaringen met lezersprotocollen waren positief. De proefpersonen vonden het een prettige methode om mee te werken. Voor de proefleider is het invullen van de formulieren en het voeren van het nagesprek wel een arbeidsintensieve bezigheid. Er werden bandopnames gemaakt van de protocollen, maar deze hoefden nauwelijks te worden geraadpleegd. We mogen dus zeggen dat het lezersprotocol het in de pretest-praktijk zonder geluidsopnames kan stellen.
Bij de plus-en-minmethode is alleen het nagesprek arbeidsintensief voor de proefleider, en Focus is in dit opzicht de minst belastende methode, omdat de commentaren kant-enklaar worden aangeleverd. Daar staat tegenover dat Focus een iets meer uitgebreide voorbereiding nodig heeft, omdat de tekst in het programma moet worden geplaatst en relevante commentaar-categorieën moeten worden geselecteerd. Daarnaast is natuurlijk een computer bij iedere afname nodig, en wordt van de proefpersonen enige computerervaring gevraagd.
| |
Begripstoets als hulpmiddel om de validiteit te bepalen
In dit onderzoek werd een specifieke vorm van predictieve validiteit onderzocht: validiteit werd daarbij gedefinieerd als de samenhang tussen negatieve begripscommentaren en reële begripsproblemen binnen dezelfde proefpersoon. Het zou ook denkbaar zijn geweest om de predictieve validiteit binnen een relevante populatie te definiëren, zoals bijvoorbeeld gebeurt wanneer de commentaren bij een pretest onder een steekproef uit de doelgroep worden gevalideerd door een begripstoets af te nemen bij een andere steekproef van proefpersonen uit de doelgroep van de tekst. Naar onze mening echter gaat de vraag naar de validiteit van pretestresultaten binnen een proefpersoon vooraf aan de vraag of de pretestresultaten corresponderen met begripsproblemen in de populatie: is er geen verband tussen beide grootheden binnen een proefpersoon, dan leert dat ons iets over de manier waarop eventuele verbanden tussen beide grootheden binnen de populatie geïnterpreteerd moeten worden; met andere woorden, de predictieve validiteit binnen proefpersonen is in eerste instantie de meest interessante vraag als we willen weten wat er in een pretest werkelijk gebeurt.
| |
| |
Om een indruk te krijgen van de reële begripsproblemen werden begripstoetsen afgenomen na de pretest. De begripstoets telde in de eerste studie 19 items en in de tweede studie 22 items. Om de proefpersonen niet te dwingen tot gokken, werd bij ieder item als antwoordmogelijkheid opgenomen ‘ik weet het niet’. Enkele voorbeelden van vragen uit de tekstbegripstoets in het eerste onderzoek volgen hieronder.
• Wat is een Blister?
A Een bijsluiter.
B Een strip waarin tabletten samen zitten verpakt.
C Een recept.
D Ik weet het antwoord op deze vraag niet.
(NB. Deze term werd gebruikt in de beschrijving van de tabletten en hun verpakkingsvorm.)
• Er staat in de tekst dat het effect van Teveten na 2-3 weken maximaal is. Wat wordt hiermee bedoeld?
A Na 2-3 weken is de verlaging van de bloeddruk maximaal.
B Na 2-3 weken zal de bloeddruk weer langzaam toenemen.
C Na 2-3 weken is de verhoging van de bloeddruk maximaal.
D Ik weet het antwoord op deze vraag niet.
• Mag u Teveten 600 gebruiken als u gevoelig bent voor rood ijzeroxide?
A Nee, rood ijzeroxide is een bestanddeel van Teveten 600.
B Ja, rood ijzeroxide zit namelijk alleen in de Teveten 400.
C Ja, rood ijzeroxide zit namelijk alleen in de Teveten 300.
D Ik weet het antwoord op deze vraag niet.
(Voor het antwoord op deze vraag is enig zoekwerk nodig. Onder het kopje ‘wie mogen Teveten niet gebruiken’ worden mensen genoemd die overgevoelig zijn voor een van de bestanddelen van het middel. Deze bestanddelen staan elders opgesomd.)
• Bent u in staat om een auto te besturen als u Teveten gebruikt?
A Nee, want je kunt moe of duizelig worden.
B Alleen wanneer je niet moe of duizelig wordt.
C Ja, maar als je moe of duizelig wordt, moet je wel opletten.
D Ik weet het antwoord op deze vraag niet.
(In de tekst staat: ‘Behandeling van hoge bloeddruk kan duizeligheid of moeheid geven. Pas dan op met autorijden en het gebruik van machines.’)
In de tekstbegripstoets werd dus een vrij ruime definitie van tekstbegrip gehanteerd, waarbinnen niet alleen interpretaties van bepaalde termen vallen, maar ook van zinnen en passages als geheel en ook van informatie die verspreid door de tekst aanwezig is.
Met behulp van een toets als deze valt natuurlijk slechts een beperkt aantal interpretaties te controleren, en kan dus slechts ook een beperkt aantal commentaren gevalideerd worden. Het gaat dus eigenlijk om een steekproefsgewijze validering van de begripscommentaren. Bij de selectie van probleemdetecties hebben we ons vooral laten leiden door de mate waarin een probleem geherformuleerd kon worden in termen van een begripsvraag met een aantal realistische antwoordmogelijkheden.
| |
| |
De werkwijze was als volgt. Bij iedere toetsvraag wordt voor iedere proefpersoon vastgesteld of het antwoord goed of fout is, en of de proefpersoon in de pretest commentaar heeft geleverd dat een begripsprobleem signaleert met de passage waar de vraag over gaat. Deze vergelijking levert vier mogelijke uitkomsten op (zie tabel 1): een treffer, een misser, een vals alarm of een ‘geen nieuws, goed nieuws’-situatie.
Tabel 1. Mogelijke resultaten van de vergelijking tussen begripstoets en pretest
Begripstoets |
Pretest |
Uitkomst |
Fout antwoord |
|
|
(incl. ‘ik weet het niet’) |
Negatief begripscommentaar |
Treffer |
Fout antwoord |
Geen commentaar |
Misser |
Goed antwoord |
Negatief begripscommentaar |
Vals alarm |
Goed antwoord |
Geen commentaar |
Geen nieuws, goed nieuws |
Iedere begripsvraag levert een aantal treffers, een aantal missers en een aantal valse alarms. Deze aantallen zijn bij elkaar opgeteld voor de vijftien proefpersonen die een bepaalde pretestmethode gebruikten, zodat iedere methode een aantal getallen kreeg. Van belang zijn nu niet zozeer de afzonderlijke getallen binnen iedere methode als wel de verhoudingen tussen de aantallen treffers, missers en valse alarmsignalen. Deze verhouding stelt ons namelijk in staat om de trefkans en de detectiekans horend bij de methode uit te rekenen. Met de trefkans bedoelen wij de kans dat een probleemcommentaar tijdens de pretest correspondeert met een daadwerkelijk begripsprobleem, zoals gebleken bij de begripstoets. De trefkans geeft met andere woorden de kans aan dat in de vergaarbak van feedback echte begripsproblemen aangetroffen worden. Het is immers denkbaar dat er met een methode wel belangrijke treffers gevonden worden, maar dat die nauwelijks vindbaar zijn omdat ze verdwijnen in een geweldige hoeveelheid commentaren. De trefkans wordt berekend door het aantal treffers te vergelijken met het totale aantal verschillende begripsproblemen dat spontaan gemeld is voor zover betrekking hebbend op een passage bevraagd in de begripstoets. Dit totaal aantal commentaren bestaat uit de som van het aantal treffers en het aantal valse alarmsignalen.
Met de detectiekans bedoelen we de kans dat een daadwerkelijk begripsprobleem zoals gebleken in de begripstoets gesignaleerd is tijdens de pretest. Het is denkbaar dat de treffers verscholen gaan in een grote hoeveelheid commentaren (kleine trefkans), maar dat daarmee wel alle problemen die zich daadwerkelijk voordoen opgespoord worden (hoge detectiekans). De detectiekans wordt berekend door het aantal treffers te delen door het totaal aantal probleemsignaleringen dat in de begripstoets naar voren is gekomen. Dit totaal bestaat uit de som van de treffers en de missers.
| |
3. Resultaten
3.1 De opbrengst van de drie methoden.
De eerste onderzoeksvraag was of het lezersprotocol verschilde met de beide andere methoden ten aanzien van de opbrengst. Uit tabel 2 blijkt allereerst dat er meer negatief dan positief commentaar wordt geleverd bij alle methoden. Alleen in de eerste studie bleek dat lezersprotocollen meer negatief commentaar ople- | |
| |
veren dan de plus-en-minmethode, maar minder positief commentaar (zie de statistische gegevens in de tabel; de toetsing was tweezijdig). In het tweede onderzoek bleek dat lezersprotocollen zowel meer positieve als meer negatieve reacties opleveren dan Focus.
Tabel 2. Totale aantallen positieve en negatieve commentaren van lezersprotocol en plus-en-minmethode (studie 1), respectievelijk lezersprotocol en Focus (studie 2).
Studie 1 |
Lezersprotocol |
Plus-en-minmethode |
Toetsing |
positief commentaar |
38 |
59 |
Chi2 = 4.55 df = 1, p < .04 |
negatief commentaar |
135 |
99 |
Chi2 = 5.54 df = 1, p < .02 |
Studie 2 |
Lezersprotocol |
Focus |
Toetsing |
positief commentaar |
39 |
11 |
Chi2 = 15.68 df = 1, p = .00 |
negatief commentaar |
214 |
122 |
Chi2 = 25.19 df = 1, p = .00 |
Omdat problemen bij een pretest belangrijker zijn dan positieve commentaren, beperken we ons verder tot de negatieve commentaren. Tabel 2 betreft het totaal aantal gegeven com-mentaren. In de praktijk van het pretesten is het ook belangrijk hoeveel verschillende commentaren een test oplevert. Die staan weergegeven in tabel 3.
Tabel 3. Aantal verschillende negatieve commentaren van lezersprotocol en plus-en-minmethode (studie 1), respectievelijk lezersprotocol en Focus (studie 2).
Studie 1 |
Lezersprotocol |
Plus-en-minmethode |
Toetsing |
Verschillende neg. commentaren |
72 |
56 |
n.s. |
Studie 2 |
Lezersprotocol |
Focus |
Toetsing |
Verschillende neg. Commentaren |
88 |
79 |
n.s. |
Uit tabel 3 blijkt dat de aantallen afzonderlijke problemen niet significant verschillen tussen de pretestmethoden. In de tweede studie blijkt er echter wel een verschil te bestaan tussen het lezersprotocol en Focus, en wel wat betreft de verhouding tussen het aantal verschillende problemen en het totaal aantal problemen. Bij de lezersprotocollen kwam het vaker voor dat een negatief commentaar door verschillende proefpersonen werd geuit: 214 commentaren leverden slechts 88 verschillende problemen op, dat wil zeggen dat ieder probleem ongeveer 2,4 maal genoemd werd; dezelfde ratio bedroeg slechts 1,5 bij Focus (Chi2 = 5.62, df = 1, p < .02, tweezijdig getoetst). Hieruit mogen twee conclusies getrokken worden. Ten eerste is het lezersprotocol betrouwbaarder in die zin dat er tussen lezers meer overeenstemming is over problemen dan bij Focus-lezers. Ten tweede is het waarschijnlijk dat er bij lezersprotocollen minder lezers nodig zijn om een bepaald probleem aan het licht te brengen dan bij Focus het geval is.
| |
| |
De tweede onderzoeksvraag was hoe de probleemcommentaren verdeeld zijn over de verschillende soorten tekstproblemen (begrijpelijkheid, acceptatie, overbodige informatie, ontbrekende informatie, structuur, stijl en correctheid). In de eerste studie was er op dit punt één verschil: zoals verwacht leverden lezersprotocollen meer begripsproblemen op dan de plus-en-minmethode.
Bij vergelijking van de frequenties van begripsproblemen was het verschil zowel zichtbaar bij het totaal aantal commentaren als voor het aantal verschillende commentaren (zie tabel 4).
Tabel 4. Aantallen begripscommentaren bij lezersprotocol en plus-en-min-methode in de eerste studie.
|
Lezersprotocol |
Plus-en-min-methode |
Toetsing |
Totaal aantal begripscommentaren |
44 |
24 |
Chi2 = 5.88, df = 1, p < .01 |
Verschillende begripscommentaren |
23 |
10 |
Chi2 = 5.12, df = 1, p < .02 |
In proportionele zin (dat wil zeggen, wanneer de begripscommentaren in verhouding tot alle overige commentaren worden gezien) gold het verschil alleen voor het aantal verschillende commentaren (32% versus 18%; Chi2 = 3.27, df = 1, p < .05, eenzijdig getoetst). We kunnen zeggen dat het verschil in opbrengst tussen beide methodes voor een belangrijk deel schuilt in het grotere aantal begripsproblemen bij de lezersprotocollen.
In de tweede studie bleken er twee verschillen te bestaan tussen de lezersprotocollen en Focus wat betreft de soorten gesignaleerde problemen.
• | Ten eerste brachten de lezersprotocollen meer begripsproblemen aan het licht dan Focus (100 versus 69), maar dit verschil trad alleen op bij vergelijking van de absolute frequenties van begripscommentaren (Chi2 = 5.69, df = 1, p < .01, eenzijdig getoetst), en dan nog alleen wanneer we keken naar het totaal aantal commentaren, niet naar het aantal verschillende commentaren. In proportionele zin waren er geen verschillen. |
• | Opvallend was dat lezersprotocollen relatief meer structuurproblemen aan het licht brachten dan Focus. Dat verschil trad op bij de absolute frequenties, zowel gerekend over het totaal aantal commentaren als over het aantal verschillende commentaren (zie tabel 5). |
Tabel 5. Aantallen structuurproblemen bij lezersprotocol en Focus in de tweede studie.
|
Lezersprotocol |
Focus |
Toetsing |
Totaal aantal structuurproblemen |
43 |
10 |
Chi2 = 20.55, df = 1, p = .00 |
Aantal verschillende structuurproblemen. |
18 |
6 |
Chi2 = 6.00, df = 1, p <02 |
Ook proportioneel gezien was het verschil zowel significant bij de totale aantallen (20% versus 8%; Chi2 = 8.09, df = 1, p < .01, tweezijdig getoetst) als bij het aantal verschillende commentaren (21% versus 8%; Chi2 = 5.59, df = 1, p < .02, tweezijdig getoetst). Focus lijkt dus uit te nodigen tot een meer lokaal gerichte kritiek dan lezersprotocollen doen.
| |
| |
| |
3.2 De validiteit van de begripscommentaren.
Een derde onderzoeksvraag ging over de validiteit van het lezersprotocol in vergelijking met de beide andere methoden. Dit is onderzocht door de pretestcommentaren te vergelijken met de resultaten van een tekstbegripstoets. Tabel 6 geeft de trefkans weer, uitgedrukt in een percentage, in beide studies. Ter herinnering: de trefkans geeft de kans aan dat in de vergaarbak van feedback echte begripsproblemen aangetroffen worden.
Tabel 6. Treffers en valse alarms van lezersprotocol en plus-en-minmethode (studie 1), respectievelijk lezersprotocol en Focus (studie 2).
Studie 1 |
Lezersprotocol |
Plus-en-minmethode |
Totaal relevante commentaren |
29 |
20 |
Treffer |
17 (trefkans 58%) |
8 (trefkans 40%) |
Vals alarm |
12 |
12 |
Studie 2 |
Lezersprotocol |
Focus |
Totaal relevante commentaren |
41 |
29 |
Treffer |
21 (trefkans 51%) |
15 (trefkans 51%) |
Vals alarm |
20 |
14 |
Uit tabel 6 blijkt dat er slechts kleine verschillen in de trefkans tussen de verschillende methodes bestaan, die verschillen waren niet significant. In de verschillende methoden is één op de twee gevonden begripsproblemen vermoedelijk raak. Naast de trefkans onderscheidden we de detectiekans, waarmee wordt aangeduid hoe groot de dekking is van de treffers over de daadwerkelijk in de begripstoets vastgestelde problemen. Daartoe wordt de verhouding tussen treffers en missers bepaald. Tabel 7 laat de resultaten zien.
Tabel 7. Treffers en missers van lezersprotocol en plus-en-minmethode (studie 1), respectievelijk lezersprotocol en Focus (studie 2).
Studie 1 |
Lezersprotocol |
Plus-en-Minmethode |
Totaal aantal problemen |
78 |
93 |
Treffer |
17 (detectie 22%) |
8 (detectie 9%) |
Misser |
61 |
85 |
Studie 2 |
Lezersprotocol |
Focus |
Totaal aantal problemen |
117 1 |
16 |
Treffer |
21 (detectie 18%) |
15 (detectie 13%) |
Misser |
96 |
101 |
Uit tabel 7 blijkt dat alleen in de eerste studie er een verschil is in detectiekans tussen lezersprotocollen en de plus-en-minmethode (22% versus 9%; Chi2 = 5.91, df = 1, p < .01, eenzijdig getoetst). Tussen lezersprotocollen en Focus is er geen verschil, noch in trefkans, noch in detectiekans. We zien ook dat de detectiekans in de beide methoden aanmerkelijk lager is dan de trefkans, waaruit geconcludeerd kan worden dat het zinvol is een ongerichte pretest altijd te combineren met een begripstoets. De kans dat daarmee nieuwe problemen zichtbaar worden lijkt immers bijzonder groot te zijn.
| |
| |
Er is nog een andere manier om de waarde van de begripscommentaren tijdens de pretest te bepalen aan de hand van de resultaten van de begripstoets. We kunnen namelijk voor iedere vraag van de begripstoets het aantal proefpersonen met een fout antwoord vergelijken met het aantal proefpersonen dat een probleem met de bevraagde passage signaleert. Over deze getallenparen berekenen we vervolgens de correlatie. Is die significant positief, dan gaat een groot aantal foute antwoorden samen met een groter aantal commentaren (zie tabel 8.).
Tabel 8. Correlatie tussen aantal fouten bij iedere vraag uit de begripstoets (N=19 in studie 1; N=22 in studie 2) en het aantal keer dat het betreffende probleem in de pretest gesignaleerd is bij lezersprotocol en plus-en-minmethode (studie 1), respectievelijk lezersprotocol en Focus (studie 2).
Studie 1 |
Lezersprotocol |
Plus-en-Minmethode |
Pearson correlatie |
.57 |
.00 |
p-waarde, 2-zijdig |
.01 |
n.s |
Studie 2 |
Lezersprotocol |
Focus |
Pearson correlatie |
.63 |
.08 |
p-waarde, 2-zijdig |
.002 |
n.s |
Uit tabel 8 blijkt ondubbelzinnig dat het lezersprotocol samenhang vertoont met de begripstoetsresultaten, terwijl deze samenhang ontbreekt bij de plus-en-minmethode en Focus. Men zou kunnen denken dat dit een triviaal resultaat is, omdat in lezersprotocollen meer begripscommentaren werden gegeven dan bij de twee andere methoden. Het was echter heel goed mogelijk geweest dat een methode grote aantallen begripscommentaren oplevert zonder dat er een relatie is tussen deze commentaren en de begripsprestaties op de betreffende passage.
| |
3.3 Discussie.
De eerste studie levert een duidelijk resultaat op, in die zin dat lezersprotocollen niet alleen meer commentaren opleveren dan de plus-en-minmethode, maar ook meer begripscommentaren, zowel in absolute als in relatieve zin. Daarnaast blijkt de detectiekans voor lezersprotocollen hoger te zijn en blijkt deze methode een significante correlatie op te leveren tussen aantallen fouten op begripsvragen en aantallen proefpersonen met een probleemsignalering. Het lezersprotocol is duidelijk een betere maatstaf voor begripsproblemen met de tekst dan de plus-en-minmethode.
In de tweede studie werd het lezersprotocol vergeleken met een methode die minder retrospectief van karakter is, namelijk Focus. De verschillen in deze studie zijn minder groot: lezersprotocollen leveren weliswaar meer commentaren op dan Focus, maar qua begripscommentaren is het verschil minder overtuigend. Wat betreft de validiteit van de begripscommentaren is er tussen beide methoden wel het verschil dat het lezersprotocol een correlatie toont tussen het aantal fouten op begripsvragen en het aantal proefpersonen met een probleemsignalering dienaangaande, en Focus niet.
Wij zien een aantal mogelijke verklaringen voor met name de verschillen in de eerste studie.
• | Om te beginnen is er bij de plus-en-minmethode sprake van uitstel van commentaren, en bij het lezersprotocol vrijwel niet. Dit uitstel kan op verschillende manieren het aantal probleemcommentaren verlagen. Ten eerste kan een probleem dat ervaren werd tij- |
| |
| |
| dens het lezen, simpelweg vergeten worden wanneer het niet direct wordt uitgesproken. Ten tweede kan een probleem verdwijnen, of minder belangrijk worden, na het lezen van de vervolgtekst. Ten derde is het mogelijk dat na het lezen van een passage slechts een deel van de ervaren problemen verwoord wordt, wellicht gekozen op belang. Een argument voor het belang van de uitstelfactor is dat het verschil tussen lezersprotocollen en Focus minder groot is dan dat tussen lezersprotocollen en de plus-en-minmethode: Focus noodzaakt namelijk minder tot uitstel dan de plus-en-min-methode. |
• | Nog weer een ander verschil tussen beide methoden heeft te maken met het feit dat bij het lezersprotocol sprake is geweest van verklanking van de tekst. Dat heeft twee mogelijke gevolgen voor de opbrengst van de pretest. Ten eerste hoort de proefleider dat sommige tekstgedeeltes herhaald of haperend worden voorgelezen. Op die tekstgedeeltes kan hij terugkomen in het nagesprek. In de eerste studie werd 25% van de probleemcommentaren bij het lezersprotocol op die manier verzameld. Dit soort probleemsignalering is natuurlijk uitgesloten bij de plus-en-minmethode. In de tweede studie is dit laatste verschijnsel niet apart geanalyseerd, maar het is waarschijnlijk dat het zich ook hier heeft voorgedaan. Wanneer de proefleider conclusies kan trekken uit de wijze van voorlezen van de tekst, is het waarschijnlijk dat de proefpersoon dit zelf ook kan en dat hij zich dus bewust kan worden van problemen die anders onopgemerkt zouden zijn gebleven. |
• | Een derde verschil tussen de plus-en-minmethode en het lezersprotocol heeft te maken met het tempo waarmee de tekst verwerkt is, omdat hardop lezen zo'n twintig procent langzamer gaat dan stillezen (Rayner, 1998, 373; Ericsson, 1988, 306). Daarnaast wordt de hardop lezende proefpersoon nog verder vertraagd doordat hij commentaren geeft tijdens het lezen. Het is mogelijk dat een langzame verwerking van de tekst op zichzelf reeds meer begripsproblemen oplevert dan een snellere verwerking. |
Naar deze mogelijke verklaringen hebben wij verder onderzoek gedaan door middel van het experiment waarover in paragraaf vier gerapporteerd wordt.
| |
4. Een experimenteel onderzoek naar de kwaliteit van het lezersprotocol
4.1 Opzet.
In methodevergelijkend onderzoek zijn tot dusver telkens twee heel verschillende pretestmethoden met elkaar vergeleken (zie voor een overzicht De Jong en Schellens, 2002). Omdat twee methodes op talloze punten van elkaar verschillen, valt een verschil in opbrengst niet eenduidig toe te schrijven aan bepaalde factoren. Om die reden hebben we een experimenteel vervolgonderzoek uitgevoerd waarin de opbrengst wordt vergeleken van vier verschillende varianten van het lezersprotocol. We schetsen eerst het ontwerp van het experiment en daarna gaan we in op de manier waarop we uit de resultaten conclusies kunnen trekken over de drie genoemde factoren.
In het experiment is een verkorte versie van de bijsluitertekst uit studie 2 op een beeldscherm aan proefpersonen aangeboden. Twee variabelen zijn kruislings gemanipuleerd. Ten eerste hebben we geprobeerd om het uitstel tussen lezen en commentaar geven te beïnvloeden door de tekst ofwel in alinea's ofwel in zinnen aan te bieden. In de alineaconditie kregen de proefpersonen telkens één alinea tegelijk op het scherm te zien. De meeste alinea's telden zes zinnen. Na het lezen van een tekstpassage (d.w.z na een alinea dan wel na | |
| |
een zin) drukten de proefpersonen op de spatiebalk om aan te geven dat ze klaar waren met lezen. Vervolgens konden ze beginnen met commentaar leveren. De becommentarieerde passage bleef zichtbaar op het scherm. Wanneer de proefpersonen hun commentaar voltooid hadden, konden zij doorgaan naar de volgende tekstpassage door nogmaals op de spatiebalk te drukken. In de alineaconditie werd de alinea dan geheel vervangen door de volgende alinea. In de zinsconditie kregen de proefpersonen telkens wanneer zij voor de tweede maal op de spatiebalk gedrukt hadden een nieuwe zin op het scherm. De voorgaande zinnen van de alinea bleven zichtbaar. Deze verdwenen pas wanneer de laatste zin van de alinea gelezen was.
In de zinsconditie werden de proefpersonen dus aangemoedigd direct op elke zin te reageren, terwijl in de alineaconditie de proefpersonen aangemoedigd werden het commentaar uit te stellen tot de gehele alinea gelezen was. Hoewel het de proefpersonen in de alineaconditie niet verboden werd om commentaar te leveren tijdens het voorlezen van de alinea, gebeurde dit in de praktijk nauwelijks. Dat betekent dat de uitstelfactor effectief geoperationaliseerd werd met behulp van het verschil tussen de zins- en de alineaconditie.
De tweede variabele betrof het al dan niet voorlezen van de tekst, waarmee de factor verklanking gemanipuleerd werd. De twee onafhankelijke variabelen werden gekruist zodat het ontwerp vier cellen kreeg: alinea-stil, zin-stil, alinea-hardop, zin-hardop. Het drukken op de spatiebalk tussen lezen en hardop denken stelde ons in staat de leestijden van de proefpersonen te registreren, exclusief hun commentaartijd. Op die manier konden wij de factor tempo meenemen in het onderzoek, zij het niet als onafhankelijke variabele.
In totaal werkten 48 proefpersonen aan het onderzoek mee: twaalf voor elk van de vier cellen in het ontwerp. De proefpersonen waren letterenstudenten. Leeftijd en geslacht verschilden niet per cel.
| |
4.2 Verwachtingen.
Deze onderzoeksopzet kan op de volgende wijze leiden tot conclusies over het gewicht van de uitstel-, de verklankings- en de tempofactor.
• |
Wanneer de opbrengst van lezersprotocollen met name toe te schrijven is aan de uitstelfactor, zou de opbrengst van de zinsconditie hoger moeten zijn dan die van de alineaconditie. Immers de alineaconditie motiveert de proefpersonen om commentaar uit te stellen tot de alinea als geheel is gelezen, terwijl de zinsconditie dat niet doet. |
• |
Wanneer de verklankingsfactor een rol speelt, zou de opbrengst van de hardoplees-conditie hoger moeten zijn dan de opbrengst van de stillees-conditie. |
• |
Wanneer de tempofactor van belang is, zouden condities die sterk verschillen in leestij-den ook verschillen in opbrengst moeten laten zien. Nu zijn er zowel leestijdverschillen te verwachten tussen hardop en stil lezen (stil lezen gaat sneller), als tussen alineagewijs en zinsgewijs lezen (alinea's lezen gaat waarschijnlijk sneller). De factor tempo is dus in dit ontwerp gecontamineerd met de verklankings- respectievelijk de uitstelfactor. |
| |
4.3 Resultaten.
Wij bespreken eerst de factor uitstel. Uit tabel 9 blijkt dat de zinsconditie aanzienlijk meer commentaar oplevert dan de alineaconditie (Chi2 = 99.99, df = 1, p < .001, tweezijdig getoetst). In tabel 10 blijkt dat dit ook geldt voor negatieve commentaren (Chi2 = 32.21, df = 1, p < .001, tweezijdig getoetst). In de tabellen 11 en 12 blijkt dat dit ook geldt wanneer het aantal verschillende commentaren wordt geteld, zowel voor het totaal aantal commentaren (Chi2 = 53.15, df = 1, p < .001, tweezijdig getoetst), als voor de nega- | |
| |
tieve commentaren (Chi2 = 8.88, df = 1, p < .005, tweezijdig getoetst). Dit pleit sterk voor de redenering dat de factor uitstel een rol speelt in de verschillende opbrengsten van enerzijds het lezersprotocol en anderzijds de plus-en-minmethode.
Tabel 9. Totaal aantal commentaren per conditie(N=48)
Totaal aantal commentaren |
Alinea |
Zin |
Totaal |
Hardop lezen |
120 |
270 |
390 |
Stil lezen |
139 |
272 |
411 |
Totaal |
259 |
542 |
801 |
Tabel 10. Negatieve commentaren per conditie (N=48)
Negatieve commentaren |
Alinea |
Zin |
Totaal |
Hardop lezen |
80 |
150 |
230 |
Stil lezen |
90 |
142 |
232 |
Totaal |
170 |
292 |
462 |
Tabel 11. Aantal verschillende commentaren per conditie (N=48)
Aantal verschillende commentaren |
Alinea |
Zin |
Totaal |
Hardop lezen |
81 |
167 |
248 |
Stil lezen |
90 |
168 |
258 |
Totaal |
171 |
335 |
506 |
Tabel 12. Verschillende negatieve commentaren per conditie (N=48)
Verschillende negatieve commentaren |
Alinea |
Zin |
Totaal |
Hardop lezen |
60 |
89 |
149 |
Stil lezen |
61 |
83 |
144 |
Totaal |
121 |
172 |
293 |
We hebben de aard van het uitsteleffect iets nader proberen te onderzoeken. Wellicht kan het uitsteleffect verklaard worden uit een gebrekkig geheugen voor problemen in zinnen die al wat langer geleden gelezen zijn. In dat geval zouden we verwachten dat er in de ali-neaconditie meer commentaar geleverd wordt op zinnen later in de alinea, terwijl het commentaar in de zinsconditie gelijkmatiger gespreid zou moeten zijn. Deze verwachting is | |
| |
onderzocht door rangorde-correlaties te berekenen tussen de positie van zinnen in langere alinea's en het aantal commentaren op iedere zin. We vonden geen significante correlaties en kunnen daarom aannemen dat het uitstel effect niet primair een geheugeneffect is.
We hebben ook gecontroleerd of lezers in de zinsconditie problemen noemen die eenvoudig opgelost kunnen worden door de volgende zin te lezen. Inderdaad kwamen er in de zinsconditie begripsproblemen voor na het lezen van kopjes; deze problemen kwamen niet voor in de alineaconditie. Het aantal van deze kunstmatige problemen was echter laag (12). Bij de verdere analyses zijn ze buiten beschouwing gelaten.
De derde verklaring die we noemden in paragraaf 3.4 voor het uitsteleffect lag in het mogelijk selectief rapporteren door alinealezers. Het zou kunnen dat men na het lezen van een alinea zich beperkt tot de problemen die men het meest belangrijk vindt. Deze verklaring kan alleen rechtstreeks worden onderzocht door de gevonden problemen te coderen op belang, maar dat hebben we niet gedaan. Wel hebben we gekeken naar verschillen tussen alinea- en zinslezers in de aard van de commentaren.
Twee verschillen bleken significant. Allereerst blijkt dat de zinsconditie relatief meer commentaar oplevert dat vaak grappig bedoeld is, maar niet duidt op een probleem, noch op lof voor de tekst (23% versus 10%, Chi2 = 26.56, df = 1, p < .000, tweezijdig getoetst). Zo merkt een proefpersoon na het lezen van de bijwerkingen op: ‘Ja, leuk, je hebt geen LSD meer nodig, je neemt gewoon cinnarizine.’ Daarentegen wordt in de alineaconditie meer commentaar gegeven op de structuur van de tekst (14% versus 7 %, Chi2 = 8.67, df = 1, p < .005, tweezijdig getoetst). Deze verschillen doen zich ook voor, en in nog sterkere mate, wanneer we alleen kijken naar de negatieve commentaren (niet geclassificeerde commentaren: 13 % versus 3 %, Chi2 = 11.71, df = 1, p < .005, tweezijdig getoetst; structuurcommentaren: 7% versus 20%, Chi2 = 14.66, df = 1, p = .000, tweezijdig getoetst).
De zinsconditie leidt dus vaker tot enigszins geforceerde commentaren, maar dit verschil verklaart bij lange na niet het verschil in opbrengst tussen de zinsconditie en de ali-neaconditie: ook zonder deze categorie blijft het verschil hoog significant. Hoe de aline-alezers de problemen selecteren waarover ze commentaar leveren blijft dus voorlopig een open vraag.
De tweede factor betrof de verklanking als mogelijke verklaring voor de hogere opbrengst van het lezersprotocol. Wanneer we de tabellen 9 tot en met 12 bekijken op de verschillen tussen hardop lezen en stil lezen, dan wordt duidelijk dat die manipulatie niet in het voordeel werkte van het hardop lezen. Het is derhalve erg onaannemelijk dat de hogere opbrengst van het lezersprotocol is toe te schrijven aan het feit dat de proefpersonen zich meer bewust worden van problemen door het verklanken van de tekst. We merken daar wel bij op dat de proefleider in onze studie geen nagesprekken voerde aan de hand van haar observaties ten aanzien van aarzelingen en herhalingen bij het voorlezen. Met andere woorden, onze resultaten geven alleen aan dat hardop lezen niet leidt tot een verhoogd probleem-bewustzijn bij de proefpersonen. Het zou nog steeds wel nuttige informatie kunnen opleveren voor de onderzoeker.
Een derde mogelijke verklaring voor het verschil in opbrengst tussen het lezersprotocol en de plus-en-minmethode lag in het verschil in tempo waarmee de tekst verwerkt wordt. Bij hardop lezen wordt de tekst langzamer verwerkt, en wellicht levert dat op zich al meer problemen op. In dit experiment is het verwerkingstempo niet gemanipuleerd, wel kunnen we | |
| |
het verwerkingstempo controleren aan de hand van de leestijden. Maar eerst gaan we na of de experimentele manipulatie invloed heeft op de leestijden. We beperken ons daarbij tot de leestijd voor het gehele document, dat wil zeggen de som van de leestijden voor de afzonderlijke zinnen, respectievelijk alinea's.
Tabel 13. Gemiddelde totale leestijden in seconden per conditie (N=48)
Gem. totale leestijd |
Alinea |
Zin |
Gemiddeld |
Hardop lezen |
202 |
229 |
215 |
Stil lezen |
144 |
169 |
157 |
Gemiddeld |
173 |
199 |
|
In tabel 13 blijkt er verschil in leestijd te bestaan tussen hardop en stil lezen: hardop lezen gaat een stuk langzamer (F = 26.40, df = 1, p = .000, tweezijdig getoetst). Er is ook een significant verschil tussen alinea- versus zinsgewijs lezen (F = 5.38, df = 1, p = .026, tweezijdig getoetst), maar dat is duidelijk kleiner (de eta2 voor beide effecten bedraagt respectievelijk .40 en .12).
Desondanks zou men kunnen betogen dat het verschil in opbrengst tussen de zinsconditie en de alineaconditie niet verklaard moet worden uit de uitstelfactor, maar uit verschillen in verwerkingstempo. Het zou bijvoorbeeld kunnen dat zinsgewijze lezers meer commentaren produceren omdat zij de tekst langzamer en dieper verwerken.
Om de mogelijke invloed van verwerkingstempo op het aantal commentaren te vergelijken met het effect van onze experimentele manipulaties, voerden we een regressieanalyse uit. Als afhankelijke variabelen functioneerden het totaal aantal commentaren en het totaal aantal negatieve commentaren. Als onafhankelijke variabelen functioneerden allereerst de vier cellen van het experimentele design: alinea-stil, zin-stil, alinea-hardop, zinhardop. Als onafhankelijke variabele onderzochten we echter ook de totale leestijd van de proefpersoon, vergeleken met de gemiddelde leestijd van de andere proefpersonen van de experimentele cel.
Deze analyse leverde geen steun op voor het aannemen van een positieve relatie tussen leestijd en aantal commentaren. Om te beginnen werden er significante effecten gevonden voor het al of niet deel uitmaken van de vier experimentele cellen, maar dat is geen nieuws. Wat betreft de leestijden vonden we alleen een significant effect in de zin-stil conditie. In die conditie was er een significante negatieve relatie tussen leestijd enerzijds en anderzijds het totaal aantal commentaren (b = -.142, t = -3.775, p = .001; b is de regressie-coëfficient) en het aantal negatieve commentaren (b = -.103, t = -3.803, p = .001).
Dat we geen effect van leestijd vinden voor de hardop conditie, is niet zo verrassend. Het tempo waarin een tekst wordt voorgelezen hangt immers niet alleen af van het verwerkingstempo maar ook van andere zaken zoals het spreektempo van de proefpersoon en diens ambities om netjes voor te lezen. Maar we kunnen niet verklaren waarom het leestijdeffect alleen in de cel zin-stil optreedt en niet in de cel alinea-stil. Hoe dan ook, het belangrijkste is dat de richting van het effect onverwacht is: langere leestijden leiden tot minder, niet tot meer commentaren. Er is dus geen reden om aan te nemen dat de hoge productiviteit van de zinsconditie te maken heeft met een lager verwerkingstempo in die conditie.
| |
| |
| |
4.4 Discussie.
Het experiment heeft tot een eenduidig resultaat geleid: de uitstelfactor speelt zeker een rol bij het verklaren van verschillen in opbrengst tussen pretestmethoden, want verschillende versies van het lezersprotocol, die alleen verschillen in de mate van uitstel, verschillen in opbrengst.
Er is daarentegen geen aanwijzing gevonden voor een mogelijke rol van de factor verklanking. Dat is een verrassend resultaat. Commentaar leveren op teksten tijdens het lezen ervan blijkt goed mogelijk te zijn zonder de betreffende tekst hardop te lezen. Dat is voor ons een belangrijke reden om te spreken over lezersprotocollen in plaats van over de hardopleesmethode. Het is natuurlijk mogelijk dat stil lezen gevolgd door hardop becommentariëren makkelijker gaat wanneer de teksten op het scherm worden aangeboden dan wanneer ze op papier staan. Immers, op het scherm wordt de tekst stukje voor stukje aangeboden; er wordt zodoende een natuurlijk moment voor commentaar gecreëerd. Het stillezen van een papieren tekst zal dus ook op gezette tijden onderbroken moeten worden, wil de proefpersoon in een ritme komen waarin hij lezen en commentaar leveren afwisselt. Maar ook op papier lijkt het goed mogelijk dit soort rustpunten in te bouwen, bijvoorbeeld door signalen in de tekst of, als het niet anders kan, door fragmenten van de tekst op verschillende pagina's aan te bieden.
Er zijn nog twee andere verklaringen denkbaar voor de relatief hoge productiviteit van het lezersprotocol. De eerste heeft te maken met de aard van de activiteit van de proefpersonen. In de hardop-leesmethode rapporteren proefpersonen over hun verwerkingsactiviteiten, terwijl de proefpersonen in de plus-en-minmethode de opdracht krijgen om de tekst te beoordelen, evenals de proefpersonen die met Focus werken. Het is denkbaar dat beoordelende proefpersonen niet alleen, of niet zozeer afgaan op hun eigen leeservaring, maar op verwachtingen ten aanzien van de leeservaring van anderen. In dat geval speelt de proefpersoon de rol van een soort expert. Dit effect kan verschillend uitwerken op het aantal probleemcommentaren. De beoordelaar kan verwachten dat anderen minder problemen hebben met de tekst, maar ook dat zij juist meer problemen hebben. Alleen in het eerste geval zou dit effect een verklaring kunnen zijn voor de hogere opbrengst van lezersprotocollen. Deze kwestie zou verder onderzocht moeten worden, bijvoorbeeld door te experimenteren met een aangepaste variant van de methode waarin de proefpersonen de opdracht krijgen om niet te rapporteren, maar zich te beperken tot evaluaties.
Een tweede alternatieve verklaring heeft te maken met het al of niet compleet verwerken van de tekst. Een aantal protocol-lezers had de neiging om passages over te slaan die zij om een of andere reden minder interessant achtten. Zij werden echter consequent geinstrueerd om alles te blijven lezen. Dit soort correcties is uiteraard onmogelijk bij de plusen-minmethode, en daarom blijft het denkbaar dat de lagere productiviteit van deze methode deels te wijten is aan het feit dat de tekst niet helemaal is gelezen.
Hoewel beide alternatieve verklaringen verder onderzoek verdienen, doen zij niets af aan de conclusie dat het uitsteleffect, of liever gezegd het onmiddellijkheids-effect, zeker een zelfstandige bijdrage levert aan de goede prestaties van het lezersprotocol als pretestmethode.
| |
| |
| |
5. Slot
In de studies die hierboven zijn gerapporteerd, hebben we allereerst vastgesteld dat het lezersprotocol met name voor begripsproblemen beter presteert dan de plus-en-minmethode en Focus. In de eerste twee studies bleek daarnaast dat het lezersprotocol een goed uitvoerbare methode is voor proefleiders en proefpersonen. In de laatste studie hebben we laten zien dat de kwaliteit van de methode voor een belangrijk deel ligt in de onmiddellijkheid waarmee commentaar kan worden geleverd op een tekst. Dat bij lezersprotocollen teksten verklankt kunnen worden, beïnvloedt blijkens het experiment de opbrengst waarschijnlijk niet: immers ook een ‘stillees-protocol’ levert goede resultaten op. Ook het tempo waarin de tekst verwerkt wordt, is irrelevant voor het aantal commentaren van de proefpersoon. Verder onderzoek is nodig naar twee andere factoren die mogelijk van belang zijn voor de kwaliteit van het lezersprotocol: de compleetheid waarmee de tekst wordt verwerkt en het feit dat het lezersprotocol meer een persoonlijk verslag van eigen leeservaringen vormt, terwijl bij de andere methoden meer sprake is van een expert-beoordeling.
Wat ook de resultaten van dit vervolgonderzoek zullen zijn, we mogen nu al concluderen dat het lezersprotocol niet alleen een veelbelovende methode is voor het testen van instructieve documenten aan de hand van een specifieke lezerstaak, maar ook goed kan worden gebruikt bij het evalueren van informatieve teksten. Met andere woorden: ook het lezersprotocol verdient een plaats in de standaardbagage van professionele tekstontwerpers.
| |
Bibliografie
Allwood, C.M. & T. Kalén (1993). User-competence and other usability aspects when introducing a patient administrative system: a case study. Interacting with computers 2, 167-191 |
Boren, M.T. & J. Ramey (2000). Thinking aloud: reconciling theory and practice. IEEE transactions on professional communication 3, 261-278. |
Dieli, M. (1986). Designing successful documents: an investigation of document evaluation methods. Pittsburgh: Carnegie-Mellon University. |
Ericsson, K.A. (1988). Concurrent verbal reports on text comprehension: a review. Text 8, 295-325. |
Flower, L., J.R. Hayes & H. Swarts (1983). Revising functional documents: the scenario principle. In: P.V. Anderson, P.J. Brockmann & C.R. Miller (eds), New essays in technical and scientific communication. Research, theory and practice. New York: Baywood, 41-58. |
Jong, de, M. (1998). Reader feedback in text design. Validity of the plus-minus method for the pretesting of public information brochures. Proefschrift Universiteit Twente, Amsterdam: Rodopi. |
Jong, de, M. & P.J. Schellens (1995). Met het oog op de lezer. Pretestmethoden voor schriftelijk voorlichtingsmateriaal. Amsterdam:Thesis. |
Jong, de, M. & P.J. Schellens (2000). Toward a document evaluation methodology: what does research tell us about the validity and reliability of evaluation methods? IEEE transactions on professional communication 3, 242-260. |
Jong, de, M. & P.J. Schellens (2002). Tekstevaluatie. Onderzoek naar de validiteit van probleemopsporende methoden. Tijdschrift voor Taalbeheersing 24, nr. 2, 146-166. |
Jong, de, M. & L. Lentz (2001). Focus: design and evaluation of a software tool for collecting reader feedback. Technical Communication Quarterly 4, 289-403. |
| |
| |
Koppenaal, B. (2000). De hardop-leesmethode. De plus-en-minmethode & de vragenlijst. Doctoraalscriptie Universiteit Utrecht, specialisatie Communicatiekunde. |
Noorlander, M. (2001). Pretesten met bijsluiterteksten. Focus & de Hardop-leesmethode. Doctoraalscriptie Universiteit Utrecht, specialisatie Communicatiekunde. |
Pander Maat, H. (1996). Identifying and predicting reader problems in drug information texts. In:T. Ensink & C. Sauer (eds.), Researching technical documents. Groningen: Department of speech and communication Rijksuniversiteit Groningen. 17-47. |
Rayner, K. (1998). Eye movements in reading and information processing: 20 years of research. Psychological Bulletin 124, 372-422. |
Schriver, K.A. (1989). Evaluating text quality: the continuum from text-focused to reader-focused methods. IEEE transactions on professional communication 4, 238-255. |
Schriver, K.A. (1991). Plain language through protocol-aided revision. In: E.R. Steinberg (ed.). Plain language: principles and practice. Detroit, Michigan:Wayne State University Press, 148-172. |
Sienot, M. (1997). Pretesting websites. A comparison between the plus-minus method and the think-aloud method for the World Wide Web. Journal of business and technical communication 11, 469-482 |
Swaney, J.H., C.J. Janik, S.J. Bond & J.R. Hayes (1991). Editing for comprehension: improving the process through reading protocols. In: E.R. Steinberg (ed.), Plain language: principles and practice. Detroit, Michigan:Wayne State University Press, 173-203. |
Vromen, N., (1998). Focus. Een evaluatie-onderzoek naar het softwareprogramma Focus, waarmee teksten in pretestsituaties beoordeeld kunnen worden. Doctoraalscriptie Universiteit Utrecht, specialisatie Communicatiekunde. |
Werven, van P. (2002). Stillezen bij de hardoplees-methode. Onderzoek naar factoren die de kwaliteit van de hardoplees-methode bepalen. Doctoraalscriptie Universiteit Utrecht, specialisatie Communicatiekunde. |
|
|