| |
| |
| |
Sanne Elling en Leo Lentz
De voorspellende kracht van het CCC-model
Samenvatting
Onderzoek naar methoden voor tekstevaluatie laat zien dat experts slecht in staat zijn om te voorspellen welke problemen lezers uit de doelgroep in een tekst hebben. Het CCC-model zou door het geven van richtlijnen de prestaties van experts kunnen verbeteren. In dit artikel wordt de waarde van het CCCmodel onderzocht, met op de achtergrond de vraag in hoeverre het CCC-model een alternatief vormt voor lezergerichte evaluatiemethoden. Aan de orde komen de betrouwbaarheid en de validiteit van het model en de toegevoegde waarde van het CCCmodel ten opzichte van een expertevaluatie zonder richtlijnen.
| |
1. Inleiding
In de literatuur over tekstevaluatie speelt al jarenlang de vraag of er een alternatief is voor de tijdrovende en kostbare methoden waarbij teksten worden voorgelegd aan lezers uit de doelgroep. Daarbij wordt dan vooral gedacht aan experts die met behulp van een of ander instrument een tekst evalueren volgens vooraf omschreven criteria, in de hoop dat daarmee problemen zichtbaar worden die lezers met de tekst zouden ervaren. In Nederland is door Renkema (1996) het CCCmodel gepresenteerd als een handzaam instrument voor tekstevaluatie. De precieze ambitie van het model is echter niet erg scherp gedefinieerd.
In Renkema enWijnstekers (1997) wordt het CCC-model een tekstgerichte pretestmethode genoemd, hetgeen betekent dat het model als volwaardige evaluatiemethode kan worden ingezet. Elders formuleert Renkema echter een veel bescheidener ambitie: ‘Het CCC-model is allereerst bedoeld om commentaren op een tekst te systematiseren’ (Renkema, 1996, p.336). Daarmee is de ambitie teruggeschroefd naar een soort ordeningssysteem van commentaren; voor het genereren van die commentaren lijkt het model in die visie niet bruikbaar te zijn. In een op zijn oratie gebaseerde publicatie benadrukt Renkema dezelfde bescheiden ambitie: het model dient als raster om verschillende commentaren te categoriseren; ‘het CCC-model is bedoeld om alle opmerkingen over kwaliteit in verhouding te kunnen zien’ (Renkema, 2000, p.250). Toch vinden we in Renkema (1996) ook onderzoeksvragen die op een veel verder reikende ambitie wijzen, zoals:
• | Leidt toepassing van het CCC-model tot een goede inschatting van lezersproblemen? |
• | Leidt tekstrevisie op basis van een CCC-analyse tot betere teksten? |
Uit deze vragen blijkt wel degelijk een ambitie om met het model ook teksten te evalueren teneinde lezersproblemen te voorkomen. In dit artikel staat die ambitie centraal. Het | |
| |
doel van ons onderzoek was een antwoord te formuleren op beide bovengenoemde vragen. Een belangrijk punt is in dit verband de vraag wanneer er sprake is van een goede inschatting van lezersproblemen. Ons eerste uitgangspunt is dat dat het geval is als experts met behulp van het model in voldoende mate overeenkomen in hun probleemdetecties. In eerder onderzoek van Lentz en De Jong (1997) bleek dat experts zonder enig model grotendeels zogenaamde unieke detecties produceerden. Ruim zeventig procent van de voorspellingen van elke individuele expert werd door geen enkele andere expert gedeeld. Als het CCC-model op dit punt tot betere scores leidt, dan is inderdaad sprake van een verbetering.
Ons tweede uitgangspunt is dat er een relatie moet zijn tussen die probleemdetecties en de problemen die lezers daadwerkelijk ervaren met de betreffende tekst. Dat betekent dat er een vergelijking gemaakt moet worden tussen enerzijds de output van experts die met het CCC-model werken en anderzijds de output van evaluatie-onderzoek waarbij lezers feed-back hebben gegeven op een tekst.
Ten slotte is een derde uitgangspunt dat het model ten aanzien van betrouwbaarheid en validiteit een toegevoegde waarde moet hebben in vergelijking met experts die zonder richtlijnen een tekst beoordelen. Dat betekent dat er twee vergelijkbare groepen experts met dezelfde tekst moeten werken: de ene groep is getraind in het CCC-model, de andere groep heeft geen kennis van dat model.
Er is al menig onderzoek gedaan naar de vraag in hoeverre experts lezersproblemen kunnen voorspellen. Soms met erg teleurstellende resultaten voor de experts. De Jong en Lentz (1996), Pander Maat (1996) en Lentz en De Jong (1997) concluderen dat experts niet meer dan 15% van de lezersproblemen voorspellen. Bovendien blijkt de onderlinge overeenstemming tussen de experts zeer gering: in beide experimenten van De Jong en Lentz was ruim 70% van de voorspelde problemen een zogenaamde unieke detectie, een voorspelling dus die met geen enkele andere expert gedeeld werd. Maar er zijn ook andere resultaten gevonden. Dieli (1986) en Nielsen (1994) kwamen tot een score van 80% voorspelde problemen, Renkema en Wijnstekers (1997) vinden een voorspellingspercentage van 63% tot 88% en Lentz en Pander Maat (1992) kwamen zelfs tot een 100% score. Hoe vallen die verschillen te verklaren?
Er zijn drie factoren die in dit verband besproken moeten worden. Ten eerste zijn er studies waarbij de experts een instrument hanteren bij het beoordelen van de teksten naast studies waarbij de experts zonder richtlijn of heuristiek werken. Ten tweede is van belang hoe precies vastgesteld wordt of er sprake is van een correcte voorspelling. Op beide punten verschillen de studies sterk van elkaar. Ten derde verschillen de studies in de analysemethode: de een kijkt naar de prestaties van elke individuele expert, de ander kijkt naar de prestaties van de groep als geheel.
In de eerstgenoemde studies met de lage scores konden de experts geen gebruik maken van een of ander beoordelingsinstrument, terwijl in de studies met de hoge scores daartoe wel de gelegenheid was. Dat lijkt te wijzen op de kracht van zulke heuristieken, alhoewel in die tweede groep sprake is van zeer verschillende instrumenten, variërend van eenvoudige checklists met aandachtspunten voor de begrijpelijkheid van allerlei soorten documenten tot en met zeer ver uitgewerkte genrespecifieke beoordelingsinstrumenten. In feite zijn die studies daardoor onvergelijkbaar.
| |
| |
In de tweede plaats verschilt de methodiek sterk in de diverse studies. Zo beschouwde Dieli een probleemdetectie als een hit wanneer de expert een passage had onderstreept die door lezers daadwerkelijk als problematisch was ervaren. Genegeerd werd op die manier of het door de expert vermoede probleem enigszins overeen kwam met het lezersprobleem. Renkema en Wijnstekers (1997) vergeleken niet de eigenlijke probleemdetecties van beide methoden met elkaar, maar de oordelen over revisies die op grond van die problemen gemaakt werden. In de overige studies zijn uitspraken over de betrouwbaarheid en validiteit gebaseerd op de overeenkomst tussen probleemdetecties die de experts formuleren en de feedback uit het lezersonderzoek.
In de derde plaats maakt het een groot verschil of de resultaten van een expert-evaluatie gerapporteerd worden op groepsniveau (zoals bijvoorbeeld Dieli heeft gedaan) of op individueel niveau (zoals bijvoorbeeld Lentz en De Jong deden). Het spreekt immers vanzelf dat de scores van de groep als geheel hoger zullen zijn dan die van het gemiddelde individu.
Deze verscheidenheid aan gehanteerde methoden maakt een generaliserende conclusie over het nut van heuristieken twijfelachtig.
Het CCC-model (zie figuur 1) bestaat in feite uit een geordende reeks criteria voor tekstkwaliteit. Het model is niet gebonden aan een specifiek genre. Het belangrijkste criterium voor tekstkwaliteit is de balans tussen zender en ontvanger (correspondentie): heeft de schrijver overeenstemming weten te vinden tussen zijn eigen doelen en datgene wat de lezer verwacht of nodig heeft? De andere twee criteria zijn consistentie, het vasthouden aan eenmaal gemaakte keuzes, en correctheid, het vasthouden aan de algemene regels voor taalgebruik. Deze criteria worden toegepast op vijf niveaus: teksttype, inhoud, opbouw, formulering en presentatie. Op deze manier ontstaan er 15 ijkpunten aan de hand waarvan een tekst beoordeeld kan worden.
Tekstniveau\Criteria |
Correspondentie |
Consistentie |
Correctheid |
A Teksttype |
1. geschiktheid |
2. genrezuiverheid |
3. toepassing genreregels |
B Inhoud |
4. voldoende informatie |
5. overeenstemming tussen feiten |
6. juistheid van gegevens |
C Opbouw |
7. voldoende samenhang |
8. consequente opbouw |
9. correcte verbindingswoorden |
D Formulering |
10. gepaste formulering |
11. eenheid van stijl |
12. correcte zinsbouw en woordkeus |
E Presentatie |
13. gepaste toon |
14. afstemming tekst en vormgeving |
15. correcte spelling en interpunctie |
Figuur 1. CCC-model volgens Renkema (1996)
Het model is in een aantal publicaties onderworpen aan onderzoek. In Renkema en Wijnstekers (1997) is de effectiviteit van het model aan de orde: er vindt een vergelijking plaats tussen de lezergerichte plus-en-minmethode enerzijds en de tekstgerichte CCC-analyse anderzijds. Hierbij is gekeken naar de revisievoorstellen die op basis van het onderzoek met de verschillende methoden werden gedaan. Uit het onderzoek blijkt dat de CCC-methode meer revisies oplevert dan de plus-en-minmethode. Steekproefsgewijs is onderzocht in hoeverre de commentaren uit de beide methoden overeen kwamen. Uit de eerste steek- | |
| |
proef kwam naar voren dat de CCC-experts 88% van de lezersproblemen voorspelden, uit de tweede steekproef kwam een correct voorspeld percentage van 63% naar voren. De auteurs presenteren deze bevindingen overigens als een soort terzijde en merken op dat verder onderzoek wenselijk is.
In Renkema (2000) wordt een onderzoek gerapporteerd waarin professionele tekstschrijvers de revisies hebben beoordeeld die op basis van een CCC-evaluatie en een plusen-minevaluatie gemaakt waren. De CCC-revisies bleken beter beoordeeld te worden. Een belangrijke kanttekening hierbij is wel dat er bij de revisies met de plus-en-minmethode gebruik is gemaakt van de feedback van slechts vier proefpersonen. Een andere kanttekening, die ook opgaat voor Renkema en Wijnstekers (1997), is dat er niet is gekeken naar de eigenlijke probleemdetecties, maar naar de daarop gebaseerde revisies.
In ons onderzoek zijn de resultaten van een evaluatie met behulp van het CCC-model vergeleken met grootschaliger lezersonderzoek, bovendien is die vergelijking niet gebaseerd op de van die resultaten afgeleide revisies, maar op de oorspronkelijke probleemdetecties. We formuleerden vier onderzoeksvragen.
1. In hoeverre is het CCC-model betrouwbaar?
Deze vraag is onderzocht door experts een tekst te laten beoordelen aan de hand van het CCC-model. Vervolgens is vastgesteld wat de onderlinge overeenstemming is in probleem-detecties: de interbeoordelaarsbetrouwbaarheid.
2. In hoeverre is het CCC-model predictief valide?
Om deze vraag te beantwoorden, is onderzocht in hoeverre experts in staat zijn om met het CCC-model de problemen van lezers te voorspellen. Tevens is onderzocht in welk opzicht expertproblemen en lezersproblemen van elkaar verschillen in termen van categorieën uit het CCC-model. In deze vergelijking hebben we gebruik gemaakt van de resultaten van twee methoden van lezersonderzoek die eerder door anderen (met verschillende teksten) zijn uitgevoerd (De Jong en Schellens, 1996 en Vromen, 1998).
3. Wat is de waarde van de overige detecties?
Hierbij gaat het om de problemen die wel door de experts zijn genoemd, maar die geen lezersprobleem bleken te zijn. Het is immers denkbaar dat deze probleemdetecties wel tot revisies zouden kunnen leiden waar de lezers uit de doelgroep baat bij hebben. Deze vraag is onderzocht door vier deskundigen (een deel van) de overige detecties te laten beoordelen op de aannemelijkheid van het probleem, de ernst ervan en op de vraag of het probleem wel of niet aanleiding geeft tot een revisie.
4. Wat is bij een expertonderzoek de toegevoegde waarde van het CCC-model?
Deze vraag is beantwoord door de resultaten van een expertevaluatie zonder CCC-model te vergelijken met een evaluatie waar het model wel gebruikt is. Er is een vergelijking gemaakt op de aspecten die in de eerste drie vragen aan de orde zijn, namelijk:
• | betrouwbaarheid |
• | predictieve validiteit |
• | waarde overige detecties |
| |
| |
| |
2. Opzet van het onderzoek
De resultaten van twee expert-evaluaties (met en zonder CCC-model) zijn vergeleken met de resultaten van twee verschillende, eerder uitgevoerde, lezersonderzoeken. De daarbij gebruikte teksten, de groepen proefpersonen en de opzet van de onderzoeken komen in deze paragraaf aan de orde.
Materiaal
De eerste tekst die in het onderzoek is gebruikt, is de brochure ‘Je eerste baan’. Deze brochure is in 1995 door de Belastingdienst uitgegeven. De tekst is gericht op jongeren tussen de 18 en 26 jaar die voor het eerst een baan krijgen. De tweede tekst is de bijsluiter van Cinnarizine. Dit is een geneesmiddel dat gebruikt wordt bij duizeligheid als gevolg van een stoornis in het evenwichtsorgaan, bij reisziekte en bij allergische aandoeningen. De tekst is bedoeld voor iedereen die het middel gaat gebruiken: dit zijn mensen van verschillende leeftijden, verschillend geslacht en verschillende opleidingsniveaus.
Pretestmethoden
Het lezersonderzoek naar de belastingtekst is een paar jaar terug met twee verschillende methoden uitgevoerd. Het onderzoek met de plus-en-minmethode is uitgevoerd door De Jong en Schellens (1996). Het onderzoek met Focus is uitgevoerd door Vromen (1998).
De bijsluiter is eerder beoordeeld met zowel de hardop-leesmethode als met Focus (Noor-lander, 2001). Bovendien is achteraf een begripstoets afgenomen.
Proefpersonen
De CCC-beoordelingen zijn uitgevoerd door studenten Communicatiekunde aan de Universiteit Utrecht die in een vergevorderd stadium van hun studie waren of al waren afgestudeerd. De beoordeling van de brochure van de Belastingdienst is uitgevoerd door tien experts. De beoordeling van de bijsluiter is uitgevoerd door 18 experts met het CCC-model en door 14 experts zonder model; dit gebeurde in het kader van de cursus ‘Instructieve Documenten’ (onderdeel van de specialisatie). In deze cursus wordt ingegaan op diverse soorten instructieve documenten, waaronder bijsluiters, en het ontwerpen en evalueren hiervan.
De proefpersonen die mee hebben gewerkt aan de prestests kwamen uit de doelgroep van de beide teksten. Aan het onderzoek met de plus-en-minmethode naar de belastingtekst hebben 30 mensen uit de doelgroep deelgenomen met verschillende opleidingsniveaus. Het onderzoek naar dezelfde tekst met Focus is uitgevoerd met 21 hoger opgeleide mensen. In totaal hebben dus 51 proefpersonen uit de doelgroep feedback gegeven op de belastingtekst. De bijsluiter is beoordeeld door in totaal 30 lezers uit de doelgroep, bestaande uit lezers van diverse leeftijden en diverse opleidingsniveaus. De helft hiervan heeft de tekst beoordeeld met de hardop-leesmethode, de andere helft met Focus (Noorlander, 2001). De proefpersonen hadden geen voorkennis over het onderwerp van de bijsluiter.
De beoordelaars van de waarde van de overige detecties (geproduceerd door proefpersonen met en zonder CCC-model) waren vier medewerkers van de afdeling Taalbeheersing van de Universiteit Utrecht.
| |
| |
Procedure
Hieronder besteden we met name aandacht aan de procedure van het CCC-onderzoek. Voor nadere informatie over de procedures die gehanteerd zijn bij de prestest verwijzen wij naar De Jong en Schellens (1996), Vromen (1998) en Noorlander (2001). Elders in dit nummer (Pander Maat en Lentz, 2003) worden de plus-en-minmethode en Focus meer in detail toegelicht.
De experts die met het CCC-model werkten, hebben eerst een uitgebreide cursus over de werking van het CCC-model gehad waarin de vijftien punten van het model uitvoerig zijn besproken en toegelicht aan de hand van voorbeelden. Hier is ruim een uur voor uitgetrokken. Vervolgens hebben de experts het model toegepast op een oefentekst. Nadat iedereen het model goed onder de knie meende te hebben, heeft men individueel de tekst beoordeeld. De opdracht die men hierbij kreeg, was dat men zo goed mogelijk moest aangeven welke problemen lezers uit de doelgroep met de tekst zouden ervaren. Er werd expliciet gezegd dat ze zoveel mogelijk lezersproblemen uit de tekst moesten halen en zo min mogelijk problemen moesten noemen die lezers níet zouden hebben. Om de studenten extra te prikkelen werd bij de beoordeling van de bijsluiter een prijs uitgeloofd voor degene die de beste voorspeller zou blijken te zijn. Daarbij werden punten bijgeteld voor elke treffer en punten afgetrokken voor elke overige detectie.
De groep zonder model kreeg dezelfde opdracht om de lezersproblemen zo goed mogelijk te voorspellen; ook hier kon men een prijs winnen. Deze groep werd verder echter helemaal vrij gelaten in de manier van beoordelen en moest dit dus zonder richtlijnen doen.
In de CCC-groepen varieerde de tijd die men voor de beoordeling nodig had van een half uur tot ruim een uur. In de groep zonder CCC-model was men iets korter bezig met de beoordeling, namelijk tussen de 25 minuten en 45 minuten.
Voor de beoordeling van de waarde van de overige detecties die met de expert-evaluaties (met en zonder CCC-model) van de bijsluiter geproduceerd werden, is een selectie gemaakt van 34 problemen. Dat was nodig omdat de volledige lijst met overige detecties veel te lang was om voor te leggen aan beoordelaars. De selectie is gemaakt door allereerst uitsluitend problemen op te nemen die door minimaal twee experts (van de 32) zijn genoemd. Aldus ontstond een lijst met 68 problemen. Hierbij is er vanuit gegaan dat de problemen die slechts door één persoon zijn genoemd, zo onaannemelijk zijn dat ze minder kans hebben om hoog te scoren. Van deze set is vervolgens de helft voorgelegd aan vier deskundigen, allen werkzaam bij de afdeling Taalbeheersing in Utrecht. Deze deskundigen hebben bij elk probleem een uitspraak gedaan over de aannemelijkheid (op een vijfpuntsschaal van onaannemelijk naar aannemelijk), over de ernst (op een vijfpuntsschaal van niet ernstig naar zeer ernstig) en over de vraag ‘wel of niet reviseren?’.
| |
3. Resultaten
In deze paragraaf vatten we de resultaten van de verschillende deelonderzoeken samen per onderzoeksvraag en dus niet per deelonderzoek, teneinde herhaling te voorkomen. Eerst bespreken we de vraag naar de betrouwbaarheid, daarna bespreken we de validiteit. In dit deel van het onderzoek speelt de belastingtekst de hoofdrol. Voor een analyse van de toegevoegde waarde van het CCC-model ten opzichte van een expert-beoordeling zonder | |
| |
model is gebruik gemaakt van de resultaten van de bijsluitertekst. Die resultaten lagen ook ten grondslag aan de analyse van de waarde van de overige detecties.
In hoeverre is het CCC-model betrouwbaar?
De betrouwbaarheid is gemeten met een analyse van de onderlinge overeenstemming in de problemen die de experts vinden in de belastingtekst. Voor 83.1% van alle probleemdetecties is er geen enkele overeenstemming. Tabel 1 geeft een overzicht van de scores.
Tabel 1. Overeenstemming tussen experts in de beoordeling van de Belastingfolder
Overeenstemming tussen: n=10 |
Aantal problemen: |
Percentage |
geen overeenstemming (unieke detectie) |
103 |
83,1% |
2 experts |
17 |
13,7% |
3 experts |
2 |
1,6% |
4 experts |
0 |
- |
5 experts |
2 |
1,6% |
6 t/m 10 experts |
0 |
- |
Totaal |
124 |
100% |
De uitkomst van de beoordeling met het CCC-model is, zo maakt tabel 1 duidelijk, in hoge mate afhankelijk van de toevallige beoordelaar. De kans dat twee onafhankelijke experts tot een zelfde reeks probleemdetecties komen lijkt minimaal te zijn. Dit resultaat is allerminst beter dan in eerder onderzoek van Lentz en De Jong (1997) is gerapporteerd, waar experts geen beschikking hadden over een beoordelingsmodel.
In hoeverre is het CCC-model predictief valide?
De predictieve validiteit is gemeten door de voorspellingen van experts (als groep) te vergelijken met de problemen die lezers daadwerkelijk met de tekst ervaren. Met behulp van de resultaten van de belastingtekst is gekeken in hoeverre er overlap is tussen de problemen die zijn gevonden door de experts met het CCC-model en:
• | lezersproblemen gevonden met plus-en-minmethode |
• | lezersproblemen gevonden met Focus |
• | een set geselecteerde belangrijke lezersproblemen. |
Van de 130 lezersproblemen die zijn gevonden met de plus-en-minmethode, zijn er 16 (12,3%) met het CCC-model gevonden. Van de 206 lezersproblemen die met Focus zijn gevonden, zijn er 39 (18,9%) met het CCC-model gevonden. Op individueel niveau lagen de scores uiteraard een stuk lager: ten opzichte van de plus-en-minmethode scoorde elke expert gemiddeld 2.7 hits (sd. 1.64); ten opzichte van Focus scoorde elke expert gemiddeld 5.7 hits (sd. 2.71).
Onze ervaring in eerder onderzoek is dat de hits nogal eens verloren gaan in een grote hoeveelheid false alarms. In tabel 2 staan de aantallen hits en false alarms ten opzichte van de lezersproblemen met de plus-en-minmethode en ten opzichte van de lezersproblemen gevonden met Focus.
| |
| |
Tabel 2. Hits en false alarms t.o.v. plus-en-minmethode en Focus toegepast op belastingtekst
|
CCC-model t.o.v. +/- |
CCC-model t.o.v. Focus |
|
Aant. problemen &percentage |
Aant. problemen &percentage |
|
n=10 |
n=10 |
Aantal hits |
16 (12,9%) |
39 (31,5%) |
Aantal false alarms |
108 (87,1%) |
85 (68,5%) |
Totaal |
124 |
124 |
Tabel 2 laat zien dat deze verhouding het meest gunstig is in de vergelijking met de Focus-methode. Daar is een op de drie met het CCC-model voorspelde problemen een hit.
Het is denkbaar dat er in de reeks lezersproblemen feedback zit die moeilijk voorspelbaar is, bijvoorbeeld omdat slechts één lezer (van de in totaal 51 lezers) dat commentaar heeft gegeven. Het is daarom interessant om naar problemen te kijken die zwaarder wegen, omdat ze vaker genoemd zijn. De set met de meest aannemelijke lezersproblemen vormt een selectie van de problemen die (met de belastingtekst) zowel bij de plus-en-minmethode als bij Focus zijn genoemd. Dit zijn 20 problemen. Van deze set is 40% wel en 60% niet gevonden met het CCC-model. De prestatie van de groep experts stijgt dus als we de lat wat hoger leggen en alleen naar de zwaarwegende problemen kijken. Deze scores liggen echter bepaald niet hoger dan de scores die in Lentz en De Jong (1997) gerapporteerd worden; daar behaalden twee groepen van tien experts (zonder beoordelingsmodel) scores tussen de 60 en 70 procent van een reeks zwaarwegende problemen die met de plus-en-minmethode gevonden waren.
Zijn er verschillen tussen experts en lezers in termen van ijkpunten uit het CCC-model?
In hoeverre hebben de experts een andere definitie van tekstkwaliteit dan de lezers uit de doelgroep? Zijn zij misschien gericht op slechts een bepaald soort problemen? In tabel 3 zijn de ijkpunten van het CCC-model opgenomen die het grootste deel van de gevonden problemen bevatten. De rangorde van de drie belangrijkste categorieën staat tussen haakjes achter de percentages.
Tabel 3. Spreiding over ijkpunten CCC-model toegepast op de belastingtekst
IJkpunt CCC- model |
Percentage CCC- problemen |
Percentage +/- problemen |
Percentage Focus- problemen |
Voldoende informatie |
27,4% (1) |
49,2% (1) |
30,1% (2) |
Juistheid van gegevens |
4,8% |
13,8% (3) |
1,9% |
Voldoende samenhang |
10,5% (3) |
4,6% |
2,9% |
Gepaste formulering |
21% (2) |
26,2% (2) |
37,4% (1) |
Eenheid van stijl |
5,6% |
0,8% |
1,9% |
Correcte zins-bouw &woordkeus |
7,3% |
0,8% |
9,7% |
Correcte spelling &interpunctie |
8,1% |
- |
11,7% (3) |
Zowel de experts met het CCC-model als de lezers uit de doelgroep noemen in de belastingtekst veel problemen die onder de ijkpunten voldoende informatie en gepaste formulering vallen. Van de expertproblemen valt bijna de helft hieronder, van de plus-minproblemen en | |
| |
de focusproblemen rond de driekwart. Deze ijkpunten, en ook het ijkpunt voldoende samenhang (ijkpunt 7), vallen onder het criterium correspondentie. Men gaat bij het aangeven van problemen blijkbaar vooral uit van afstemming tussen tekst en lezer. Het criterium consistentie is zowel bij experts als bij lezers nauwelijks aan de orde. Problemen in de categorie correctheid worden met de plus-minmethode nauwelijks genoemd, met Focus en het CCC-model worden op dit criterium vooral op de niveaus formulering en presentatie relatief veel problemen genoemd.
Qua spreiding over de verschillende ijkpunten uit het model valt op dat deze het grootst is bij de problemen die door de experts zijn genoemd. Slechts twee ijkpunten (op het niveau teksttype) worden geen enkele keer door experts genoemd en er is één ijkpunt (afstemming tekst en vormgeving) waar slechts één expertprobleem in valt. Bij Focus is de spreiding wat minder groot, hier zijn drie ijkpunten waar geen enkel probleem in wordt genoemd en twee ijkpunten waarin één probleem wordt genoemd. Met name het niveau teksttype scoort matig (hierin valt in totaal slechts één probleem). Bij de plus-en-minmethode is de spreiding het laagst, er zijn zes ijkpunten waarin geen enkel probleem valt en drie ijkpunten waarin één probleem valt. Met name op de niveaus teksttype en presentatie worden niet of nauwelijks problemen gerapporteerd.
Dat bij de experts de spreiding in ijkpunten het grootst is, is geen verrassing. Deze beoordelaars hebben immers een uitvoerige cursus gehad over het CCC-model en hebben met alle ijkpunten geoefend. Het ligt voor de hand dat zij dan ook problemen vinden op verschillende ijkpunten. De lezers die de tekst beoordeeld hebben met Focus zijn ook gestuurd. Zij moeten bij het benoemen van een probleem, kiezen in welke categorie dit probleem valt. In dit onderzoek konden ze een keuze maken uit:
• | taalfout |
• | punten en komma's |
• | begrijp ik niet |
• | geloof ik niet |
• | verkeerde volgorde |
• | overbodige informatie |
• | ik mis iets |
• | formulering is niet goed. |
Voor een deel komen deze categorieën overeen met die van het CCC-model. Het is dan ook te verklaren dat de spreiding bij de beoordelaars met Focus wat kleiner is dan bij het CCC-model en groter is dan bij de plus-en-minmethode, waarbij men in de instructie slechts globale aanwijzingen kreeg over redenen waarom men plussen of minnen zou kunnen zetten.
Een andere verklaring voor het verschil in spreiding is dat er bij de drie methoden een ander perspectief wordt ingenomen. De CCC-experts hebben de rol van beoordelaar, zij moeten als expert voor anderen bepalen wat er wel en niet goed is aan de tekst. De plusminlezers zijn mensen uit de doelgroep en geven dus commentaar op de tekst vanuit hun eigen perspectief als ‘gebruiker’. Dit verklaart waarom zij vrijwel alleen maar problemen noemen uit de categorie correspondentie. De Focuslezers zitten tussen deze twee uitersten | |
| |
in. Het zijn lezers uit de doelgroep, maar met name de hoger opgeleide lezers. Bovendien zitten Focuslezers (meer dan plus-en-minlezers) in de rol van beoordelaar omdat ze tegelijk moeten lezen en beoordelen (De Jong & Lentz, 2001).
Wat is de toegevoegde waarde van het CCC-model?
Zijn de oordelen die met een CCC-model tot stand komen meer betrouwbaar dan die welke zonder dat model geproduceerd worden? In tabel 4 staan de resultaten van een analyse van de onderlinge overeenstemming tussen de experts, die met of zonder model een beoordeling van de bijsluiter uitvoerden.
Tabel 4. Overeenstemming tussen experts in de beoordeling van de bijsluiter
Overeenstemming tussen: |
Met CCC-model |
Zonder CCC-model |
|
aant. problemen &percentage |
aant. problemen &percentage |
|
n=18 |
n=14 |
geen overeenstemming (unieke detectie) |
84 (64,6%) |
66 (64,7%) |
2 experts |
23 (17,7%) |
27 (26,5%) |
3 experts |
9 (6,9%) |
3 (2,9%) |
4 experts |
8 (6,2%) |
4 (3,9%) |
5 experts |
4 (3,1%) |
2 (2%) |
6 experts |
0 - |
|
7 experts |
1 (0,8%) |
- |
8 experts |
1 (0,8%) |
- |
Totaal |
130 |
102 |
Het gebrek aan overeenstemming is in beide condities vrijwel gelijk. Bijna 65% van de problemen is in beide groepen een unieke detectie. Verder wordt zowel met CCC-model als zonder model geen enkel probleem door meer dan de helft van de experts genoemd. Het gebruik van het CCC-model leidt dus niet tot meer overeenstemming tussen beoordelaars.
Leidt het dan wel tot een betere voorspelling van lezersproblemen?Voor een antwoord op die vraag hanteren we als benchmark de problemen die in het onderzoek van Noorlander (2001) naar de bijsluiter als reële problemen zijn gedefinieerd, hetgeen betekent dat er zwaarwegende argumenten zijn om te veronderstellen dat die problemen zich daadwerkelijk bij de lezers voordoen. Het eerste argument is dat deze problemen bevestigd zijn in een op de pretest aansluitende tekstbegripstoets (doordat men inderdaad het goede antwoord over de betreffende passage niet wist te geven). Dit argument leidde tot een selectie van 17 begripsproblemen. Maar niet elk probleem kan met een begripstoets gevalideerd worden; waarderingsproblemen of bijvoorbeeld acceptatieproblemen vragen om een andere manier van valideren. Daarom is er een tweede criterium opgesteld, namelijk dat ook problemen die door minimaal zes personen uit de doelgroep genoemd worden (bijna 25% van de proefpersonen) beschouwd worden als een reëel probleem. Dit leidde tot elf extra problemen. Aldus komen we tot een set van 28 reële lezersproblemen. De resultaten van beide groepen experts staan weergegeven in tabel 5.
Van deze set met 28 lezersproblemen worden er 20 gevonden door de groep CCC-beoordelaars, en 16 door de andere groep. Dit verschil is het gevolg van de grotere groep CCC-beoordelaars, hetgeen zichtbaar wordt als we kijken naar de gemiddelde score per expert.
| |
| |
Tabel 5. Hoeveelheid hits van beoordelaars met en zonder CCC-model toegepast op bijsluiter
|
Met CCC-model |
Zonder CCC-model |
|
n = 18 |
n = 14 |
Aantal hits van de gehele groep t.o.v. de 28 reële lezersproblemen |
20 |
16 |
Gemiddeld aantal hits per expert t.o.v. de 28 reële lezersproblemen |
2.1 (sd. 1.5) |
2.2 (sd .1.7) |
Gemiddeld aantal hits t.o.v. totaal aantal detecties (per expert) |
17.7% (sd. 0.13) |
21.3 % (sd. 0.15) |
Die is in beide groepen vrijwel gelijk. Het CCC-model lijkt ook op dit punt geen toegevoegde waarde te hebben. Als we naar de relatieve scores kijken lijken de experts zonder CCC-model iets zuiniger gewerkt te hebben, aangezien de verhouding tussen het aantal hits en overige detecties bij hen iets gunstiger is, maar dit verschil is niet significant. Wel merken we op dat het goed denkbaar is dat in die overige probleemdetecties wel degelijk problemen zitten die eerder door een lezer genoemd zijn. We hebben voor deze vergelijking immers een selectie gemaakt van die problemen waarvan we op goede gronden kunnen stellen dat het reële lezersproblemen zijn. We hebben om die reden de overige detecties niet als false alarm bestempeld.
In hoeverre is er een verschil in perspectief tussen experts met CCC-model en experts zonder model?Verschillen de twee groepen qua soorten problemen die ze noemen? In tabel 6 zijn de ijkpunten opgenomen waaronder de vier hoogste percentages problemen uit beide groepen vallen. Tussen haakjes is de rangorde van deze categorieën aangegeven.
Tabel 6. Problemen uit vier meest genoemde ijkpunten CCC-model toegepast op de bijsluiter: absoluut, percentage, rangorde
IJkpunt CCC-model |
Experts met CCC-model |
Experts zonder CCC |
|
Abs. |
Perc. |
Rang |
Abs. |
Perc. |
Rang |
Voldoende informatie |
25 |
19,2% |
(2) |
30 |
29,4% |
(1) |
Overeenstemming tussen feiten |
13 |
10% |
(4) |
6 |
5,9% |
(4) |
Voldoende samenhang |
18 |
13,8% |
(3) |
20 |
19,6% |
(3) |
Gepaste formulering |
29 |
22,3% |
(1) |
25 |
24,5% |
(2) |
Overige ijkpunten |
45 |
|
|
21 |
|
|
Totaal |
130 |
|
|
102 |
|
|
In de tabel is te zien dat er in de rangorde van categorieën tussen experts met - en zonder model nauwelijks verschillen zijn, alleen de nummers 1 en 2 wijken van elkaar af. Net als in het onderzoek naar de folder van de Belastingdienst vallen de grootste groepen problemen onder ijkpunt 4 en ijkpunt 10. De verschillen over de gehele top vier zijn niet significant.
Ook qua spreiding zijn er nauwelijks verschillen tussen de twee groepen. In beide condities worden er op het eerste niveau (teksttype) niet of nauwelijks problemen genoemd. Alle andere ijkpunten zijn wel vertegenwoordigd in de genoemde problemen door beide groepen experts.
| |
| |
Wat is de waarde van de overige detecties? Wellicht noemen experts problemen die geen hit zijn, maar hebben lezers wel degelijk baat bij het oplossen van deze problemen. We onderzoeken daarom wat volgens deskundigen de kwaliteit van de overige detecties is. Van deze detecties (geproduceerd bij de beoordeling van de bijsluiter) is eerst een selectie gemaakt van problemen die door twee of meer van de 32 experts zijn genoemd. De motivering voor deze selectie hebben we in paragraaf 2 beschreven. De deskundigen, vier medewerkers van de afdeling Taalbeheersing uit Utrecht, hebben deze set van 34 problemen van een score voorzien op de variabelen aannemelijkheid, ernst, en wel of geen revisie. Een analyse van de betrouwbaarheid van deze oordelen leidde tot een matige betrouwbaarheid voor de aannemelijkheid (alpha .52), na verwijdering van één beoordelaar steeg de betrouwbaarheid tot .64. Er was een redelijke betrouwbaarheid voor het oordeel over ernst en de wenselijkheid van een revisie (beide een alpha van .63). Er was een hoge correlatie tussen deze drie variabelen, die na correctie voor de onbetrouwbaarheid tot een nieuwe variabele eindoordeel herleid konden worden; deze variabele heeft een minimumwaarde van 1 en een maximum van 10.
Van de 34 overige detecties zijn er 10 genoemd door alleen CCC-experts, 10 genoemd door alleen experts zonder model en 14 door experts uit beide groepen. In tabel 7 zijn de gemiddelde scores van de groepen te zien die door de beoordelaars zijn toegekend.
Tabel 7. Gemiddelde scores van deskundigen (N=3, schaal van 1-10) op overige detecties van experts met en zonder CCC-model toegepast op bijsluiter.
Herkomst beoordeelde overige detecties |
Gemiddelde score |
Uitsluitend met CCC (10) |
4.7 (sd 1.7) |
Uitsluitend zonder CCC (10) |
4.1 (sd 2.2) |
Door beide groepen experts genoemd (14) |
4.7 (sd 2.0) |
In elke groep is de eindscore duidelijk minder dan voldoende. Een t-toets voor onafhankelijke groepen liet geen significant verschil zien tussen de gemiddelde waardering van de CCC-problemen en de problemen die zonder CCC-model geproduceerd werden.
Mogelijk zijn deze magere scores nog enigszins geflatteerd omdat de beoordeelde detecties behoren tot een selectie van problemen die door meer dan één expert zijn genoemd. In bijvoorbeeld de CCC-conditie waren er 110 overige detecties. Hiervan zijn rond de 20 problemen overgebleven die door meer dan één persoon zijn genoemd en hiervan is de helft beoordeeld. De conclusie is dus dat de overige detecties waarover een minimale overeenstemming is en die dus al een zeker belang lijken te hebben, gemiddeld niet voldoende worden beoordeeld.
Deze toets is uitgevoerd na de vaststelling dat experts met het CCC-model niet goed in staat zijn problemen te voorspellen. We stelden vast dat mogelijkerwijs de overige detecties, die dus niet als lezersprobleem gevalideerd zijn, toch voldoende waardevol zouden kunnen zijn om tot een revisie te leiden. We trekken de conclusie dat dat vermoedelijk niet het geval is. In ieder geval worden de detecties die met het CCC-model geproduceerd zijn niet als significant waardevoller beoordeeld dan de detecties die zonder dat model geproduceerd zijn.
| |
| |
| |
4. Conclusies en discussie
De overeenstemming tussen de experts die met het CCC-model een tekst beoordelen, is zeer gering. Respectievelijk 83,1% en 64% van de problemen betreft een unieke detectie. Er was geen verschil tussen experts met CCC-model en zonder dat model.
Het model zorgt er dus niet voor dat experts meer volgens een zelfde patroon gaan beoordelen en daardoor tot meer overeenstemming komen.
Ook aan de validiteit van het CCC-model kan getwijfeld worden. Met het model wordt slechts een laag percentage van de lezersproblemen voorspeld en dit gaat bovendien gepaard met een grote hoeveelheid overige detecties. De scores zijn niet hoger dan die welke in eerder onderzoek onder experts zonder CCC-model behaald werden. Het CCC-model lijkt ook op dit punt geen toegevoegde waarde te hebben.
Het percentage juist voorspelde aannemelijke problemen ligt met 40% wel een stuk hoger. Toch is ook dit percentage nog vrij laag te noemen. Ten eerste omdat deze set is samengesteld op basis van strenge criteria en dus de lezersproblemen lijkt te bevatten die vrij aannemelijk zijn. Ook hiervan wordt dus niet eens de helft voorspeld. In eerder onderzoek van Lentz en De Jong halen twee groepen experts op een set geselecteerde problemen hogere percentages. Verder worden de problemen die wél goed worden voorspeld maar door een zeer klein deel van de experts genoemd: gemiddeld door ongeveer twee van de tien experts. Hierbij lijkt dan ook eerder toeval en kennis van individuele experts mee te spelen dan een effectief CCC-model.
Experts en lezers hebben ten dele een verschillende definitie van tekstkwaliteit. In de beoordeling vallen de twee grootste groepen problemen onder de ijkpunten ‘voldoende informatie’ en ‘gepaste formulering’. Het grootste verschil tussen lezers en CCC-beoordelaars is dat de problemen die de CCC-experts noemen meer verspreid liggen over het hele CCC-model.
De toegevoegde waarde van het CCC-model is te verwaarlozen wanneer we de resultaten vergelijken met een groep die zonder dat model dezelfde taak uitvoerde. Het gebrek aan overeenstemming tussen experts was in beide groepen even groot. En voor de validiteit maakte het ook niet uit of experts bij de beoordeling wel of niet gebruik maken van het CCC-model: ongeveer 20% van de expertproblemen is een hit. Tussen experts met model en zonder model zijn ook geen grote verschillen in perspectief te zien.
Over de kwaliteit van de overige detecties kan gezegd worden dat deze zeer matig is, des te meer omdat het hier gaat om de score van een selectie overige detecties die al een zeker gewicht hadden doordat ze door meerdere experts waren genoemd. Belangrijker is echter dat de beoordeling van de overige detecties van CCC-experts niet positiever is dan de oordelen over de detecties van de experts die niet over dat model beschikten.
Daarmee kunnen we de vragen uit Renkema (1996) van een antwoord voorzien. Toepassing van het CCC-model leidt niet tot een goede inschatting van lezersproblemen. Een tekstrevisie op basis van een CCC-analyse zal dan ook niet tot een betere tekst leiden (dan een revisie zonder gebruik van dat model); enerzijds omdat de oordelen over die tekst niet | |
| |
betrouwbaar en valide zijn, anderzijds omdat de probleemdetecties niet waardevoller zijn dan de detecties van experts zonder CCC-model. Bij die conclusie willen we echter twee kanttekeningen maken.
Een eerste kanttekening is dat de experts misschien niet voldoende instructie hebben gekregen over het CCC-model. De verklaring voor de magere resultaten van deze experts zou dan de kwaliteit van de instructie zijn. Deze instructie betrof expliciet de werking van het CCC-model en bevatte uitleg en oefening over de 15 ijkpunten van het model. Het is uiteraard denkbaar dat een groep experts nog veel intensiever scholing krijgt op het thema van tekstkwaliteit, met bijvoorbeeld beoordelingscriteria per genre (voor bijsluiters, gebruiksaanwijzingen e.d.). Mogelijkerwijs zal dan ook de overeenstemming tussen de experts hoger worden. Deze is dan echter naar alle waarschijnlijkheid niet te danken aan meer kennis van het CCC-model, maar aan een grotere expertise in tekstkwaliteit. Het model zelf is immers niet zo ingewikkeld dat er een cursus van enkele weken voor nodig is.
De tweede kanttekening betreft de ambitie van het CCC-model. In de inleiding hebben we gesteld dat die niet altijd helder en eenduidig geformuleerd is. Eén ambitie hebben we in dit artikel van een kritische noot voorzien. Blijft over de vraag of de meer bescheiden ambitie realistischer is. Is het CCC-model een handig hulpmiddel om commentaren op een tekst te systematiseren? Renkema noemt drie criteria voor beoordeling: het model moet eenvoudig te hanteren zijn, het moet volledig zijn en de ijkpunten moeten duidelijk van elkaar te onderscheiden zijn. Op die criteria hebben wij dit model niet onderzocht. Er zou echter een vierde criterium genoemd kunnen worden: het model moet geen overbodige ijkpunten bevatten. Op dit punt hebben wij twijfels over met name de ijkpunten die onder teksttype vallen: er is in de evaluaties van de twee teksten geen enkel commentaar geleverd dat viel onder de ijkpunten 1) geschiktheid van het genre, en 2) genrezuiverheid. Slechts één commentaar is geplaatst onder ijkpunt 3) correcte toepassing genreregels. Er zou verder onderzocht moeten worden of het toeval is dat de teksten geen problemen bevatten op deze aspecten, of dat een beperkter CCC-model wellicht een effectiever hulpmiddel is om commentaren op een tekst te systematiseren.
| |
Bibliografie
Dieli, M. (1986). Designing successful documents: an investigation of document evaluation methods. Pittsburgh, Pennsylvania: Carnegie Mellon University. |
Jong, M. de (1998). Reader feedback in text design. Validity of the plus-minus method for the pretesting of public information brochures. Amsterdam-Atlanta: Rodopi. |
Jong, M. de & L. Lentz (1996). Expert judgements versus reader feedback: a comparison of text evaluation techniques. Journal of Technical Writing and Communication, 26, 507-519. |
Jong, M. de & L. Lentz (2001). Focus: Design and Evaluation of a Software Tool for Collecting Reader Feedback. Technical Communication Quarterly, 10, 387-401. |
Jong, M. de & P.J. Schellens (1996). Pretest van de brochure ‘Je eerste baan’ Deelrapport 17 van het onderzoeksproject Pretesten. Vakgroep Toegepaste Taalkunde, Universiteit Twente. Enschede. |
Lentz, L. & M. de Jong (1997). The evaluation of text quality: expert-focused and reader-focused methods compared. IEEE Transactions on professional communication, 40, 224-233. |
| |
| |
Lentz, L. & H. Pander Maat (1992). Evaluating text quality: reader-focused or text-focused? In: H. Pander Maat & M. Steehouder (eds.) (1992). Studies of functional text quality. Amsterdam: Rodopi, 101-114. |
Nielsen, J. (1994). Heuristic Evaluation. In: J. Nielsen & R. Mack (eds.) (1994). Usability Inspection Methods. New York: John Wiley & Sons, Inc., 25-62. |
Noorlander, M. (2001). Pretesten met bijsluiterteksten. Focus & de Hardop-leesmethode. Doctoraalscriptie Taalbeheersing, Universiteit Utrecht. |
Pander Maat, H. (1996). Identifying and predicting reader problems in drug information texts. In:T. Ensink & C. Sauer (eds.) (1996). Researching technical documents. Groningen, 17-47. |
Pander Maat, H. en L. Lentz (2003). Waarom het lezersprotocol zo'n goede methode is om begripsproblemen op te sporen. Tijdschrift voor Taalbeheersing, 25, 202-220. |
Renkema, J. (1996). Over smaak valt goed te twisten. Een evaluatiemodel voor tekstkwaliteit. Taalbeheersing, 18, 324-338. |
Renkema, J. & M. Wijnstekers (1997). Doelgroep-onderzoek of bureau-analyse? In: H. van den Bergh e.a. (eds.) (1997). Taalgebruik ontrafeld. Bijdragen aan het zevende VIOT-taalbeheersingscongres gehouden op 18, 19 en 20 december 1996 aan de Universiteit van Utrecht. Dordrecht: Foris Publications, 365-373. |
Renkema, J. (2000). Pretesten testen. De CCC-analyse en de plus-en-minmethode vergeleken. In: R. Neutelings e.a. (eds.) (2000), Over de grenzen van de taalbeheersing. Bijdragen over taal, tekst en communicatie gepresenteerd op het VIOT-congres van 1999 aan de Technische Universiteit Delft. Den Haag: Sdu Uitgevers, 273-283. |
Vromen, N. (1998). Focus. Een evaluatie-onderzoek naar het softwareprogramma Focus waarmee teksten in pretestsituaties beoordeeld kunnen worden. Doctoraalscriptie Taalbeheersing, Universiteit Utrecht. |
|
|