Tijdschrift voor Taalbeheersing. Jaargang 27
(2005)– [tijdschrift] Tijdschrift voor Taalbeheersing– Auteursrechtelijk beschermd
[pagina 278]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
Hanny den Ouden
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
1. InleidingVoorlezen, het hardop uitspreken van een geschreven of gedrukte tekst, kennen we vooral van natuurlijke (thuis)situaties. Je leest een verhaal voor aan je kinderen of een hilarisch stukje uit de krant aan je partner. De meester op school leest een spannend boek voor aan zijn leerlingen; en op verzoek van de leerkracht leest de middelbare scholier in de klas hardop een stuk tekst uit een studieboek voor. Meestal lezen mensen echter voor zichzelf. Voor blinden en slechtzienden is dat anders: zij zijn echt aangewezen op het voorlezen door anderen (Pyfers, 2002; Stolte, 2005). Deze groep mensen maakt dan ook veel gebruik van voorgelezen kranten en (studie)boeken. De materialen, veelal cassette-bandjes en cd-roms, zijn vooraf ingesproken door goede voorlezers die daar trainingen voor hebben gevolgd. De voorleesmarkt is in Nederland recentelijk ook uitgebreid naar niet-visueel gehandicapten: met de CD-luisterboeken die meestal door de auteur van het boek ingesproken zijn kun je in auto en trein een boek ‘lezen’. In bepaalde situaties is het nuttig om het natuurlijke voorlezen, al dan niet vooraf op band opgenomen, te kunnen vervangen door kunstmatig gegenereerd voorlezen. De tech- | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 279]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
nische mogelijkheden om computers teksten te laten voorlezen zijn de afgelopen jaren aanzienlijk verbeterd en de toepassingsgebieden uitgebreid. Zo wordt automatisch voorgelezen spraak gebruikt om dyslectische kinderen te trainen in het herkennen van woorden; op veel (educatieve) sites bestaat de mogelijkheid om de teksten automatisch voorgelezen te krijgen; SMS-berichten worden op de voice-mail van de vaste telefoon automatisch voorgelezen; en voor drukbezette zakenmensen zijn er sinds kort systemen op de markt waarmee ze via laptop en mobiele telefoon in auto's en vliegtuigen hun e-mails en elektronische documenten voorgelezen kunnen krijgen.
Hoe moet geschreven tekst nu omgezet worden in gesproken tekst? Dat het niet eenvoudig is om menselijke voorlezers na te bootsen zal niemand verwonderen, er komt bij het spreken nogal wat kijken. Om kunstmatige spraak te genereren worden van sprekers individuele klanksegmenten opgenomen die vervolgens met elkaar worden verbonden tot nieuwe woorden en zinnen. Sinds een aantal jaren wordt hierbij niet meer uitgegaan van individuele spraakklanken, maar van tweeklanken, de zogenaamde difonen (voor een overzicht, zie Dutoit, 1997). De overgangen tussen de klanken verlopen daarmee vloeiender. Het gebruik van difonen komt de verstaanbaarheid en de natuurlijkheid van de spraak ten goede. Na de concatenatie van klanken tot woorden en zinnen moet de prosodie bepaald worden. Onder prosodie worden alle suprasegmentele aspecten van spraak verstaan, dat wil zeggen alle eigenschappen van spraak die boven het niveau van de individuele klanken uitgaan, zoals accentuering, intonatie, pauzering, snelheid van spreken, luidheid. Het meeste onderzoek naar prosodie heeft zich gericht op de prosodie van zinnen. Voor het Nederlands is die bijvoorbeeld in detail beschreven in termen van accentueringspatronen en intonatiecontouren door't Hart, Collier & Cohen (1990). Nu is echter gebleken dat zinnen die door een computer worden gegenereerd weliswaar heel natuurlijk klinken wanneer ze in isolatie zijn uitgesproken, maar niet wanneer ze met elkaar zijn verbonden tot tekst (Silverman, 1987; Terken, 1993). De prosodie van teksten is kennelijk niet louter de som van de prosodie van zinnen. De consequentie voor automatisch voor te lezen teksten is dat niet kan worden volstaan met het aan elkaar plakken van de prosodie van de afzonderlijke zinnen. Er moet dus zoiets zijn als tekstprosodie. Wat is tekstprosodie? Om die vraag te beantwoorden moet eerst duidelijk gemaakt worden wat teksten zijn.
Teksten zijn meer dan verzamelingen losse zinnen. Het kenmerkende van teksten is dat er samenhang tussen de zinnen bestaat. Met behulp van allerlei talige middelen, zoals het gebruik van voegwoorden en anaforen, laten schrijvers en sprekers zien hoe zinnen met elkaar samenhangen en wat het belang is van bepaalde tekstgedeelten in het grotere geheel. Schrijvers maken de samenhang ook typografisch zichtbaar. Met de indeling in hoofdstukken, paragrafen, alinea's en het gebruik van inspringen, witregels en interpunctie geven ze de structuur van de tekst aan; met cursivering, onderstreping en dergelijke hoe belangrijk bepaalde gedeelten van de tekst zijn. Sprekers hebben uiteraard deze mogelijkheden niet, maar zij gebruiken de prosodie om de samenhang tussen de zinnen aan te geven. Tekstprosodie is dan ook die prosodie die aangeeft hoe de zinnen van een tekst met elkaar samenhangen, wat de relaties tussen de zinnen zijn en wat het belang is van zinnen, alinea's en paragrafen in het grotere geheel van de tekst. De prosodie zal de functie van de typografie moeten overnemen wanneer een spraakcomputer geschreven teksten omzet in uitgesproken teksten. Omdat de kunstmatig gegenereerde teksten zo natuurlijk mogelijk moeten klinken, moet de tekstpro- | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 280]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
sodie zodanig ingesteld worden dat het zoveel mogelijk lijkt op menselijke tekstprosodie. De grote vraag is dan ook hoe menselijke voorlezers de structuur van teksten prosodisch aangeven. Dat is het thema van dit artikel. | |||||||||||||||||||||||||||||||||||||||||||||||||||||
2. OpzetMet de vraag naar de relatie tussen tekststructuur en prosodie komen twee betrekkelijk van elkaar gescheiden onderzoeksgebieden samen. Op beide gebieden zijn afzonderlijk voorbereidende stappen nodig, want op voorhand zijn er geen kant en klare criteria beschikbaar voor wat in deze context de relevante tekststructurele kenmerken zijn en wat de relevante prosodische kenmerken. De opbouw van dit artikel loopt dan ook langs de twee lijnen die aangegeven worden in Figuur 1.
Figuur 1: Schematische weergave van de stappen om een relatie te leggen tussen tekststructuur en prosodie.
Figuur 1 ligt ten grondslag aan het onderzoek waarover gerapporteerd is in Den Ouden (2004). Dit artikel geeft daarvan een beknopte weergave. In paragraaf 3 wordt ingegaan op de notie tekststructuur en de manier waarop in het kader van de vraagstelling aan dat begrip invulling is gegeven. Om tekststructuur te meten zijn criteria nodig voor het opsplitsen van een tekst in afzonderlijke eenheden en voor het bepalen van de relaties tussen de eenheden. Rhetorical Structure Theory (Mann & Thompson, 1988) biedt een kader dat voor dit doel heel geschikt is. De tekstanalyses die met behulp van deze theorie tot stand komen maken het mogelijk scores toe te kennen aan niveaus in de hiërarchisch georganiseerde tekststructuur, aan nucleaire en niet-nucleaire teksteenheden, en aan specifieke inhoudelijke relaties tussen teksteenheden. De vraag naar de betrouwbaarheid van dit instrument voor tekstanalyse komt hierbij aan de orde. In paragraaf 4 worden de prosodische kenmerken besproken die voor tekstprosodie relevant zijn. Dat zijn voornamelijk de pauzeduren tussen zinnen, en toonhoogtekenmerken en spreeksnelheid van afzonderlijke zinnen. Pauzeduur en spreeksnelheid zijn weinig problematische maten omdat ze direct afleidbaar zijn uit het spraaksignaal. Voor toonhoogte is | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 281]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
dat niet het geval. De toonhoogtecontour van een zin kan op zoveel verschillende manieren gemeten worden dat eerst duidelijk moet worden wat een adequate manier is in het kader van de vraagstelling. De vraag naar de betrouwbaarheid van twee manieren om toonhoogte te meten komt hierbij dan ook aan de orde. In paragraaf 5 komen tekststructuur en prosodie bij elkaar. In Den Ouden (2004) werd eerst een corpusonderzoek uitgevoerd, waarbij gebruik gemaakt werd van natuurlijke, d.w.z. niet-geconstrueerde teksten uit een Nederlandse kwaliteitskrant. Moedertaalsprekers lazen de teksten voor. Ze bereidden zich daarop voor, zodat ze een samenhangende mentale representatie konden opbouwen van de tekst. Aan de tekststructurele eigenschappen van de tekstanalyses en de prosodische kenmerken van het spraaksignaal waren scores toegekend. De scores voor enerzijds de hiërarchische opbouw van de teksten en de relaties tussen de tekstgedeelten en anderzijds de prosodische kenmerken bleken systematisch samen te hangen. De onderzoeksresultaten leidden tot enkele specifieke vragen met betrekking tot de prosodische realisering van retorische relaties. Die is met behulp van een experiment onderzocht. Paragraaf 6 gaat in op de implicaties van de bevindingen voor automatische voorleessystemen en schetst mogelijkheden en richtingen voor vervolgonderzoek naar de verbetering van automatisch voor te lezen teksten. | |||||||||||||||||||||||||||||||||||||||||||||||||||||
3. TekststructuurIn de tekstwetenschap wordt onder een tekst verstaan: een geheel van minstens twee zinnen of zinsdelen die met elkaar samenhangen. Die samenhang kan ofwel aanwijsbaar zijn in de tekst zelf ofwel gerealiseerd worden in het hoofd van de lezer of luisteraar. Een duidelijk voorbeeld van een tekst is een krantenbericht. In het kader wordt een krantenbericht gepresenteerd. Het is een van de twintig krantenteksten die zijn gebruikt in het corpusonderzoek dat in paragraaf 5 wordt beschreven.
Voorbeeld van een krantentekst
Bron: De Volkstrant, 27 november 2000 | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 282]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
Een structuur van een hele tekst wordt doorgaans opgevat als een hiërarchisch georganiseerde eenheid, een boomstructuur. Er bestaan verschillende manieren om van een tekst een dergelijke boomstructuur te maken. De eenvoudigste manier is om een beroep te doen op het taalgevoel van willekeurige mensen (Swerts, 1997). In zo'n geval wordt aan een behoorlijk aantal mensen gevraagd om in een tekst aan te geven waar alinea-overgangen plaats vinden of waar de schrijver een nieuw onderwerp introduceert. Op basis van de aantallen mensen die bepaalde plaatsen in de tekst hebben aangewezen als alinea-overgang of topic-shift kan een boomstructuur worden afgeleid: de plaats in de tekst die door de meeste mensen is aangewezen wordt dan beschouwd als de plaats van de hoogste vertakking, de tekst valt op dat punt uiteen in twee tekstdelen. Vervolgens wordt binnen die twee tekstdelen gekeken op welke plaats de meeste mensen dan weer een alinea-overgang hebben gelokaliseerd. In de tekstdelen die daaruit ontstaan wordt ook weer op basis van aantallen beoordelaars gekeken waar de belangrijkste grens ligt, net zolang totdat aan elke overgang tussen twee segmenten een score is toegekend. Op deze manier komt een hiërarchisch georganiseerde structuur van de tekst naar voren die ook grafisch kan worden weergegeven. Voordelen van deze intuïtieve methode zijn dat onderzoekers voor deze taak naïeve taalgebruikers kunnen inschakelen en dat de taak weinig inspanning vereist. Het belangrijkste nadeel is dat de overwegingen duister blijven die aan de intuïtieve oordelen ten grondslag liggen, m.a.w. dat de theoretische verklaringen ontbreken. Theoretische benaderingen om teksten in hun geheel te analyseren zijn bijvoorbeeld Rhetorical Structure Theory (Mann & Thompson, 1988) en de op intenties gebaseerde benadering van Grosz & Sidner (1986). Deze benaderingen leveren hiërarchisch georganiseerde structuren van teksten op en theoretische verantwoordingen van de relaties die tussen de eenheden van de tekst bestaan. Beide modellen voor tekststructuur zullen hier kort worden gepresenteerd.
De veel geciteerde theorie van Grosz & Sidner (1986) onderscheidt aan tekststructuur drie componenten: de linguïstische structuur, dat wil zeggen de opeenvolging van de uitingen; de attentionele toestand, dat wil zeggen de entiteiten en hun eigenschappen die op een bepaald moment van het lezen of luisteren in de aandacht staan; en de intentionele structuur. De intentionele structuur van een tekst bestaat uit de hiërarchisch georganiseerde onderliggende doelen die de spreker of schrijver met de teksteenheden heeft. De structuur van een hele tekst komt dus in deze gelaagde intentionele structuur naar voren. De intentie-gebaseerde benadering van Grosz & Sidner is operationeel gemaakt in een handleiding met instructies om tekststructuren te annoteren (Nakatani, Grosz, Ahn & Hirschberg, 1995). Volgens die handleiding staat het maken van een tekststructuur gelijk aan het achterhalen van de onderliggende intenties of doelen van een spreker of schrijver. De analist gaat na wat het overkoepelende doel is van de tekst als geheel, en daarna van de tekstdelen afzonderlijk. Een hiërarchisch georganiseerde boomstructuur ontstaat doordat subdoelen ingebed kunnen zijn binnen overkoepelende doelen. Telkens stelt de analist zich de vraag van welk doel er sprake is bij een bepaald tekstgedeelte. De doelen onderhouden relaties met elkaar: een doel gaat vooraf aan een ander doel of het ene doel domineert een ander doel. De doelen worden beschreven met behulp van zogenoemde ‘WAAROM’-labels, en de relaties die tussen de doelen bestaan worden visueel weergegeven door middel van inspringen in de tekst op de verschillende niveaus. De annotatie met ‘WAAROM’-labels | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 283]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
is min of meer vergelijkbaar met het maken van een samenvatting van de tekst, maar geeft vooral de redenen aan waarom een spreker of schrijver dat tekstgedeelte aan de luisteraar of lezer kenbaar wil maken. Een voorbeeld van een analyse volgens deze aanpak van het begin van de voorbeeldtekst staat in Tabel 1. De niveau-aanduidingen geven per segment de kwantificering van de niveaus in de hiërarchische structuur aan.
Tabel 1: Grosz & Sidner analyse van de eerste vijf zinnen van de voorbeeldtekst
Rhetorical Structure Theory komt voort uit het onderzoek naar automatische tekstproductie aan het eind van de jaren '80. Als computationele theorie van tekststructuur geeft RST een expliciete verantwoording van de samenhang in teksten: in RST wordt een ruime hoeveelheid retorische relaties precies beschreven, zoals Evaluatie, Evidentie, Achtergrond, Concessie, Oorzaak, enzovoorts. In de meeste tekstrelaties is sprake van ongelijkwaardigheid van de teksteenheden. De nucleus is het sterkste deel van de ‘tekstbrug’: de informatie in het nucleusgedeelte is onmisbaar. De satelliet ondersteunt weliswaar de ‘tekstbrug’ en voegt informatie toe, maar hij zou weggelaten kunnen worden zonder de samenhang in de tekst teniet te doen. In RST zijn de relaties gedefinieerd in termen van condities op de nucleus, op de satelliet, en op de combinatie van beiden. Per relatie is expliciet beschreven welk effect wordt gesorteerd en waar het effect te lokaliseren is. In Tabel 2 wordt een voorbeeld gegeven van een dergelijke relatiedefinitie, de Evaluatierelatie. | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 284]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
Tabel 2: Definitie van de Evaluatie relatie in termen van RST
Op basis van alle relaties in de tekst ontstaat een hiërarchisch georganiseerde structuur. Figuur 2 laat de volledige analyse zien van de voorbeeldtekst. De nummers onder de horizontale lijnen geven de segmenten aan die samen een tekstgedeelte vormen. De pijlen in de figuur verbinden die delen van de tekst waartussen een retorische relatie bestaat. In de grafische weergaven worden nuclei gerepresenteerd door een verticale lijn boven de teksteenheid; satellieten zijn herkenbaar aan de uitgaande pijl erboven.
Figuur 2: RST-analyse van de voorbeeldtekst
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 285]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
Figuur 2 laat zien hoe de 26 segmenten met elkaar verbonden zijn en maakt daarmee de coherentie van de tekst explicietGa naar eind2. De zinnen 1 tot en met 5 vormen het centrale gedeelte, dit is de belangrijkste informatie uit de tekst; de zinnen 6 tot en met 26 zijn een uitwerking van het centrale deel. De relatie tussen tekstdeel 1-5 enerzijds en tekstdeel 6-26 anderzijds wordt gekarakteriseerd door een Uitbreidingsrelatie. Volgens de definitie betekent dit dat de satelliet additionele details presenteert over de situatie beschreven in de nucleus of over een element van het onderwerp dat in de nucleus is gepresenteerd. Op een niveau lager in de hiërarchie is segment 1 de nucleus van het tekstdeel 1-5, de segmenten 2-5 vormen samen de satelliet. De segmenten in het satellietgedeelte geven de Oorzaak weer van het feit beschreven in segment 1, namelijk dat de passagiers van vlucht 614 de schrik van hun leven kregen. Van het tekstdeel 6-26 vormen de segmenten 6-25 samen de nucleus en segment 26 fungeert daarbij als satelliet. Aan de sequenties in het centrale tekstdeel is te zien dat de gebeurtenissen chronologisch worden beschreven. De laatste zin van de tekst geeft een evaluatie van de hele situatie (zie de relatiedefinitie van Evaluatie zoals beschreven in Tabel 2).
Zoals in Figuur 2 te zien is, maken RST-analyses het mogelijk om van ieder segment aan te geven of het een nucleus of een satelliet is, en er kan vastgesteld worden welke inhoudelijke relatie tussen de segmenten bestaat. Ook kan per segment of per overgang tussen twee segmenten het niveau in de hiërarchie van de tekst bepaald worden. Met het oog op het voorlezen van teksten, waarin sprekers tussen de segmenten pauzeren, is het meer aannemelijk om de overgangen tussen twee aangrenzende segmenten als object van studie te nemen dan de segmenten zelf. Het niveau in de hiërarchie wordt dan uitgedrukt in een score die wordt toegekend aan elke overgang tussen twee aangrenzende segmenten. Die score geeft aan in welke mate de twee aangrenzende segmenten met elkaar verbonden zijn. Zo zijn twee segmenten waartussen op het hoogste niveau van de hiërarchie een grens bestaat veel losser met elkaar verbonden dan twee segmenten waartussen op het laagste niveau van de hiërarchie een grens bestaat. Een probleem dat inherent is aan het kwantificeren van een hiërarchische weergave van een dergelijke tekststructuur, is dat het op verschillende manieren kan gebeuren. De niveaus in de hiërarchische structuur in Figuur 2 kunnen van boven naar beneden geteld worden, van beneden naar boven, of op nog andere manieren. Van boven naar beneden tellen zou betekenen dat de grens tussen segment 5 en 6 de hoogste score krijgt; de grenzen tussen segmenten 1 en 2 en tussen segmenten 25 en 26 een score lager, enzovoorts. Een van de consequenties van het tellen van boven naar beneden is dat de scores afhankelijk zijn van de lengte van het tekstgedeelte waarvan de segmenten deel uitmaken: er is geen inhoudelijke reden om aan te nemen dat de segmenten 21 en 22 sterker met elkaar samenhangen dan de segmenten 4 en 5 (want in beide gevallen gaat het om eindknopen), maar toch krijgt de grens tussen de segmenten 21 en 22 een lagere score dan de grens tussen de segmenten 4 en 5. Het is daarom redelijker om met behulp van een omgekeerde grafische weergave de individuele segmenten uit te lijnen. De weergave uit Figuur 2 komt er met betrekking tot de hiërarchische structuur dan uit te zien zoals de weergave gepresenteerd in Figuur 3. In figuur 3 ontbreekt de informatie over nucleariteit en retorische relaties. | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 286]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
Figuur 3: Omgekeerde weergave van Figuur 2
De mate van verbondenheid van de aangrenzende segmenten wordt nu gekwantificeerd door van beneden naar boven te tellen. De grenzen tussen de segmenten 2 en 3, tussen 4 en 5, tussen 6 en 7, enzovoorts, krijgen op deze manier allemaal dezelfde lage score. Het genoemde probleem wordt daarmee opgelostGa naar eind3. In het onderzoek naar de relatie tussen tekststructuur en prosodie is uiteindelijk de volgende procedure gehanteerd om de mate van verbondenheid tussen de segmentgrenzen te kwantificeren: bepaal voor elke grens de bovenliggende knoop die de twee aangrenzende segmenten met elkaar verbindt, tel het aantal knopen dat daaronder ligt inclusief de bovenliggende knoop zelf en baseer daarop de score per grens. Dit betekent dat de grens tussen segmenten 1 en 2 een score 3 krijgt, de grens tussen segmenten 2 en 3 een score 1, de grens tussen segmenten 3 en 4 een score 3, enzovoorts.
De andere vraag die bij dergelijke tekstanalyses, zowel die van Grosz & Sidner als die van RST, wordt opgeroepen is die van de betrouwbaarheid: analyseren verschillende personen teksten wel op dezelfde manier? Om daar achter te komen is een betrouwbaarheidsonderzoek uitgevoerd (Den Ouden, 2004, hoofdstuk 2). De intuïtieve methode (Swerts, 1997), de methode van Grosz & Sidner (Nakatani et al., 1995) en RST (Mann & Thompson, 1988) zijn in het opzicht van betrouwbaaarheid met elkaar vergeleken. Vier groepen personen pasten elke methode op vier teksten toe. De intuïtieve methode is door een groep van 17 respectievelijk 52 personen toegepast. De twee groepen verschilden hierin dat de eerste groep op voorhand niet beperkt was in het aantal te bepalen alinea-overgangen, terwijl de tweede groep van tevoren te horen had gekregen dat ze per tekst slechts drie of vier alinea-overgangen mochten aangeven. De Grosz & Sidner methode is toegepast door drie mensen die zeer bekend waren met deze methode. RST is toegepast door zes mensen die zeer vertrouwd waren met deze wijze van tekstanalyse. De scores die aan de overgangen tussen segmenten in de hiërarchische structuren waren toegekend zijn binnen de methoden vergeleken: in hoeverre waren de scores voor de overgangen tussen de segmenten van de personen die dezelfde methode toepasten gelijk? Binnen de twee intuïtieve methoden was de overeenstemming tussen de personen die vrij waren geweest om het aantal alinea-overgangen te bepalen lager dan tussen de personen die daarin niet vrij waren geweest. Binnen de twee theoretische methoden was de overeenstemming tussen de personen die volgens de Grosz & Sidner aanpak hadden gewerkt lager | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 287]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
dan tussen de personen die met RST hadden gewerkt. Dat RST als beste uit de bus kwam, is te verklaren door de hoge mate van explicietheid van deze benadering: tekstanalisten kunnen de toegekende relatienamen nauwgezet controleren aan de hand van de inhoudelijk georiënteerde relatiedefinities. In de Grosz & Sidner aanpak zijn de twee mogelijke relaties gerelateerd aan de vorm (nevenschikking en onderschikking) en niet aan de inhoud; tekstanalisten kunnen aan de inhoudelijke labeling, veel sterker dan in RST, hun persoonlijke interpretatie geven.
De uitkomsten van het betrouwbaarheidsonderzoek gaven de doorslag om verder te werken met RST. Bovendien levert RST meer op dan alleen een hiërarchische structuur van een tekst. Het verschaft ook informatie over welke teksteenheden fungeren als nucleus en satelliet en welke relaties tussen de teksteenheden bestaan. Daarmee kan gekeken worden in hoeverre sprekers ook deze aspecten van tekststructuur prosodisch realiseren. De belangrijkste reden om te kiezen voor RST is evenwel dat RST momenteel de meest gebruikte theorie van tekststructuur is op verschillende gebieden van de computationele taalkunde en taaltechnologie. Als analyse-instrument wordt het onder andere gebruikt in vraagen antwoordsystemen (Bosma, 2005a; Bosma, 2005b), waarbij automatisch samenvatten een belangrijke rol speelt (Ono, Sumita & Miike, 1994; Marcu, 1998, 1999, 2000; Alemany & Fort, 2003; Murray, Renals & Carletta, 2005). RST wordt ook gebruikt bij automatisch vertalen (Marcu, Carlson & Watanabe, 2000), in tekst-naar-spraak-synthese (Swerts, 1998; Den Ouden, 2004) en in tekstgeneratie (Rösner & Stede, 1992). Met al deze gebieden is het onderzoek naar tekst-naar- spraaksynthese en de optimalisering van automatische voorleessystemen nauw verweven. Om goed functionerende systemen te maken, zijn de onderzoekers op de verschillende terreinen sterk op elkaar aangewezen. Inhoudelijke aansluiting met betrekking tot de keuze voor een theoretisch analysemodel is in deze situatie meer dan wenselijk. | |||||||||||||||||||||||||||||||||||||||||||||||||||||
4. ProsodieUit eerdere onderzoeken is gebleken dat met name de variatie in pauzeduren tussen tekstsegmenten en toonhoogteparameters van het begin en einde van uitingen voor de markering van tekststructurele aspecten van belang waren, en in enige mate ook spreeksnelheid (Hirschberg & Grosz, 1992; Blaauw, 1995; Hirschberg & Nakatani, 1996; Schilperoord, 1996; Swerts, 1997; Van Donzel, 1999; Wichmann, 2000). Pauzeduren en spreeksnelheid nu zijn parameters die direct uit het gedigitaliseerde spraaksignaal zijn af te lezen. Voor pauzeduur wordt de duur van de stilte gemeten tussen twee spraakuitingen, meestal uitgedrukt in milliseconden. Voor spreeksnelheid wordt het aantal fonemen of syllaben in een spraakuiting geteld per tijdseenheid, bijvoorbeeld per seconde. Een toonhoogtecontour kan benaderd worden met de gegevens van heel veel metingen gedurende de duur van een uiting. Met het oog op tekstprosodie leek het wenselijk om een karakterisering te geven van de hele contour van een uiting, en niet van slechts een gedeelte, zoals het begin of het einde. Het vaststellen van de declinatielijnen van een uiting leek daarom een geschikte manier om de toonhoogte in een enkele maat te kunnen vastleggen. Met declinatielijnen wordt de geleidelijk dalende lijn van een toonhoogtecontour bedoeld, waarbij de toplijn zoveel mogelijk de pieken van de contour bevat en de basislijn zoveel mogelijk de dalen. Een vereiste om declinatielijnen als maat voor toonhoogte te gebruiken | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 288]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
is wel dat ze op een betrouwbare manier vastgesteld moeten kunnen worden. Een protocol om deze metingen uit te voeren is niet voorhanden. Daarom is ook met betrekking tot de toonhoogteparameter een betrouwbaarheidsonderzoek uitgevoerd (Den Ouden, Terken, Van Wijk & Noordman, 2005).
Twee manieren om de toonhoogte van een uiting te meten zijn met elkaar vergeleken, enerzijds de declinatielijnen in de contour ('t Hart et al., 1990), anderzijds een meer gebruikelijke maat voor toonhoogte, namelijk de hoogste piek in de toonhoogtecontour ofwel F0-maximum (Liberman & Pierrehumbert, 1984). Aan vijf fonetici is gevraagd om van veertig zinnen die uit voorgelezen teksten waren gehaald, het F0-maximum en de declinatielijnen te bepalen. Ook zijn de F0-maxima met behulp van een automatische methode gemeten. De overeenstemming tussen de beoordelaars was hoog met betrekking tot het F0-maximum. De correlaties tussen de F0-maxima bepaald door de vijf beoordelaars en gemeten met de automatische methode waren ook hoog. De overeenstemming tussen de beoordelaars was minder hoog voor de declinatielijnen. De correlaties tussen de F0-maxima en de declinatieparameters waren evenwel hoog, wat erop wijst dat de declinatieparameters voor een belangrijk deel worden gevat door het F0-maximum, in elk geval in de voorgelezen, niet-geëmotioneerde uitingen zoals die in dit onderzoek gebruikt zijn. Vanwege de hoge betrouwbaarheid en de hoge correlatie tussen de beoordelaars en de automatische methode, is ervoor gekozen om het F0-maximum te gebruiken als maat voor toonhoogte.
De uitslag van dit betrouwbaarheidsonderzoek gaf reden om in het onderzoek naar de relatie tussen tekststructuur en prosodie het automatisch gemeten F0-maximum als maat voor toonhoogte te gebruiken. Om na te gaan hoe menselijke voorlezers hun prosodie gebruiken om tekststructurele aspecten uit te drukken, worden uiteindelijk dus drie prosodische maten nader bekeken: de duur van pauzes tussen tekstsegmenten, de hoogste toonhoogtepiek van een segment en de spreeksnelheid van een segment. De onderzoeken naar de effecten van globale en lokale tekststructurele aspecten op deze prosodische parameters worden gerapporteerd in Den Ouden (2004, hoofdstuk 5 en 6). | |||||||||||||||||||||||||||||||||||||||||||||||||||||
5. De relatie tussen tekststructuur en prosodieDe automatische voorleessystemen zoals die recentelijk op de markt worden gebracht voor zakenmensen en visueel gehandicapten hebben voornamelijk een informerende functie. De teksten die voorgelezen worden zijn bijvoorbeeld e-mails, sms-berichten, nota's, elektronische documenten, studieboekteksten en krantenberichten. Daarom is een corpus samengesteld dat ook bestaat uit informerende teksten, namelijk twintig lange krantenberichten uit de Volkskrant. De onderwerpen van de teksten waren divers: politiek, sport, ongelukken, criminaliteit en andere maatschappelijke problemen. Sommige formuleringen in de krantenberichten zijn aangepast om de segmentatie van de tekst te vergemakkelijken en om typische prosodische realiseringen te voorkomen. In de meeste gevallen ging het om veranderingen van directe rede naar indirecte rede. De analyse van de teksten is uitgevoerd met behulp van Rhetorical Structure Theory op de manier zoals in paragraaf 3 beschreven. De teksten zijn geanalyseerd door een persoon die veel ervaring had met RST. Deze analyses zijn vervolgens gecontroleerd door een andere persoon | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 289]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
met veel ervaring op het gebied van tekstanalyse. RST maakt zelf geen onderscheid tussen hoofd- en bijzinnen. Het is bijvoorbeeld niet het geval dat van een zinspaar bestaand uit een hoofd- en bijzin de bijzin per definitie de satelliet is, ook al is dat in de praktijk meestal wel het geval. Maar met het oog op de prosodische realisering van de segmenten, en dan met name de duur van de pauze die aan een segment voorafgaat, mogen hoofd- en bijzinnen niet over één kam geschoren worden. Daarom is in alle statistische analyses rekening gehouden met het onderscheid tussen hoofd- en bijzinnen. Op grond van de RST-analyses is per segmentgrens een score toegekend aan het niveau in de hiërarchie volgens de procedure genoemd in paragraaf 3; nuclei en satellieten zijn van elkaar onderscheiden; en alle retorische relaties die vaker dan tien keer voorkwamen zijn geclassificeerd in causale versus niet- causale relaties en in semantische versus pragmatische relaties. Causale en niet-causale relaties zijn van elkaar onderscheiden op basis van de taxonomie van Sanders, Spooren & Noordman (1992); semantische en pragmatische relaties zijn van elkaar onderscheiden op basis van de indeling in ‘subject matter’ en ‘presentational’ relaties van Mann & Thompson (1988).
Iedere tekst is voorgelezen door een moedertaalspreker van het Nederlands. Er waren tien mannelijke en tien vrouwelijke sprekers. De meesten waren werkzaam aan het voormalige Instituut voor Perceptie Onderzoek aan de Technische Universiteit Eindhoven en aan de Faculteit der Letteren van de Universiteit van Tilburg. Het waren allemaal hoog opgeleide mensen waarvan een goed tekstbegrip verwacht mocht worden. De teksten werden in doorlopende vorm aangeboden zonder typografische middelen die informatie over de tekststructuur aangaven. De teksten waren wel voorzien van interpunctie en hoofdletters. De sprekers bereidden de voorleestaak nauwgezet voor. Ze werden geïnstrueerd het nieuwsbericht zo voor te lezen dat een visueel gehandicapte de tekst moeiteloos zou kunnen volgen. Ze werden gestimuleerd om aantekeningen in de tekst te maken die hen behulpzaam zouden zijn tijdens het voorlezen. De zorgvuldige voorbereiding was bedoeld om de aandacht van de voorlezers te richten op de manier waarop de tekst was opgebouwd en hen te helpen de tekst zoveel mogelijk voor te lezen in overeenstemming met de mentale representatie die zij van de tekst maakten. Na de voorbereiding werd de spraak in een geluiddichte cabine opgenomen met behulp van een DAT-recorder. De spraak is gedigitaliseerd met het spraakverwerkingsprogramma GiposGa naar eind4. De drie prosodische maten zijn gemeten: pauzeduren in milliseconden, F0-maxima in hertz en spreeksnelheid in aantal fonemen per seconde. De prosodische gegevens zijn vervolgens gestandaardiseerd per spreker.
De drie tekststructurele aspecten zijn in verband gebracht met de drie prosodische kenmerken. Tabel 3 presenteert voor de hiërarchische niveaus de gemiddelde standaardscores van de pauzeduur, het F0-maximum en de spreeksnelheid. De tien niveaus die in de tekstanalyses voorkwamen zijn samengevoegd tot vijf niveaus. Niveau 1 is het laagste niveau in de hiërarchische structuur, niveau 5 het hoogste. Dit betekent dat een segmentgrens van niveau 1 de scheiding vormt tussen twee opeenvolgende segmenten die heel sterk met elkaar samenhangen, bijvoorbeeld de segmenten 6 en 7 in de voorbeeldtekst; een segmentgrens van niveau 5 vormt de scheiding tussen twee opeenvolgende segmenten die zwak met elkaar samenhangen, bijvoorbeeld de segmenten 5 en 6 in de voorbeeldtekst. De resultaten die in Tabel 3 worden gepresenteerd hebben alleen betrekking op de prosodische realisering van de hoofdzinnen. Dat komt omdat op de hogere niveaus geen of slechts zeer weinig bijzin- | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 290]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
nen voorkwamen. In tegenstelling tot de overige analyses, zijn in deze analyse de bijzinnen ook niet meegenomen. Drie afzonderlijke een-weg variantie-analyses zijn uitgevoerd met hiërarchie als de onafhankelijke factor, en elk van de drie prosodische parameters als afhankelijke factoren.
Tabel 3: Prosodische kenmerken (in standaard scores) van de niveaus van de segmentgrenzen
Er was een effect van hiërarchie op pauzeduur (F(4, 443) = 20.34, p<.001, η2 = .16). De pauzes duren langer naarmate het niveau in de hiërarchie hoger is. Er was ook een effect van hiërarchie op het F0-maximum (F(4, 443) = 4.49, p<.001,η2 = .04). Het patroon voor het F0-maximum is hetzelfde als het patroon voor pauzeduur: de F0-maxima van de segmenten stijgen naarmate het niveau in de hiërarchie van de grens die aan het segment voorafgaat hoger is. Er was geen effect van hiërarchie op spreeksnelheid (F (4, 433) = 1.36, p=.35). Lineaire trends lieten hetzelfde beeld zien. De trends waren significant voor pauzeduur (F(1, 443) = 76.29, p<.001) en het F0-maximum (F(1, 443) = 17.75, p<.001), maar niet voor spreeksnelheid (F<1). In Den Ouden (2004, hoofdstuk 5) zijn verschillende methoden gebruikt om de relatie tussen hiërarchie en prosodie inzichtelijk te maken. De effecten waren niet in de afzonderlijke teksten zichtbaar, daarvoor waren de kenmerken van de individuele sprekers te divers. In Den Ouden & Van Wijk (in voorbereiding) wordt ingegaan op individuele verschillen tussen sprekers met betrekking tot het prosodisch realiseren van tekststructuur. Tabel 4 presenteert voor de nuclei en satellieten de gemiddelde standaardscores van de pauzeduur, het F0-maximum en de spreeksnelheid. Twee-weg variantie analyses zijn uitgevoerd met nucleariteit (twee niveaus: nucleus, satelliet) en syntactische klasse (twee niveaus: hoofdzinnen, bijzinnen) als onafhankelijke variabelen, hiërarchie als covariaat, en de drie prosodische paramaters, een voor een, als afhankelijke variabelen. In tabel 4 worden alleen de gemiddelden voor de hoofdzinnen gepresenteerd; alleen de hoofdeffecten worden gerapporteerd.
Tabel 4: Prosodische kenmerken (in standaard scores) van nucleariteit
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 291]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
Nucleariteit had geen invloed op de duur van de pauze (F<1). De pauzes voorafgaand aan nuclei en satellieten verschilden niet. Nucleariteit beïnvloedde ook de hoogte van de F0-maxima van nuclei en satellieten niet (F<1). Nuclei en satellieten verschilden echter wel in spreeksnelheid (F(1, 527) = 6.76, p<.01,η2 = .01). Het aantal fonemen per seconde was lager bij nuclei dan bij satellieten. Dit betekent dat nuclei langzamer worden gelezen dan satellieten.
In Tabel 5 worden de prosodische kenmerken gepresenteerd van causale versus niet-causale relaties en semantische versus pragmatische relaties. Twee twee-weg variantie analyses zijn uitgevoerd met causaliteit respectievelijk semanticiteit en syntactische klasse als onafhankelijke variabelen, hiërarchie als covariaat, en de drie prosodische paramaters, een voor een, als afhankelijke variabelen. Alleen de gemiddelden voor de hoofdzinnen worden in de tabel gepresenteerd; alleen de hoofdeffecten worden gerapporteerd.
Tabel 5: Prosodische kenmerken (in standaard scores) van causaal versus niet-causaal segmenten en van semantisch versus pragmatisch verbonden segmenten
Pauzes tussen causaal verbonden segmenten duurden korter dan pauzes tussen niet-causaal verbonden segmenten (F(1,495) = 4.54, p<.05, η2 = .01). Causaliteit had geen invloed op toonhoogte (F<1), maar wel op spreeksnelheid (F(1,495) = 4.99, p<.05, η2 = .01). Causaal verbonden segmenten worden sneller voorgelezen dan niet-causaal verbonden segmenten. Semanticaliteit had geen invloed op de duur van pauzes (F(1, 388) = 2.47, p = .12), niet op het F0-maximum (F(1, 388) = 1.82, p = .18), en ook niet op spreeksnelheid (F<1).
Deze resultaten laten zien dat sprekers systematisch variëren met hun prosodie. Het globale aspect van tekststructuur, namelijk het niveau in de hiërarchische structuur, en de lokale aspecten van tekststructuur, namelijk nucleariteit en causaliteit, blijken allemaal prosodisch gemarkeerd te worden, zij het op verschillende manieren. Het niveau in de tekststructuur wordt gemarkeerd door pauzeduur en toonhoogte, in die zin dat pauzes langer duren en de toonhoogte hoger is naarmate segmenten op een hoger niveau in de hiërarchie zitten. Nucleariteit wordt gemarkeerd door spreeksnelheid: segmenten die als nucleus gekarakteriseerd zijn, dat wil zeggen, belangrijker zijn voor de samenhang in de tekst, worden langzamer voorgelezen dan segmenten die als satelliet gekarakteriseerd waren. Causaliteit wordt gemarkeerd door pauzeduur en spreeksnelheid: de pauzes voorafgaand aan causaal gerelateerde segmenten duren korter dan de pauzes voorafgaand aan niet- causaal gerelateerde segmenten, en causaal gerelateerde segmenten worden sneller voorgelezen dan niet-causaal gerelateerde segmenten. Tussen semantisch en pragmatisch gerelateerde segmenten zijn geen verschillen in prosodie gevonden. | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 292]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
Het corpusonderzoek geeft een goede indruk van de prosodische mogelijkheden voor sprekers om globale en lokale structurele aspecten in teksten te markeren. De systematische variatie in de prosodische parameters laat zien dat sprekers zich op enigerlei wijze bewust zijn van de soort structurele hiërarchie waarvan in teksten sprake is en van de retorische onderscheidingen die door RST verondersteld worden. Een van de problemen met corpusonderzoek is dat het natuurlijke tekstmateriaal allerlei eigenschappen bevat die de resultaten mogelijk kunnen hebben beïnvloed. In het geval van het onderzoek naar de prosodische markering van causale en niet-causale relaties, en van semantische en pragmatische relaties zijn er verschillende factoren aan te wijzen die alternatieve verklaringen mogelijk maken, zoals: de segmenten waren verschillend in inhoud en lengte, de tekstrelaties kwamen lexicaal gemarkeerd en ongemarkeerd voor; ze kwamen voor op verschillende plaatsen in de tekst, ze waren rechts- en linksvertakkend, enzovoorts. Om te kunnen bepalen of de verschillen in prosodie louter zijn toe te schrijven aan het feit dat het om verschillende retorische relaties gaat, is een experimenteel onderzoek noodzakelijk. Dat maakt het mogelijk om specifieke hypotheses over de prosodische realisering van deze tekstrelaties te toetsen en maximale controle te hebben over de retorische relaties. Dat is dan ook gedaan voor de beide typen tekstrelaties. Het experiment naar de prosodische realisering van semantische en pragmatische relaties wordt hier kort beschreven. Het experiment naar de prosodische realisering van causale en niet-causale relaties is op vergelijkbare wijze uitgevoerd, maar wordt hier niet gerapporteerd.
Twaalf sets van teksten zijn geconstrueerd waarin identieke targetzinnen voorkwamen die ofwel semantisch ofwel pragmatisch verbonden waren met de voorafgaande zin. Een retorische relatie is semantisch wanneer de samenhang tussen de segmenten in de tekst gebaseerd is op de samenhang tussen de gebeurtenissen in de werkelijkheid die worden beschreven. Een retorische relatie is pragmatisch wanneer de samenhang tussen de segmenten in de tekst gebaseerd is op de illocutionaire betekenis van een van de segmenten, bijvoorbeeld wanneer een spreker of schrijver een conclusie trekt. Het feit dat de targetzinnen identiek moesten zijn hield in dat de tekstrelaties niet gemarkeerd konden worden met bijvoorbeeld connectieven. Normaal gesproken zou dat wel gebeuren. Als markering van een semantisch verbonden zin zou ‘daarom...’ gebruikt worden; een markering van een pragmatisch verbonden zin zou kunnen zijn: ‘ik denk dat....’. Zonder dit soort aanwijzingen over de relatie tussen twee zinnen moest in het experiment geheel uit de context duidelijk kunnen worden om wat voor relatie het ging. De contexten waren dan ook zodanig ontworpen dat zij een semantische of pragmatische interpretatie van de targetzinnen uitlokten. In de semantische conditie werd in de context aangegeven dat de spreker op de hoogte was van het feit dat in de targetzin beschreven werd; in de pragmatische conditie werd aangegeven dat de spreker niet op de hoogte was van het feit dat in de targetzin werd beschreven. Daarom zouden sprekers de targetzin in de semantische conditie uitspreken als een reeds bekend feit, terwijl ze de targetzin in de pragmatische conditie zouden uitspreken als zijnde hun eigen conclusie die ze op grond van een of meerdere observaties trokken. Op basis van een vooronderzoek onder tekstdeskundigen zijn uit een verzameling van geconstrueerde teksten en bijbehorende contexten die teksten en bijbehorende contexten geselecteerd waarin de semantische en pragmatische tekstrelaties inderdaad duidelijk van elkaar te onderscheiden waren. In het kader wordt een voorbeeld gepresenteerd van een context en tekst in de semantische conditie en een context en tekst in de pragmatische conditie. De targetzin in de semantische conditie is | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 293]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
te parafraseren als ‘omdat hij er met zijn gedachten niet bij is’; de targetzin in de pragmatische conditie is te parafraseren als ‘volgens mij is hij er met zijn gedachten niet bij’.
Voorbeeld van een semantisch en een pragmatisch verbonden targetzin
In het experiment lazen vierentwintig sprekers de geselecteerde teksten hardop voor. Alvorens de tekst hardop voor te lezen lazen de sprekers de context en de uit te spreken tekst verschillende malen voor zichzelf door, zodat zij zich bewust zouden worden van de relaties die tussen de zinnen van de tekst bestonden. In het spraakmateriaal werd de pauzeduur voorafgaand aan de targetzin gemeten, de toonhoogtepiek van de targetzin, en de spreeksnelheid van de targetzin. In Tabel 6 worden de prosodische kenmerken gepresenteerd van de semantisch en pragmatisch verbonden targetzinnen. F1- en F2-analyses met herhaalde metingen zijn uitgevoerd met de retorische relatie als onafhankelijke variabele (twee niveaus: semantisch, pragmatisch). De sprekers waren de random variabele in de F1-analyse, de targetzinnen in de F2-analyse. De volgorde van de teksten was opgenomen als tussengroepsfactor (twee niveaus: tekst 1-24, tekst 24-1). Omdat in geen van de analyses de volgorde van de teksten een factor van betekenis was worden hierover geen resultaten gerapporteerd.
Tabel 6: (Ruwe) prosodische kenmerken van semantisch versus pragmatisch verbonden segmenten
Noot: ★★ p<.01; ★★★ p<.001
De pauzes voorafgaand aan de targetzinnen duurden in de pragmatische conditie gemiddeld 97 milliseconden langer dan de pauzes voorafgaand aan de targetzinnen in de semantische conditie (F1(1,23) = 29.96, p<.001, η2 = .57; F2(1,11) = 25.40, p<.001, η2 = .70). De F0-maxima van de pragmatisch verbonden targetzinnen waren gemiddeld 10 hertz hoger dan die | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 294]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
van de semantisch verbonden targetzinnen (F1(1, 23) = 17.98, p<.001, η2 = .44; F2 (1, 11) = 7.76, p<.05, η2 = .41). Spreeksnelheid werd niet beïnvloed door de retorische relatie (F1<1; F2<1). De sprekers bleken de pragmatisch verbonden zinnen dus uit te spreken met langere voorafgaande pauzes en een hogere toonhoogte dan de semantisch verbonden zinnen. Het corpusonderzoek maakte het mogelijk om te ontdekken wat de relevante verschijnselen waren voor tekstprosodie, in dit geval wat relevante tekststructuurkenmerken waren. Hoewel in de literatuur wel suggesties zijn gedaan met betrekking tot een eventueel verschillend intonatiepatroon voor semantische en pragmatische relaties (Sweetser, 1990), kwam een dergelijk verschil uit het corpusonderzoek niet naar voren. Met het experiment kon echter ingezoomd worden op een veel specifiekere vraag dan die aan het corpus gesteld kon worden, en het toonde daarmee wel prosodische verschillen tussen semantisch en pragmatisch verbonden zinnen aan. Juist de combinatie van corpus gebaseerd onderzoek en experimenteel onderzoek heeft hier een vruchtbaar resultaat opgeleverd.
Uit deze studies blijkt dat sprekers met hun prosodie zowel globale als lokale aspecten van tekststructuur aangeven. Sprekers onderscheiden verschillende niveaus in de globale hiërarchische structuren van teksten: pauzeduren vóór segmenten duren langer en toonhoogtepieken van segmenten zijn hoger naarmate de verbinding met het voorafgaande segment minder sterk is. Op lokaal niveau worden nuclei sneller voorgelezen dan satellieten; tussen causaal verbonden segmenten zijn de pauzes korter dan tussen niet-causaal verbonden segmenten, en het tweede segment van het causaal verbonden paar wordt sneller gelezen dan het tweede segment van het niet-causaal verbonden paar; tussen pragmatisch verbonden segmenten zijn de pauzes langer dan tussen semantisch verbonden segmenten, en het tweede segment van het pragmatisch verbonden paar heeft een hogere toonhoogtepiek dan het tweede segment van het semantisch verbonden paar. De systematische prosodische variatie op de verschillende fronten van het tekststructurele spectrum kan vanuit een verwerkingsperspectief verklaard worden. De voorlezers in de beschreven onderzoeken waren primair lezers. De voorleestaak dwong de sprekers ertoe de tekst vooraf grondig te bestuderen. De sprekers werden, zeker in het geval van het voorlezen van de nieuwsberichten, expliciet aangemoedigd aandacht te besteden aan de structuur van de tekst. Vanuit een verwerkingsperspectief wordt precies in het voorlezen hun mentale representatie van de tekst gereflecteerd. Volgens deze zienswijze maakt de prosodische realisering van tekststructurele noties zoals hiërarchie, nucleariteit en retorische relaties de psychologische realiteit en relevantie ervan aannemelijk. Juist omdat lezers in de gaten hebben dat bepaalde segmenten meer of minder sterk met elkaar samenhangen realiseren ze hun pauzes en toonhoogtepieken dienovereenkomstig; juist omdat ze zien dat nucleaire segmenten belangrijkere informatie bevatten dan satellieten lezen ze deze langzamer; juist omdat ze twee causaal verbonden segmenten meer als een eenheid beschouwen dan twee niet-causaal verbonden segmenten, realiseren ze kortere pauzes en een hogere spreeksnelheid; en juist omdat ze beseffen dat tekstschrijvers met pragmatisch verbonden tekstelementen hun verhaallijn van gebeurtenissen onderbreken, verlengen ze hun pauzes en realiseren ze een hogere toonhoogtepiek in de volgende zin. | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 295]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
6. Implicaties voor het automatisch voorlezen van tekstenDe prosodische signalen van tekststructuur zoals die uit het corpusonderzoek en het experimentele onderzoek naar voren zijn gekomen ontbreken nagenoeg in de huidige tekst-naar-spraaksystemen. De meeste systemen markeren alleen alineagrenzen die in de geschreven tekst zijn aangegeven met witregels of inspringen. De pauze tussen de zin aan het eind van de ene alinea en de zin aan het begin van de volgende alinea wordt verlengd ten opzichte van de pauzes tussen de zinnen binnen de alinea, en soms worden nog wat aanpassingen gedaan aan de toonhoogteparameters van de eerste en laatste zin van de alinea. De bevindingen uit de studies van Den Ouden (2004) wijzen erop dat meer geavanceerde aanpassingen nodig zijn om de tekst-naar-spraaksystemen net zo natuurlijk te laten klinken als menselijke voorlezers. De prosodische gegevens uit de onderzoeken maken dit soort aanpassingen ook mogelijk. Met deze gegevens kan namelijk berekend worden hoe de prosodische parameters ingesteld moeten worden voor de verschillende niveaus van de hiërarchische structuur van de tekst en voor de lokale aspecten van tekststructuur. Met behulp van lineaire regressieanalyses op de prosodische data van de sprekers die aan de studies hebben deelgenomen kunnen schattingen worden gemaakt. Omdat zowel mannen als vrouwen aan de onderzoeken participeerden, kunnen voor zowel mannelijke als vrouwelijke stemmen de prosodische parameters met betrekking tot tekststructuur worden geïmplementeerd. In Den Ouden (2004, hoofdstuk 7) worden deze precieze schattingen gegeven. In principe is implementatie dus mogelijk. Er zijn echter een aantal problemen die opgelost moeten worden voordat deze aanpassingen aan tekst-naar-spraaksystemen kunnen worden gedaan. Het belangrijkste probleem is dat de teksten die bedoeld zijn om kunstmatig voor te lezen voorzien zouden moeten zijn van een tekststructuurannotatie. Een dergelijk geannoteerd corpus bestaat sinds kort wel voor het Engels (Carlson, Marcu & Okurowski, 2003), maar nog niet voor het Nederlands. Een tweede probleem duikt tegelijk hiermee op: in het Engelse corpus is de tekststructuurannotatie volgens RST op automatische wijze, met behulp van machine learning technieken, toegekend. Die automatische toekenning roept uiteraard vragen van inhoudelijke aard op, vooral met betrekking tot de kwaliteit van de tekstanalyses die gegenereerd worden. Toch is automatische toekenning noodzakelijk. Het is te arbeidsintensief om van grote hoeveelheden teksten handmatig tekstanalyses te maken. De beschikking voor het Nederlands over een geannoteerd corpus van teksten op het gebied van globale en lokale aspecten van tekststructuur zou een zeer grote vooruitgang betekenen voor de taal- en spraaktechnologie. Daarmee is het mogelijk om de prosodie van deze teksten op de beschreven wijze te implementeren. Maar ook kunnen belangrijke vorderingen worden verwacht op de terreinen van automatisch samenvatten, automatisch vertalen, tekstgeneratie en vraag- antwoordsystemen. | |||||||||||||||||||||||||||||||||||||||||||||||||||||
7. SlotDe besproken studies hebben alleen betrekking gehad op de akoestische analyses van het spraakmateriaal. Niet onderzocht is of de luisteraars van de voorgelezen teksten de prosodische variatie ook waarnemen. Een mogelijk alternatieve verklaring voor de systematische variatie van de prosodie van sprekers van voorgelezen teksten zou kunnen zijn dat sprekers | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 296]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
hun prosodie systematisch variëren om het luisteren naar de teksten te vergemakkelijken en het begrip ervan te verhogen. Om na te gaan of sprekers het met hun tekstprosodie inderdaad luisteraars gemakkelijker maken om langere teksten te verwerken, zou gekeken moeten worden of de prosodische aanpassingen die worden voorgesteld ook worden waargenomen en als verbeteringen beschouwd. Die twee vragen blijven dan ook over. Worden prosodische aanpassingen voor tekststructurele aspecten waargenomen? Deze vraag zou beantwoord kunnen worden door middel van een serie perceptie-experimenten waarin verschillende typen retorische relaties prosodisch worden gemanipuleerd. Er kan dan gekeken worden of luisteraars de retorische relaties op grond van de prosodische signalen sneller kunnen herkennen. Bijvoorbeeld, in de aanbieding van causaal- en niet-causaal verbonden zinsdelen zou gevarieerd kunnen worden met de lengte van pauzes tussen de zinsdelen en de spreeksnelheid van de zinsdelen (Den Ouden & Mak, in voorbereiding). Worden prosodische aanpassingen voor tekststructurele aspecten ook als verbeteringen beschouwd? Deze vraag zou beantwoord kunnen worden door een tekst in verschillende condities aan te bieden aan groepen luisteraars. Bijvoorbeeld een voorgelezen versie waarin geen prosodische variatie is aangebracht, vrijwel gelijkend op de teksten die door de huidige systemen worden voorgelezen, en een voorgelezen versie waarin de prosodische parameters zijn ingesteld conform de gegevens zoals afgeleid van de menselijke voorlezers uit de besproken onderzoeken. Er kan dan gekeken worden of luisteraars de tekst met de geavanceerde aanpassingen natuurlijker vinden overkomen, en mogelijk zelfs of ze zo'n tekst ook gemakkelijker verwerken en meer begrijpelijk vinden.
Met deze onderzoeken heb ik willen laten zien dat menselijke sprekers globale en lokale aspecten van tekststructuur met hun prosodie markeren, en dat de implementatie van deze, naar menselijke voorlezers gemodelleerde, tekstprosodie in automatische voorleessystemen waarschijnlijk een verbetering zal zijn voor de natuurlijkheid van de voor te lezen teksten. | |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 297]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
Bibliografie
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 298]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|