Tabu. Jaargang 37
(2008)– [tijdschrift] Tabu– Auteursrechtelijk beschermd
[pagina 59]
| |||||||||||||||
‘Emergence of the unmarked’
| |||||||||||||||
2. Discrepanties tussen akoestisch signaal en waarneming2.1. Cue constraintsIn perceptie-experimenten van Johnson, Flemming & Wright (1993) en Frieda, Walley, Flege & Sloane (2000) geven participanten andere, extremere waardes aan als prototypisch voor de /i/ dan de waardes in hun eigen gerealiseerde versies van de vocaal. | |||||||||||||||
[pagina 60]
| |||||||||||||||
Boersma (2006) verklaart de resultaten uit dit /i/-experiment met de introductie van een bidirectioneel OT-model voor productie en perceptie. Essentieel in Boersma's verklaring zijn de zogenaamde ‘cue constraints’. De cue constraints hebben betrekking op de ideale vorm van opgeslagen patronen en kunnen zowel de productie als de perceptie beïnvloeden. Cue constraints zijn negatief geformuleerde constraints van het type ‘een F1 van 340 Hz is geen /a/’. De constraints zijn negatief geformuleerd om bij de evaluatie per constraint de zoekruimte naar de optimale kandidaat te kunnen verkleinen. Ook Valkenier & Gilbers (2008) laten zien dat er verschillen kunnen zijn tussen de mentale representatie en de realisatie van een klank. Juist de cue constraints spelen een grote rol met betrekking tot mentale representaties/ prototypes van klanken. Het prototype is opgeslagen als de meest harmonische vorm die gevonden wordt bij de rangschikking van de cue constraints. Het prototype voldoet optimaal aan de set van cue constraints. Dat geldt niet alleen voor fonemen als de ideale /i/, maar ook voor grotere domeinen in de vocaalruimte. Zo maakt /i/ samen met /ɪ/ en /y/ deel uit van de groep hoge voorvocalen en ook daar kan met behulp van cue constraints worden aangegeven wat de ideale hoge voorvocaal is. | |||||||||||||||
2.2 Perceptie van complete vocalenIn Figuur 1 zien we een OT-analyse van de interpretatie van een volledig gespecificeerde [y] als /y/. De verwerking is volledig gebaseerd op informatie in het akoestische signaal. Horizontaal staan de cue constraints weergegeven. Daarbij staan de duidelijkst aanwezige aanwijzingen in het signaal meer naar links en de minder duidelijke meer naar rechts in de rangschikking weergegeven. Figuur 1. input [y]
| |||||||||||||||
[pagina 61]
| |||||||||||||||
De meest robuuste eigenschappen in het akoestische signaal van vocalen zijn de fundamentele frequentie (F0) en de duur. De toonhoogte draagt niet bij tot de identificatie van de vocaalkwaliteit, maar duur wel: korte vocalen hebben in het algemeen een tijdsduur van tussen de 50 (sjwa) en 100 msec en lange vocalen zijn meestal twee maal zo lang als korte.Ga naar eind1. De duuraanwijzing van de inputvocaal van 90 msec. in Figuur 1 sluit dan klanken als /a/, /e/ en /ø/ uit voor de waarneming. De constraints met betrekking tot lage frequenties domineren de constraints met betrekking tot hogere frequenties in Figuur 1. Een argument hiervoor is de robuustheid van lage frequenties in het totale signaal. De F1 van 300 Hz is een aanwijzing voor de perceptie van een hoge vocaal: de lage vocaal /a/ heeft immers een F1 van rond de 800 Hz; midvocalen zoals /e/ en /ɛ/ rond de 400 Hz. De volgorde */u/ > */i/ > */y/ wordt in navolging van Boersma (2006, 2007) als volgt gemotiveerd: [u], als voorbeeld van een achtervocaal, heeft een F2 van rond de 800 Hz; [i] heeft een F2 van rond de 2200 Hz en [y] een F2 van rond de 1700 Hz. De in Figuur 1 gerangschikte negatief geformuleerde cue constraints geven daarom bij een input van rond 1700 Hz (hier: 1730 Hz) aan dat het onwaarschijnlijk is dat een F2 van 1700 Hz als /i/ (met een prototypische F2 van 2200 Hz) wordt waargenomen, zoals het nog onwaarschijnlijker is dat een F2 van 1700 Hz als /u/ (met een prototypische F2 van 800 Hz) wordt waargenomen. De analyse in Figuur 1 geeft aan dat /y/ de beste interpretatie is van het volledig gespecificeerde signaal [y]. Als het akoestische signaal voldoende informatie geeft voor de identificatie van de klank, is de evaluatie van lager gerangschikte constraints overbodig. | |||||||||||||||
2.3 Perceptie van incomplete vocalenIn het experiment van Valkenier & Gilbers kregen luisteraars naast een volledig gespecificeerd akoestisch signaal van vocalen ook verarmd geluid te horen. In deze ondergespecificeerde vocalen ontbrak de tweede formant (experimentele setting). In beide gevallen ([i] en [y]) had dit de interpretatie /i/ als de optimale interpretatie tot gevolg. De vraag is nu hoe we verklaren dat de luisteraar bij het aanbod van [y] waarbij F2 informatie is ‘weggefilterd’ tot de perceptie van een prototypische /i/ komt. Een toegevoegde F2 van 2200 Hz zou de sensatie van een /i/ moeten hebben gegeven en een lagere F2-waarde, 1700 Hz, die van /y/. In Figuur 2 is de input een gemanipuleerde vocaal [y]. We hebben de tweede formant uit het signaal gefilterd. De informatie die de luisteraar wel krijgt is dat het signaal frequentiepieken kent rond 300 Hz en 2200 Hz. Net als in Figuur 1 sluiten we lage en midvocalen uit op basis van de aangeboden F1 van 305 Hz. Blijven over de hoge vocalen. Aan de negatief geformuleerde cue constraint met betrekking tot een input met een tweede frequentiepiek van rond de 1700 Hz wordt ‘vacuously’ voldaan, omdat er geen frequentiepiek van 1700 Hz in het aangeboden signaal zit. | |||||||||||||||
[pagina 62]
| |||||||||||||||
De frequentiepiek in het aangeboden signaal van 2208 Hz lijkt het minst op de prototypische tweede frequentiepiek van [u] (800 Hz) en meer op die van [i] (2200 Hz) dan op die van [y] (1700 Hz), vandaar de volgorde */u/ (F2=2200 Hz) > */y/ (F2=2200 Hz) > */i/ (F2=2200 Hz). Een mogelijke en zelfs voor de hand liggende verklaring voor de interpretatie van een ondergespecificeerde [y] als /i/ zou dus kunnen zijn dat de oorspronkelijke F3 van [y] als F2 van [i] wordt waargenomen met als resultaat de waarneming /i/. Figuur 2. input gefilterde [y] met F3 geïnterpreteerd als F2
In Valkenier & Gilbers (2008) gaan we echter in op de nadelen van deze analyse. Ten eerste, gaat de substitutie-analyse minder goed op voor de interpretatie van een ondergespecificeerde [ø] dan voor de interpretatie van een ondergespecificeerde [y]. De [ø] heeft een F3 van 2260 Hz en de [e] heeft een F2 van 2017 Hz. Dit verschil is zo groot dat het minder aannemelijk is dat de F3 van [ø] wordt geïnterpreteerd als F2 van [e]. Een tweede probleem voor een analyse zoals voorgesteld in Figuur 2 betreft de interpretatie van een ondergespecificeerde [i]. Figuur 3 laat zien dat de OT-analyse geen uitsluitsel biedt voor welke hoge vocaal bij het aanbod van een ondergespecificeerde [i] wordt waargenomen. De cue constraints voor F2 werken nu niet, omdat de tweede frequentiepiek (2766 Hz) in het aangeboden signaal geen cue biedt voor een F2-waarneming (2208 Hz). Toch wordt de gemanipuleerde [i] als /i/ waargenomen. Ook al lijkt het gemanipuleerde signaal minder op /i/ dan bijvoorbeeld het gemanipuleerde signaal van [y] zoals weergegeven in Figuur 2. Substitutie van de F2 met de F3-waarde in het signaal kan in het geval van de interpretatie van een ondergespecificeerde [i] dus geen verklaring bieden voor de waarneming als /i/. | |||||||||||||||
[pagina 63]
| |||||||||||||||
Figuur 3. input gefilterde [i], interpretatie van F3 als F2 lijkt niet logisch
Ito et al (2001) betogen dat het hele spectrum van belang is voor de perceptie. Ook als de F2 onderdrukt wordt biedt het akoestische signaal genoeg informatie om de vocaal correct waar te nemen. Dit biedt een mogelijke verklaring voor de identificatie van de gefilterde [i] als /i/. De analyse van Ito et al voorspelt dan echter ook dat de gefilterde [ø] als /ø/ wordt waargenomen, terwijl Valkenier & Gilbers laten zien dat de gefilterde [ø] vaker als /e/ wordt waargenomen. Het hele spectrum is dus niet van doorslaggevende invloed op de waarneming. We moeten concluderen dat het akoestische signaal niet genoeg aanwijzingen (cues) geeft om de optimale interpretatie te bewerkstelligen. De kandidaten /i/ en /y/ komen uit de evaluatie in Figuur 3 beide als mogelijke waarneming naar voren. Wat zorgt er nu voor dat de ongemarkeerde vorm in dergelijke gevallen zich bij de luisteraar opdringt? | |||||||||||||||
2.4 Emergence of the unmarkedEen van de voordelen van de output-gerichte OT ten opzichte van een fonologische UG-theorie die uitgaat van principes en parameters is volgens McCarthy & Prince (1994) the emergence of the unmarked: als twee kandidaten gelijkwaardig worden geëvalueerd op basis van alle hoog gerangschikte constraints, wordt de ongemarkeerde variant gekozen op basis van de invloed van laag gerangschikte constraints. Dit kan geïllustreerd worden aan de hand van een voorbeeld uit het Nederlands. De Nederlandse fonotaxis staat woorden toe als aap. Het Nederlands staat onsetloze lettergrepen toe en verbiedt coda's niet. De parametersetting voor lettergreepstructuur van deze taal zal er dan uitzien als in (1). | |||||||||||||||
[pagina 64]
| |||||||||||||||
Gegeven deze parametersetting kan de syllabificatie van een woord als dada zowel da $ da als dad $ a zijn. Er is geen principiële reden om een voorkeur voor één van beide kanidaten te hebben op basis van de parametersetting (cf. Prince and Smolensky, 1993, ch.6). In een beschrijving van de Nederlandse syllabestructuur in OT daarentegen moeten de relevante universele constraints ONS en *CODA laag gerangschikt worden, omdat ze gegeven de Nederlandse fonotaxis schendbaar zijn. Ondanks de lage rangschikking is de invloed van deze constraints wel degelijk nog van invloed op de kandidaatkeuze. Als de twee kandidaat-outputs da $ da en dad $ a gelijk scoren op alle dominante constraints, wordt de keuze bepaald op basis van de laag gerangschikte constraints ONS en *CODA, zoals aangegeven in Figuur 4. Figuur 4. OT-tableau syllabification dada:
De ongemarkeerde structuur komt als optimaal naar voren als een vorm van default-syllabificatie: the emergence of the unmarked. In de volgende subparagraaf zullen we zien hoe dit fenomeen zich ook voordoet bij de verwerking van incomplete akoestische signalen. | |||||||||||||||
2.5 Emergence of the unmarked bij de verwerking van incomplete vocalenValkenier en Gilbers geven argumenten voor de identificatie van /i/ als prototypische hoge voorvocaal en /e/ als prototypische midvoorvocaal op basis van frequentiegegevens (Luyckx et al, 2007). De functionele verklaring voor de frequentieverschillen wordt gezocht in het maximaal contrast tussen ongeronde voorvocalen en geronde achtervocalen in het systeem (argument Flemming, 2004, 2006). De verschillen in frequentie geven aan dat de luisteraar vaker wordt blootgesteld aan ongeronde dan aan geronde voorvocalen. Daardoor nemen ze een sterkere activatie van /i/ aan dan van /y/ in het gebied van de hoge voorvocalen. Hier vatten we deze argumenten samen in de constraint Activatiesterkte, die weergeeft dat | |||||||||||||||
[pagina 65]
| |||||||||||||||
/i/ harmonischer is dan /y/ in het relevante gebied van hoge voorvocalen. In Figuur 5 is de input een signaal met twee frequentiepieken. In het relevante hoge vocaalgebied sluiten we een waargenomen /u/ uit op basis van de tweede frequentiepiek. In het aangeboden signaal ligt de tweede frequentiepiek rond 2208 Hz, terwijl de prototypische [u] juist een erg lage F2 heeft (rond 800 Hz). Voor de luisteraar blijven nu /i/ en /y/ als mogelijke kandidaten over. Activatiesterkte geeft aan dat in het gebied van de hoge vocalen /i/ sterker geactiveerd wordt dan /y/ en dat daarom /y/ als kandidaat afvalt. Figuur 5. input gefilterde [y]
Dat de gemanipuleerde [y] toch ook in een aantal gevallen als /y/ wordt waargenomen, kunnen we verklaren met behulp van het Gradual Learning Algoritme (Boersma & Hayes, 2001). Daarin is het mogelijk om een lichte mate van overlap tussen de laagst gerangschikte constraints in Figuur 5 aan te nemen. Figuur 6 laat het resultaat zien voor de waarneming van een gefilterde [e] als /e/ en Figuur 7 de waarneming van een gefilterde [ø] als /e/. | |||||||||||||||
[pagina 66]
| |||||||||||||||
Figuur 6. input gefilterde [e]
Figuur 7. input gefilterde [ø]
| |||||||||||||||
3. ConclusieDe waarneming van de luisteraar wordt beïnvloed door verschillen in representatiesterkte tussen de fonemen van een taal. De hoge voorvocaal /i/ is mentaal sterker gerepresenteerd dan de hoge voorvocaal /y/. Dit verschil wordt gebaseerd op frequentiegegevens: [i] wordt vaker aangeboden dan [y] (Luyckx et al, 2007). Het verschil in activatiesterkte van de verschillende klanken speelt een belangrijke rol in de verwerking van het akoestische signaal. Als de akoestische eigenschappen van het signaal te weinig aanwijzingen geven voor het uitsluiten van alle concurrent- | |||||||||||||||
[pagina 67]
| |||||||||||||||
kandidaten, treden de ongemarkeerde vormen naar voren omdat de activatiesterkte van deze vormen de verwerking van het akoestische signaal modificeert: emergence of the unmarked. Boersma (2006, 2007) presenteert een bi-directioneel OT-model waarin met behulp van cue constraints de samenzwering van akoestisch eigenschappen en de activatiesterkte van klanken in de verwerking van spraak kan worden weergegeven. | |||||||||||||||
Bibliografie
| |||||||||||||||
[pagina 68]
| |||||||||||||||
|
|