Forum der Letteren. Jaargang 1974
(1974)– [tijdschrift] Forum der Letteren– Auteursrechtelijk beschermd
[pagina 73]
| ||||||||||||||||||||||||||||
Eksperimentele bijdragen aan de fonologieGa naar voetnoot*
| ||||||||||||||||||||||||||||
InleidingDe tak van de taalkunde die fonologie genoemd wordt is gericht op de beschrijving en verklaring van systematische eigenschappen van de klanksystemen van de talen in de wereld. Klassieke vragen waar de fonologie antwoorden op probeert te formuleren zijn de volgende:
Deze en soortgelijke vragen kunnen gesteld worden voor iedere specifieke taal, maar ook voor taal in het algemeen. Ze hebben direct | ||||||||||||||||||||||||||||
[pagina 74]
| ||||||||||||||||||||||||||||
te maken met de algemenere vraag naar de wijze waarop het taalvermogen in de menselijke geest is georganiseerd, en met de leerprocessen die kinderen in staat stellen uit het chaotisch taalaanbod in hun omgeving een adekwate interne representatie van hun moedertaal op te bouwen. De primaire observaties, het basismateriaal, waar de fonologie van uit gaat om te komen tot een beschrïjving van de klankstruktuur van de talen van de wereld is veelal van intuïtief-impressionistische aard: De belangrijkste hulpdiscipline van de fonologie is de deskriptieve, intuïtief-impressionistische fonetiek, die we ook wel ogen-en-oren fonetiek noemen. Deze maakt het mogelijk snel en redelijk nauwkeurig belangrijke aspekten van de klankvormen van talen op schrift weer te geven. Zonder het grote belang van de ogen-en-oren fonetiek te willen onderschatten meen ik toch dat het realistisch is in te zien dat dit type fonetiek beperkingen heeft die een beantwoording van de klassieke vragen van de fonologie in de weg kunnen staan. Er zijn belangrijke eigenschappen van de klankstruktuur van de talen van de wereld die zich onttrekken aan intuïtief-impressionistische observaties. Bovendien is een fonetische of fonologische transkriptie lastig interpreteerbaar in termen van werkelijke spraakklanken voor een ander dan degene die hem heeft opgesteld, zeker voor iemand die de taal in kwestie niet kent. Verder worden door de intuïtief-impressionistische benadering ernstige beperkingen opgelegd aan de mogelijkheden om bepaalde fonologische verschijnselen te verklaren uit systematische eigenschappen van de menselijke spraakvorming en spraakperceptie. Om deze redenen vraag ik aandacht voor een andere, een eksperimenteel-fonetische, benadering van de fonologie. Deze kan een belangrijke aanvulling geven op de traditioneel-fonetische benadering, zowel in fonologische beschrijvingen als in de ontwikkeling van de algemene fonologische theorie. Ik wil proberen aan de hand van een aantal voorbeelden te laten zien hoe de eksperimentele fonetiek zou kunnen bijdragen tot het formuleren van antwoorden op klassieke vragen van de fonologie. Daartoe onderscheid ik drie funkties die de fonetiek, en ook de eksperimentele fonetiek, ten opzichte van de fonologie kan vervullen. Deze funkties noem ik (a) observatie, (b) interpretatie en (c) verklaring en voorspelling. In fig. 1 is een eerste schematische indruk gegeven hoe deze drie funkties van de fonetiek zich tot de fonologie verhouden. Voordat ik konkrete voorbeelden zal geven van deze funkties van de | ||||||||||||||||||||||||||||
[pagina 75]
| ||||||||||||||||||||||||||||
fonetiek wil ik ze eerst iets nader uitwerken door ze een plaats te geven ten opzichte van één bepaalde fonologische theorie, de generatieve fonologie van Chomsky en anderen. De voornaamste reden om juist deze theorie te kiezen is dat deze een theoretisch kader biedt waarbinnen meer abstrakte, fonologische, en meer konkrete, fonetische, weergaven van klankvormen met elkaar in verband gebracht worden. Fig. 1. Schematische aanduiding van enkele relaties tussen fonetiek en fonologie.
Onder observatie versta ik hier het verzamelen van empirische gegevens, die, voorafgaande aan de theorievorming, de nieuwsgierigheid opwekken, om een systematische beschrijving en een verklaring vragen, en Waartegen, wanneer eenmaal beschrijvingen en verklarende theorieën zijn opgesteld, deze getest worden. De verzameling observaties vormt als het ware het grensvlak tussen de theorie en het domein van werkelijkheid dat door die theorie bestreken wordt. In de generatieve fonologie van het moment wordt de verzameling empirische gegevens beperkt tot wat een goed getrainde, niet-naïeve, impressionistische fonetikus zich bewust kan maken van het klankaspekt van taal (Chomsky en Halle 1968, p. 25). Soms wordt wel lippendienst bewezen aan eksperimentele resultaten (vgl. Chomsky en Halle 1968, hoofdstuk 7), maar er wordt nergens in de beschrijving of de theorie serieus rekening mee gehouden. Dit leidt tot een nogal drastische, onnodige, en mijns inziens schadelijke inperking van de empirie. Ik hoop aannemelijk te kunnen maken dat de fonologie sommige van z'n doelstellingen beter kan dienen wanneer ook eksperimenteel-fonetische gegevens serieus genomen worden. | ||||||||||||||||||||||||||||
[pagina 76]
| ||||||||||||||||||||||||||||
Met de term interpretatie sluit ik aan bij de struktuur van de generatief-fonologische beschrijving. Daarin wordt een abstrakte, minimaal gespecificeerde, fonologische weergave van klankvormen omgezet in een meer konkrete, volledig gespecificeerde, fonetische weergave van klankvormen: In de fonologische komponent van de grammatika krijgen de abstrakte fonologische strukturen, via een verzameling expliciete (mor)-fonologische regels, een fonetische interpretatie. Deze regels opereren op kenmerken van fonemen. De kenmerken (bv. gerond, achter, nasaal) definiëren klassen van fonemen op het abstrakte, fonologische niveau, en staan voor fysisch interpreteerbare aspekten van de spraakvorming op het meer konkrete fonetische niveau. Hoewel in de fonologische theorie nogal wat aandacht aan de fonetische interpretatie wordt gegeven, valt het op dat in de praktijk van de fonologische beschrijvingen de fonetische interpretatie zelden of nooit serieus genomen wordt. Er zijn vrijwel geen fonologische beschrijvingen die dóórberegelen tot een volledig gespecificeerde fonetische weergave. Dit vloeit voort uit de omstandigheid dat de gegevens waartegen de beschrijving getest wordt beperkt zijn tot intuïtief-impressionistische observaties. Naarmate we dichter naderen tot een ‘volledige’ fonetische interpretatie wordt de fonetische gedetailleerdheid groter en laat de intuïtie ons al gauw in de steek. In feite laat de generatief-fonologische theorie een veel grotere gedetailleerdheid toe dan we aantreffen in de verzameling observaties die met behulp van de theorie beschreven worden. Doordat fonologische beschrijvingen in de praktijk zelden het laagste, fonetische, niveau bereiken, zijn ze niet formeel testbaar anders dan tegen informele, intuïtieve observaties, waarvan het niet duidelijk is met welk niveau in de beschrijving ze korresponderen. Fonologische beschrijvingen zouden aan testbaarheid winnen wanneer ze het probleem van de fonetische interpretatie wél serieus zouden nemen. Dat kan door de beschrijving uitspraken te laten doen die getest kunnen worden tegen eksperimenteel-fonetische observaties. Daartoe zou de struktuur van de beschrijving zodanig gewijzigd kunnen worden dat er artikulatorische bewegingspatronen en/of akoestische spraaksignalen uit kunnen worden afgeleid. Voorstellen in deze richting zijn gedaan door o.a. Öhman, Persson en Leanderson (1967), Ladefoged (1971), Tatham en Morton (1969), Fant (1971). Konkrete en min of meer volledige voorbeelden van zulke fonologische beschrijvingen worden gevormd door systemen voor automatische spraaksynthese, die een | ||||||||||||||||||||||||||||
[pagina 77]
| ||||||||||||||||||||||||||||
abstrakte, symbolische weergave van de klankvormen, in termen van fonemen, omzetten in waarneembare spraak.
Een belangrijke opgave aan de fonologie is om verklaringen te zoeken voor systematische eigenschappen van de klanksystemen van de talen van de wereld, en vanuit een theorie, deze eigenschappen te voorspellen. In de generatief-fonologische beschrijving is de rol van de fonetiek strikt interpretatief en kan daarom niet bijdragen tot een verklaring van fonologische strukturen. De verklaringen moeten voortkomen uit de vorm van de algemene fonologische theorie. De wijze waarop dat tot nog toe gebeurt is abstrakt en formeel, en laat geen ruimte voor meer konkrete fonetische beschouwingen. De gegeven verklaringen bestaan uit een serie formele konventies die deels absolute beperkingen opleggen aan de kombineerbaarheid van kenmerken en deels ‘strafpunten’ (voor alles wat ‘gemarkeerd’ is) opleggen aan iedere kombinatie die in strijd is met de verwachtingen van Chomsky en Halle. Wat in overeenstemming is met die verwachtingen wordt ‘ongemarkeerd’ genoemd, wat er mee in strijd is ‘gemarkeerd’. Een systeem of een vorm is komplekser naarmate het meer markeringen telt (Chomsky en Halle 1968, pp. 400 evv.). De verwachtingen van Chomsky en Halle, of, als men wil, van de verzamelde fonologen, lijken wel een smalle basis om een fonologische theorie op te bouwen. De door Chomsky en Halle gevolgde denkwijze is een direkt uitvloeisel uit de fonologische traditie, teruggaand op de Saussure, waarin men de linguïstische vorm op alle manieren laat prevaleren boven de fonetische werkelijkheid. De studie van de ‘competence’ moet voorafgaan aan de studie van de ‘performance’ (vgl. bv. Chomsky 1968). Dit heeft er toe geleid dat de rol van de fonetiek in het fonologisch model strikt interpretatief is gebleven en er geen plaats is voor een verklarende funktie van de fonetiek. Er is wel een ‘linguïstische basis van de fonetiek’, maar geen ‘fonetische basis van de linguïstiek’ (vgl. Lindblom 1972). Zonder te ontkennen dat deze linguïstische stellingname een belangrijke stimulerende rol heeft gespeeld in de ontwikkeling van zowel de strukturalistische als de transformationeel-generatieve taalkunde, zou men er toch een open oog voor kunnen houden dat er veel fonologische regelmatigheden zijn die hun oorzaak vinden in de fonetische randvoorwaarden opgelegd aan menselijke taal. Taal is bestemd om gebruikt te worden, en het mag ons niet verbazen dat er eigenschappen van taal | ||||||||||||||||||||||||||||
[pagina 78]
| ||||||||||||||||||||||||||||
zijn die verklaard kunnen worden uit eigenschappen van de menselijke spraakproduktie en -perceptie. Voorzover dit juist is kunnen we spreken over de ‘fonetische basis van de linguïstiek’. Het is dan ook een volstrekt legitieme en voor de fonologie zeer relevante bezigheid om modellen op te stellen van spraakproduktie en -perceptie waaruit fonologische eigenschappen van taal en talen verklaard en voorspeld kunnen worden. Dit standpunt is op indringende wijze verdedigd door de Zweedse fonetikus-linguïst Björn Lindblom (1972). Ook in recente artikelen van generatieve fonologen, met name van de Amerikaanse westkust, zien we een groeiend verlangen naar een steviger fonetische basis van de fonologische theorievorming (bv. Cairns 1969, Ohala 1971a, 1971b, 1972, Fromkin 1970, Chen 1973a, 1973b). Ik wil nu proberen de verschillende funkties van de eksperimentele fonetiek ten opzichte van de fonologie toe te lichten met een paar voorbeelden. | ||||||||||||||||||||||||||||
ObservatieHet volgende voorbeeld van eksperimenteel-fonetische observatie is, naar ik meen, aantoonbaar van belang voor fonologische beschouwingen. Het voorbeeld betreft het verschil tussen stemhebbende en stemloze plofklanken, in dit geval /d/ en /t/ in intervokalische positie. Fig. 2 geeft 4 spektrogrammen. In ieder spektrogram staat langs de vertikale as de frekwentie, langs de horizontale as de tijd, en de zwarting is een maat voor de akoestische energie. Het spektrogram linksboven is van het woord Eden (/edǝ/), dat rechtsboven van het woord eten (/etǝ/). In beide spektrogrammen is er in het midden een periode dat er praktisch over het hele spektrum geen energie aanwezig is. Deze periode korrespondeert met de tijd dat de mond door de artikulatie van de medeklinker gesloten is. Bij de /d/ van Eden is er echter nog een zwarte balk te zien onder in het spektrum die bij de /t/ van eten ontbreekt. Deze zwarte balk is het akoestisch resultaat van de stembandtrilling. Dus de /d/ is hier echt stemhebbend, de /t/ echt stemloos. Er zijn echter andere verschillen tussen beide spektrogrammen. De klinker vóór /t/ is aanmerkelijk korter dan de klinker voor /d/, en de akoestische periode die overeenstemt met de mondsluiting is bij /t/ aanmerkelijk langer dan bij /d/. Er is kortom een aanzienlijke mate van reorganisatie van de temporele struktuur van het woord wanneer we een stemloze /t/ vervangen door een stemhebbende /d/. | ||||||||||||||||||||||||||||
[pagina 79]
| ||||||||||||||||||||||||||||
Om na te gaan in hoeverre de perceptie van het /t/-/d/-verschil afhankelijk is van de aanwezigheid of afwezigheid van stembandtrilling in de gesloten periode, is met een elektronische poort het akoestisch
Fig. 2. Vier spektrogrammen. Horizontaal: Tijd in sekonden. Vertikaal: Frekwentie in kilohertz (1 kilohertz = 1000 trillingen per sekonde). Boven: Normaal gesproken versies van /edǝ/ en /etǝ/. Het pijltje in IIet spektrogram van /edǝ/ verwijst naar het akoestisch korrelaat van de stembandtrilling. Onder: Verminkte versies van /edǝ/, links alleen de stembandtrilling onhoorbaar gemaakt, rechts de stembandtrilling plus het laatste deel van de /e/ onhoorbaar gemaakt. Deze laatste versie klinkt als /etǝ/.
korrelaat van de stembandtrilling in de gesloten periode van het woord /edǝ/ verwijderd. Dit is te zien op het spektogram linksonder. Als we daarnaar luisteren blijkt dat we nog steeds duidelijk /edǝ/ horen. Dit verminkte /edǝ/ is zelfs nauwelijks of niet van het origineel te onderscheiden. Kennelijk zijn er andere akoestische gegevens die voor het | ||||||||||||||||||||||||||||
[pagina 80]
| ||||||||||||||||||||||||||||
perceptieve onderscheid verantwoordelijk zijn. Het spektrogram rechtsonder geeft weer een verminkte versie van het zelfde woord /edǝ/. Nu is echter niet alleen de akoestische ‘stem’ weggehaald, maar ook het laatste stuk van de /e/ zodanig dat de temporele struktuur van het woord zoveel mogelijk gelijk wordt aan die van /etǝ/. Als we deze versie beluisteren horen we onmiskenbaar /etǝ/. Voor een luisterexperiment is de grens tussen /e/ en stille periode in stappen van 10 milliseconden naar voren geschoven, zodat het omslagpunt (de foneemgrens) tussen /t/ en /d/ bepaald kon worden. De resultaten, gemiddeld over 7 luisteraars én voor 2 geselekteerde luisteraars zijn weergegeven in fig. 3. Fig. 3. Percentages oordelen /edǝ/ en /etǝ/ als funktie van de duur van de stille periode (De duur van de klinker /e/ wordt evenveel korter als de duur van de stille periode langer wordt). Ononderbroken lijn: Gemiddelde responskurve voor zeven luisteraars. Onderbroken lijnen: Responskurven voor twee geselekteerde luisteraars.
Het blijkt dat voor individuele luisteraars een totale omslag van /d/ naar /t/ bereikt kan worden door een geringe wijziging van de temporele struktuur. Een verschil van slechts 20 milliseconden in de positie van de grens tussen klinker en pauze kan voldoende zijn. Eenzelfde experiment werd in 1957 beschreven door Lisker voor de Amerikaanse woorden ruby en rupee (vgl. ook Slis en Cohen 1969). Het verschil in temporele struktuur tussen /etǝ/ en /edǝ/ onttrekt zich aan de intuïtief-impressionistische waarneming, maar blijkt wel | ||||||||||||||||||||||||||||
[pagina 81]
| ||||||||||||||||||||||||||||
een belangrijke perceptieve bijdrage te leveren aan het onderscheid tussen stemhebbende en stemloze plofklanken in intervokalische positie. Kennelijk maakt de fijne temporele organisatie van spraak deel uit van de impliciete kennis die taalgebruikers hebben over het klankaspekt van taal en passen zij deze kennis toe in de perceptie van spraak. Een observatie als deze kan bijdragen tot de verklaring van bepaalde historische klankveranderingen. Wanneer een artikulatorisch en akoestisch verschil in temporele struktuur dat waarschijnlijk een fysiologische oorzaak heeft (Slis en Cohen 1969), kan bijdragen tot de perceptie van het fonologische verschil stemhebbend/stemloos, dan lijkt het niet onmogelijk dat dit temporele verschil in de geschiedenis van een taal overdreven kan worden, het oorspronkelijk verschil in stem vervangen, en zelf fonologische status krijgen. Dit lijkt gebeurd te zijn in het Engels, waar het verschil in klinkerduur het voornaamste perceptieve verschil lijkt te zijn tussen woorden als beat en bead (House 1961, Delattre 1962, Raphael 1972). Uitgebreider onderzoek heeft laten zien dat er tenminste 8 akoestische korrelaten zijn van het verschil tussen stemhebbende en stemloze plofklanken (fig. 4). Van de meeste van deze is ook aangetoond dat zeFig. 4. Akoestische korrelaten van het onderscheid stemhebbend/ stemloos voor intervokalische plofklanken (naar Slis en Cohen 1969).
| ||||||||||||||||||||||||||||
[pagina 82]
| ||||||||||||||||||||||||||||
perceptief effekt hebben (Slis en Cohen 1969). Eén van die verschillen is de toonhoogte in de volgende klinker: bij stemhebbende plof klanken is die laag, bij stemloze hoog. Dit kan geheel verklaard worden uit het fysiologisch effekt van de toestand van de stembanden in de medeklinker op de toestand van de stembanden in de volgende klinker (Slis en Cohen 1969, Halle en Stevens 1971, Fromkin 1972, Ewan 1973). Dat dit verschil kan bijdragen tot het perceptieve onderscheid stemhebbend/stemloos is eksperimenteel aangetoond door Haggard, Ambler en Callow (1970). Dit houdt in dat ook dit verschil behoort tot het geheel aan impliciete kennis dat taalgebruikers hebben over het klankaspekt van taal, en in principe vatbaar is voor overdrijving door de sprekers van een taal, en zo zou kunnen leiden tot historische klankveranderingen. Op grond van deze redenatie kunnen we voorspellen dat er klankveranderingen zijn waarin de oppositie tussen stemhebbende en stemloze plofklanken vervangen wordt door een oppositie tussen een lage en een hoge toon in de volgende klinker. En inderdaad heeft in het Midden-Chinees de volgende klankverandering plaats gevonden: ph → pV (V is vokaal met hoge toon) Deze voorbeelden van eksperimenteel-fonetische observaties met fonologische implikaties zijn met vele andere aan te vullen. Zij kunnen hier echter volstaan om aannemelijk te maken dat de eksperimentele fonetiek kan bijdragen tot een verbreding van de empirische basis van de fonologie. | ||||||||||||||||||||||||||||
InterpretatieVolgens Chomsky (1967) moet een fonetische transkriptie alle informatie geven die nodig is om te weten hoe de betreffende vormen voortgebracht moeten worden, en tegelijkertijd korrespon deren met een verfijnd niveau van perceptieve representatie. Laten we deze eis nu eens serieus nemen, en zien of we daar iets van kunnen leren. In fig. 5 heb ik schematisch weergegeven hoe methodisch onderzocht zou kunnen worden of de uitgang van een fonologische beschrijving inderdaad artikulatorisch en perceptief interpreteerbaar is. Eén mogelijk- | ||||||||||||||||||||||||||||
[pagina 83]
| ||||||||||||||||||||||||||||
heid is om de fonetische transkriptie, die het resultaat is van het toepassen van de (mor) fonologische regels, te gebruiken als invoer voor een systeem voor automatische spraaksynthese volgens regels. Wanneer we vooral geïnteresseerd zijn in een artikulatorische interpretatie moet dit spraaksynthese-systeem een model van de menselijke spraakproduktie bevatten. Zo'n model genereert voor iedere invoer een artikulatorisch
Fig. 5. Stroomdiagram van mogelijke manieren om de uitgang van een fonologische beschrijving te voorzien van een akoestische interpretatie
bewegingspatroon. Uit dit artikulatorisch bewegingspatroon kan dan weer een specifikatie van het bijbehorend akoestisch signaal worden afgeleid. Een spraaksynthese-systeem dat volgens dit idee is opgebouwd is onder andere ontwikkeld op de Bell Laboratoria (Flanagan, Coker, Rabiner, Schaefer, Umeda 1970). Als we vooral geïnteresseerd zijn in een auditief-perceptieve interpretatie, is het ook mogelijk direkt, zonder tussenkomst van een spraakproduktiemodel, een specifikatie van het akoestisch signaal af te leiden uit de fonetische transkriptie. Deze specifikatie moet dan in principe overeenkomen met een perceptief optimale akoestische realisatie. Op verschillende plaatsen in de wereld zijn zulke systemen voor spraaksynthese door regels ontwikkeld (o.a. Mattingly 1971, Klatt 1971, Slis | ||||||||||||||||||||||||||||
[pagina 84]
| ||||||||||||||||||||||||||||
1971, Nooteboom, Slis en Willems 1973). De verzameling regels van zo'n systeem kan opgevat worden als een beschrijving van de relatie tussen een abstrakte fonologische weergave van zinnen of woordgroepen aan de ene kant en de perceptief relevante eigenschappen van het akoestisch signaal aan de andere kant. De regels voor spraaksynthese zijn kompleks. Het is niet zo dat de abstrakte fonologische kenmerken van fonemen (gerond, nasaal, achter etc.) één op één korresponderen met akoestische eigenschappen van spraak, zoals nog verondersteld werd door Jakobson, Fant en Halle (1952). Vooral het werk van Cooper e.a. van de Haskins Laboratoria heeft laten zien dat de perceptief werkzame akoestische korrelaten van de kenmerken sterk kontekst-afhankelijk zijn en dat akoestische gegevens voor aangrenzende fonemen tegelijk in het spraaksignaal aanwezig kunnen zijn, kunnen overlappen in de tijd. Met name de waarneming van plaats van artikulatie van prevokalische konsonanten is afhankelijk van spektrale veranderingen (formantbuigingen) in het begin van de klinker. Voor een zelfde konsonant kunnen deze formantbuigingen sterk verschillen, afhankelijk van de volgende klinker (fig. 6). Dit heeft geleidFig. 6. Handgetekende spektrogrammen die, wanneer ze hoorbaar gemaakt worden, klinken als /di/ en /du/. Het deel van het signaal dat leidt tot de /d/-gewaarwording is sterk kontekst-afhankelijk (naar Liberman e.a. 1967).
tot de aanname dat spraak wordt waargenomen in termen van de artikulatiebewegingen die nodig zijn om spraak voort te brengen (‘Motor theory of speech perception’, voor een overzicht van het betreffende Haskins-werk, zie Liberman e.a. 1967). Er zijn talloze andere voorbeelden van de kompleksiteit van de regels voor akoestische interpretatie van fonologische strukturen. De eerder beschreven reorganisatie van de temporele struktuur die gepaard gaat met het onderscheid stemhebbend/ stemloos is daar één van. Automatische spraaksynthese is van onmiddellijk belang voor het | ||||||||||||||||||||||||||||
[pagina 85]
| ||||||||||||||||||||||||||||
testen van bepaalde aspekten van fonologische beschrijvingen. Ik wil daarvan een voorbeeld geven, ontleend aan het Nederlands. In fonologische beschrijvingen van het Nederlands vinden we dat er in intervokalische konsonantgroepen, bestaande uit frikatief of plofklank plus plofklank, regressieve assimilatie van stem plaats vindt. Volgens deze regel wordt het woord afdak gerealiseerd als [avdak]. Dit is één van de ‘feiten’ die de fonoloog in zijn regelsysteem wil verantwoorden (Mey 1968, Hubers en Kooij 1972, Mey 1972). Het feit zelf is het resultaat van intuïtief-impressionistische waarneming. In een spraaksynthese-systeem wordt het resultaat van de toepassing van zulke regels hoorbaar gemaakt. Wanneer de waarneming van de fonologen korrekt is, moet dit leiden tot een perceptief bevredigend resultaat (aangenomen dat de akoestische realisatie verder op de juiste wijze plaats vindt). In fig. 7 zijn 4 spektrogrammen weergegeven van 4 realisaties van het woord afdak. Het bovenste spektrogram geeft een gesynthetiseerde versie mét toepassing van de regel voor regressieve assimilatie. Deze versie is perceptief zeer onbevredigend, doet ‘onnederlands’ aan. Het tweede spektrogram is eveneens van een gesynthetiseerde versie, nu zónder toepassing van de assimilatieregel. Perceptief is deze versie heel bevredigend. Op deze wijze wordt de onderzoeker er, door het gebruik van een spraaksynthese-systeem, op geattendeerd dat er iets mis kan zijn met de betreffende regel. Natuurlijk moet deze indruk weer getest worden aan wat er in echte spraak gebeurt, omdat het altijd mogelijk is dat er iets mis is met de akoestische realisering, en niet met de fonologische regel. Maar in veel gevallen, en ook in dit geval, werkt het spraaksynthesesysteem als een vergrootglas waarmee men gebreken in de beschrijving kan opsporen. Het derde spektrogram laat zien wat er aan de hand is in een normale, door een mens gesproken versie van het woord afdak. Het is goed te zien dat de stem ontbreekt in de fricatief en pas weer inzet tijdens de sluiting van de plofklank. Het vierde, onderste, spektrogram tenslotte is van een gesproken versie waarbij opzettelijk, met extra inspanning, volledige assimilatie van stem is gerealiseerd. Deze versie is, evenals de eerste gesynthetiseerde versie, perceptief onbevredigend. Deze waarnemingen worden overigens gesteund door oudere metingen van Fischer-Jørgensen (1952), die vond dat, wanneer in het Nederlands de woordklemtoon voorafgaat aan de konsonantgroep, de assimilatie van stem steeds ontbreekt. Het werken aan spraaksynthese door regels richt de aandacht niet | ||||||||||||||||||||||||||||
[pagina 86]
| ||||||||||||||||||||||||||||
Fig. 7. Vier spektrogrammen van het woord afdak.
Van boven naar onderen: Gesynthetiseerde versie met toepassing van assimilatie van stem, gesynthetiseerd zonder assimilatie van stem, gesproken zonder assimilatie van stem, gesproken met assimilatie van stem. In het bovenste en het onderste spektogram is in de fricatief de stem op twee manieren zichtbaar, t.w. als een zwarte balk onder in het spektrum, en als vertikale lijntjes die korresponderen met individuele stembandklappen. Deze twee versies van afdak zijn perceptief onbevredigend. | ||||||||||||||||||||||||||||
[pagina 87]
| ||||||||||||||||||||||||||||
alleen op mogelijke onjuistheden in fonologische regels, maar ook op eigenschappen van spraak die in de fonologie vaak buiten beschouwing worden gelaten. Bijvoorbeeld een generatief-fonologische beschrijving à la Chomsky en Halle beperkt zich tot de zogenaamde ‘segmentele’ fonologie. Suprasegmentele verschijnselen zoals intonatie en temporele organisatie worden buiten beschouwing gelaten. Dit kan alleen doordat zo'n beschrijving geheel op papier bedreven wordt. Wanneer men de fonetische interpretatie serieus neemt, en vanuit een fonologische beschrijving echt klinkende spraak wil genereren, kan men er niet aan ontkomen om ook voor de prosodie van spraak, voor de intonatie en de temporele organisatie, perceptief bevredigende regels te zoeken. Onderzoek aan de intonatie van het Nederlands heeft geleid tot een ‘intonatie-grammatika’ waarmee in principe perceptief bevredigende realisaties van alle Nederlandse intonatiepatronen gegenereerd kunnen worden (Cohen en 't Hart 1967, Collier 1972, 't Hart en Cohen 1973). De elementen van de grammatika worden gevormd door een aantal (ca 10) elementaire toonbewegingen (stijgingen en dalingen met gedefiniëerde positie in de syllabe), waarvoor bepaalde volgorde-regels gelden (er mogen bijvoorbeeld geen 2 stijgingen op elkaar volgen zonder tussenliggende daling). Hoewel de toonhoogtekontoeren die door deze intonatieregels gegenereerd worden sterk gestileerd zijn, zijn ze perceptief equivalent met reële, door mensen voortgebrachte toonhoogtekontoeren. Dat wil zeggen dat de gestileerde kontoeren herkenbaar zijn als korrekte Nederlandse intonatiepatronen, en geïdentificeerd kunnen worden met intonatiepatronen in gesproken zinnen (Collier en 't Hart 1972). Twee voorbeelden van zulke gestileerde toonhoogtekontoeren zijn gegeven in fig. 8, allebei voor de zin:Fig. 8. Twee gestileerde toonhoogtekontoeren voor dezelfde zin.
| ||||||||||||||||||||||||||||
[pagina 88]
| ||||||||||||||||||||||||||||
Bij een neutrale realisatie, zonder kontrastaksenten, krijgt deze zin 3 toonhoogteaksenten, t.w. één aksent verlenende stijging op -teit (gevolgd door een niet aksent verlenende daling), één aksent verlenende stijging op jaar-, en een aksent verlenende daling op di-. Deze stijgingen en dalingen vinden plaats ten opzichte van een langzaam aflopende toonhoogte, de deklinatie. Wanneer we in deze zin de eerste toonhoogte naar voren halen en op de syllabe Leid- plaatsen, ontstaan een kontrastaksent op het woord Leidse. Dit is weergegeven in de onderste toonhoogtekontoer in fig. 9. In deze situatie krijgt het woord universiteit geen toonhoogteaksent, en wordt als het ware door de spreker bekend verondersteld. Het heeft geen ‘nieuwwaarde’. Het is tot nu toe niet mogelijk gebleken de korrekte posities voor toonhoogteaksenten te voorspellen zonder daarbij syntaktische en semantische informatie over de zin te betrekken. Fig. 9. Interaktie van een aantal faktoren die invloed hebben op de akoestische duren van klinkers en medeklinkers in verbonden spraak.
Zo goed als de toonhoogtekontoeren moeten ook de prosodische temporele strukturen van spraak beregeld worden in een adekwate fonetische interpretatie. Het werken aan spraaksynthese door regels heeft in de laatste jaren geleid tot het inzicht dat de temporele struktuur van spraak aan strikte regels voldoet, en dat deze regels niet genegeerd kunnen worden als men wil komen tot een perceptief bevredigende akoestische representatie van taaluitingen. | ||||||||||||||||||||||||||||
[pagina 89]
| ||||||||||||||||||||||||||||
Er zijn een groot aantal faktoren, op verschillende niveaus, die invloed uitoefenen op de duren van spraakklanken. Fig. 9 geeft een indruk van een mogelijke organisatie van een verzameling regels voor het beschrijven en genereren van de temporele eigenschappen van spraakuitingen. Perceptief relevante duren van klinker- en medeklinker-achtige delen van het spraaksignaal zijn afhankelijk van de inherente eigenschappen van de spraakklanken zelf, van de interne struktuur van de syllaben, maar ook van klemtonen, morfeemgrenzen, woordgrenzen en woordgroepgrenzen (Barnwell 1971, Klatt 1972, Lindblom en Rapp 1973, Oller 1973, Coker en Umeda 1973, Nooteboom 1972, 1973). Ook de posities van pauzes in spraak zijn perceptief belangrijk, en hangen af van de syntaktische struktuur van de zinnen (Klatt 1972, Butcher 1973). Evenals intonatiepatronen zijn de prosodische temporele patronen herkenbaar. Men kan zich dit bewust maken door een woordgroep neuriënd of fluitend ritmisch te imiteren. Ook wanneer men dit monotoon doet is er een duidelijke temporele struktuur, die afhankelijk is van aantal syllaben, posities van de woordklemtonen, en posities van linguïstische grenzen. In zulke imitaties, evenals in volledige spraak, zijn syllaben met woordklemtoon gekenmerkt door een langere duur van vokaal en voorafgaande konsonant, en woordgrenzen vooral door rekking van de voorafgaande syllabe. De studie van intonatiepatronen en temporele patronen van spraak laat zien dat veel aspekten van de syntaktische en semantische struktuur gereflekteerd worden in de akoestische spraaksignalen. Dat houdt in dat fonologische beschrijvingen die fonetisch interpreteerbaar willen zijn informatie over de syntactische en semantische struktuur moeten bewaren. | ||||||||||||||||||||||||||||
Verklaring en voorspellingEerder heb ik al een paar voorbeelden gegeven van eksperimenteel-fonetische observaties die van belang zijn voor de verklaring en voorspelling van fonologische verschijnselen. Ik wil nu een paar voorbeelden geven van spraakproduktie en -perceptiemodellen waaruit sommige universele eigenschappen van fonologische systemen verklaard en voorspeld kunnen worden. Het eerste voorbeeld is ontleend aan Lindblom (1972). Als we de vokaalsystemen van een groot aantal talen in de wereld bekijken, dan zien we dat er een vrij nauwe relatie bestaat tussen het aantal vokalen | ||||||||||||||||||||||||||||
[pagina 90]
| ||||||||||||||||||||||||||||
in een vokaalsysteem en de posities die de vokalen ten opzichte van elkaar innemen in een 2-dimensionale vokaalruimte. Wanneer bijvoorbeeld een taal 3 vokalen heeft, dan is het zeer waarschijnlijk dat deze in de buurt zullen liggen van /a/, /i/ en /u/; en niet overeenkomen zullen komen met /i/, /e/, /y/. Gegeven deze waarneming lijkt het mogelijk om, wanneer we weten hoeveel vokaalfonemen een taal heeft, kwantitatieve voorspellingen te doen over de verdeling van de vokalen over de vokaalruimte. Om dit te doen hebben we twee dingen nodig. Ten eerste een artikulatorisch model van vokaalproduktie, waaruit de grenzen van de mogelijke akoestische vokaalruimte kunnen worden afgeleid. Ten tweede een model dat voorspelt hoe de verdeling van de vokalen over de gegeven akoestische ruimte zal zijn. Zo'n artikulatorisch model is opgesteld door Lindblom en Sundberg (1971). In het model kunnen de standen van de lippen, onderkaak, tongpunt, tongblad en strottehoofd gevariëerd worden, in overeenstemming met hun fysiologische mogelijkheden. Voor iedere mogelijke arti-Fig. 10. Relatie tussen een fysiologisch model van vokaalproduktie en akoestische attributen. Uit een artikulatorische konfiguratie wordt de dwarsdoorsnede-funktie van het spraakkanaal afgeleid. Daaruit wordt de akoestische overdrachtsfunktie van het spraakkanaal berekend, met de frequentiewaarden van de formanten.
kulatorische konfiguratie wordt automatisch de bijbehorende vorm van het spraakkanaal uitgerekend in termen van het verloop van de oppervlakte van de dwarsdoorsnede van het spraakkanaal over de hele lengte van het spraakkanaal. Deze dwarsdoorsnede-funktie bevat voldoende informatie om de akoestische overdrachtsfunktie van het spraakkanaal, | ||||||||||||||||||||||||||||
[pagina 91]
| ||||||||||||||||||||||||||||
de resonantie-eigenschappen, uit te rekenen. Zo kunnen voor iedere artikulatorische konfiguratie de frekwentiewaarden van de formanten worden bepaald (vgl. fig. 10). Door nu de waarde van de eerste formant uit te zetten tegen de waarde van de tweede formant definiëren we een tweedimensionale ruimte. De vokalen die voortgebracht kunnen worden door het vokaalproduktiemodel beslaan een deel van deze ruimte. Dit deel kunnen we definiëren als de beschikbare akoestische vokaalruimte (fig. 11). Het tweede model is ontwikkeld door Liljencrantz en Lindblom (1972). De assen van de akoestische ruimte worden zodanig gekozen datFig. 11. Tweedimensionale vokaalruimte, gedefinieerd door de frekwentiewaarden van de eerste en tweede formant. Alle vokalen die voortgebracht kunnen worden door het Lindblom-Sundbergmodel liggen in het gearceerde gedeelte.
een gelijke afstand in de vokaalruimte korrespondeert met een gelijk verschil in klinkerkleur voor de perceptie. Voor ieder gegeven aantal vokalen wordt nu uitgerekend hoe deze zo gelijkmatig mogelijk over de beschikbare ruimte verdeeld kunnen worden. In het model gedragen de vokalen zich als het ware als elkaar afstotende beweeglijke magneten in een begrensde ruimte. Op deze wijze kunnen voorspellingen gedaan worden over de organisatie van de vokaalsystemen van de talen van de wereld. Het model simuleert het principe van maximaal perceptief kontrast dat opereert in de historische ontwikkeling van vokaalsystemen. Het voorspelt bijvoorbeeld dat, wanneer een taal een gering aantal vokalen heeft, zeg 5, de voorvokalen ongerond en de achtervokalen gerond zullen zijn (voor een andere toepassing van het artikulatorisch model van Lindblom en Sundberg, waarin het principe van artikulatorische gemakzucht wordt expliciet gemaakt, zie Lindblom 1972).
De volgende voorbeelden van beperkingen opgelegd aan fonologische systemen door fonetische randvoorwaarden van taal zijn van Stevens (1972). Eén van de dimensies waarin de konsonanten van een taal | ||||||||||||||||||||||||||||
[pagina 92]
| ||||||||||||||||||||||||||||
kunnen verschillen is wijze van artikulatie. Deze dimensie heeft te maken met de oppervlakte van de nauwste konstriktie in het spraakkanaal. Deze oppervlakte is het grootst bij open en half open vokalen, en is nul bij de plosieven, zoals /t/ en /d/. Daartussen is er een kontinuüm van mogelijke oppervlaktes van deze nauwste konstriktie. Stevens heeft nu aan een model van het spraakkanaal bekeken wat er gebeurt in het akoestisch signaal wanneer we de oppervlakte van dit kontinuüm variëren (fig. 12). Fig. 12. Schematische voorstelling van het spraakkanaal, met de graad van opening als variabele (Naar Stevens 1973).
Uitgaande van de wijdste konstriktie is er eerst een gebied waarin de lucht ongehinderd door de mond naar buiten stroomt. Dit gebied korrespondeert met open en half open vokalen. Dan is er een vrij plotselinge overgang naar een gebied waarin er akoestisch interaktie ontstaat tussen het trillen van de stembanden en het supraglottale systeem. Dat gebied korrespondeert met gesloten vokalen zoals /i/ en /u/, halfvokalen zoals /w/ en /j/ en nasalen. In dit gebied valt de eerste formant tot onder de 300 Hz (voor een volwassen man) en kan reguliere stembandtrilling alleen gehandhaafd worden door een aanpassing in de wijze van trillen van de stembanden. Binnen dit gebied is de eerste formant relatief ongevoelig voor veranderingen in de graad van konstriktie. Wanneer de konstriktie nog kleiner gemaakt wordt treedt weer een abrupte verandering op in het akoestisch signaal. Er komen dan hoorbare wervelingen als gevolg van de versnelling van de luchtstroom in de konstriktie. In de buurt van de graad van konstriktie waarvoor deze ruisvorming maksimaal is, is er een gebied van konstrikties waarbinnen de fysische karakteristieken van de ruis betrekkelijk onafhankelijk zijn van de graad van konstriktie. Als we het gebied van konstrikties waarbinnen ruisvorming optreedt weer verlaten door de konstriktie nog kleiner te maken krijgen we weer een diskontinuïteit, nu naar volledige sluiting zodat geen lucht meer kan ontsnappen. De berekeningen van Stevens (1972, 1973) leren dat, wanneer we een | ||||||||||||||||||||||||||||
[pagina 93]
| ||||||||||||||||||||||||||||
artikulatorische parameter geleidelijk veranderen, we geen geleidelijke overgang in een akoestische parameter hoeven te krijgen. Als we bijvoorbeeld de artikulatorische parameter graad van konstriktie uitzetten tegen de akoestische parameter ‘mate van ruis’ krijgen we een verband van het type zoals aangegeven in fig. 13. Er zijn op de as van de artikula-
Fig. 13. Schematische voorstelling van het verband tussen artikulatorische en een akoestische parameter. Op het ‘plateau’ III is het akoestisch (en perceptief) resultaat relatief ongevoelig voor artikulatorische onnauwkeurigheden (Naar Stevens 1972).
torische parameter twee gebieden (I) waarin de akoestische eigenschap helemaal niet aanwezig is. Dan zijn er twee gebieden (II) waarin een kleine artikulatorische verandering een groot akoestisch (en perceptief) gevolg heeft, en tenslotte is er een soort plateau (III) waarop een artikulatorische verandering weinig of geen invloed heeft op de akoesti- Fig. 14. Universele klassen van spraakklanken die korresponderen met ‘plateaus’ in de relatie tussen graad van mondopening en het akoestisch signaal.
| ||||||||||||||||||||||||||||
[pagina 94]
| ||||||||||||||||||||||||||||
sche eigenschap. Het ligt voor de hand dat de fonologie van talen gebruik maakt van dergelijke plateaus, omdat daar de behoefte aan artikulatorische precisie, nodig om een gegeven perceptief resultaat te bereiken, minimaal is. Stevens heeft op deze wijze van uit de akoestische eigenschappen van spraakproduktie een verklaring gegeven voor het feit dat het aantal wijzen van artikulatie dat in de fonologie onderscheiden moet worden klein is en vast ligt (fig. 14). Een ander artikulatorisch kontinuüm waarvan iedere indeling in diskrete gebieden op het eerste gezicht willekeurig lijkt, is dat van plaats van artikulatie. In termen van een akoestisch model van het spraakkanaal kan deze artikulatorische parameter beschreven worden als de positie van de nauwste konstriktie op de lengteas van het spraakkanaal (fig. 15). Als we nu zo'n model frikatieve ruis laten voortbrengen, enFig. 15. Schematische voorstelling van het spraakkanaal met de plaats van artikulatie als variabele (Naar Stevens 1973).
we verschuiven geleidelijk de plaats van artikulatie, dan treden er duidelijk meetbare en hoorbare diskontinuïteiten op in de gevormde ruis bij bepaalde artikulatieplaatsen. Dat wil zeggen dat in deze gebieden op de dimensie van plaats van artikulatie een kleine artikulatorische verandering een groot akoestisch en perceptief gevolg heeft, en er een zeer grote artikulatorische precisie nodig zou zijn om een relatief konstant perceptief resultaat te bereiken. In de gebieden daaromheen heeft daarentegen een betrekkelijk groot artikulatorisch verschil weinig perceptief effekt. Het mag duidelijk zijn dat deze laatste gebieden zich veel beter lenen om gebruikt te worden in kommunikatie door middel van spraak dan de eerste. De akoestische eigenschappen van het spraakkanaal delen als het ware voorafgaand aan ieder taalsysteem het kontinuüm van artikulatieplaatsen op in diskrete gebieden met betrekkelijk stabiele perceptieve eigenschappen. Soortgelijke gebieden zijn ook voor plofplanken aan te wijzen. Zelfs in het notoire kontinuüm van de vokaalruimte kan men akoestisch stabiele en instabiele artikulatorische konfiguraties aanwijzen (Stevens 1972, 1973). De resultaten van het onderzoek van Stevens laten zien dat het | ||||||||||||||||||||||||||||
[pagina 95]
| ||||||||||||||||||||||||||||
mogelijk is vanuit een fysisch model van spraakvorming te voorspellen hoeveel en welke klassen van artikulatorische gebaren op een bepaald artikulatorisch kontinuüm gebruikt zullen worden in de fonologie van de talen van de wereld. Dergelijke voorspellingen zijn van onmiddellijk belang voor de fonologische theorievorming, omdat ze op een heel natuurlijke manier de grenzen aangeven van de artikulatorische en perceptieve mogelijkheden waarbinnen de fonologie van iedere specifieke taal zich kan bewegen. Deze wijze van benadering houdt ook in dat de universele fonologische kenmerken niet noodzakelijk voortkomen uit aangeboren eigenschappen van de menselijke geest, zoals geïmpliceerd door Chomsky en Halle (1968, p. 4). Ze kunnen ook refleksies zijn van universele fysische eigenschappen van de menselijke spraakvorming. | ||||||||||||||||||||||||||||
KonklusieJakobson (bv. 1938. in 1962. 272 ew.). Trubetskoy (1939) en anderen hebben laten zien dat belangrijke eigenschappen van de klanksystemen van talen beschreven kunnen worden zonder dat alle details van de werkelijke spraak in de beschouwing betrokken worden. Hun visie heeft een doorslaggevende rol gespeeld in de ontwikkelingsgeschiedenis van de abstrakte fonologie zoals we die nu kennen. Dit heeft onmiskenbaar geleid tot belangrijke en nieuwe inzichten, maar ook tot een, tijdelijke, verwaarlozing van de relatie tussen abstrakte fonologie en konkrete eigenschappen van menselijke spraak. Met name het theoretisch raamwerk van Chomsky en Halle (1968) heeft opnieuw de aandacht van de fonologen op deze relatie gericht. In hun benadering is echter de studie van konkrete eigenschappen van spraak in de praktijk beperkt gebleven tot intuïtief-impressionistische observaties. Recente ontwikkelingen in de eksperimentele studie van spraak maken het mogelijk om met vrucht de empirische basis van de fonologie te verbreden. Dit is daarom van zo groot belang omdat er vele systematische en belangrijke eigenschappen van spraak zijn die zich onttrekken aan de linguïstische intuïtie, maar die wel van onmiddellijk belang zijn voor het testbaar maken en het verklaren van die systematische eigenschappen van het klankaspekt van taal en talen die hun weerslag vinden in de fonologische theorie en in abstrakt-fonologische beschrijvingen. De gegeven voorbeelden van interaktie tussen eksperlment en fonologie laten zien dat op deze wijze wezenlijke bijdragen geleverd kunnen worden | ||||||||||||||||||||||||||||
[pagina 96]
| ||||||||||||||||||||||||||||
aan de beantwoording van klassieke fonologische vragen, en van vragen die in de klassieke fonologie stiefmoederlijk bedeeld zijn, zoals de vraag naar de prosodische struktuur van spraak. In hoeverre ook voor fonologische regels en regelordening fonetische verklaringen gevonden zullen kunnen worden is op dit moment nog niet duidelijk, maar onmogelijk lijkt het niet. Het werken aan een ‘fonetische basis voor de fonologie’ is nog maar net op gang gekomen. | ||||||||||||||||||||||||||||
Bibliografie
| ||||||||||||||||||||||||||||
[pagina 97]
| ||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||
[pagina 98]
| ||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||
[pagina 99]
| ||||||||||||||||||||||||||||
|
|