klanken met alle andere gecombineerd worden, maar het zal duidelijk zijn dat er veel meer overgangen bestaan dan klanken: extra rekenwerk dus. Bovendien is het wezen van een overgang dat hij verandert in de loop van de tijd; hij houdt dus niet gedurende een aantal milliseconden een vast aantal trillingen aan. Dat betekent nog meer rekenwerk.
De klankvorm is afhankelijk van klemtoon, spreeksnelheid en de emotionele staat van de spreker Een spreker lijkt even wat harder te praten als hij een klemtoon legt. In werkelijkheid heeft luidheid weinig met klemtoon en intonatie van doen. Wat een hoorder als klemtoon ervaart, wordt voortgebracht door de toon te verhogen en de duur van de lettergreep te verlengen. Dat betekent dat de machine ook moet berekenen welke aanpassingen de trillingsgetallen van de beklemtoonde lettergrepen moeten ondergaan. Iets dergelijks geldt ook voor spraak die sneller of in opgewonden of boze toestand geproduceerd wordt. Iedere spreker kan dat. Voor de computer betekent het weer de toepassing van duizenden kleine aanpassingsregeltjes.
Het zinsaccent is niet alleen afhankelijk van de structuur van de zin maar ook van de informatieve waarde van de woorden
Voordat de foneticus een accent kan omzetten in trillingsgetallen, moet hij weten waar het accent komt te liggen en hoe het toonverloop van de zin eruit ziet. Dat valt immers niet meteen uit een getypte tekst af te leiden. Gelukkig is er al zoveel van accent bekend (vergelijk Trommelen en Visch in Onze Taal (april 1992, blz. 63), dat de computer de plaats ervan kan berekenen zo gauw hij het woord herkend heeft. Ook kan hij het woord in een lijst met uitzonderingen opzoeken.
Dramatischer is de verzorging van de intonatie. Die hangt af van de informatieve waarde van de woorden in de zin. En om die te voorspellen heeft de computer niet alleen kennis over de Nederlandse taalstructuur nodig, maar ook over de inhoud van wat hij verklankt. Zolang de computer niet begrijpt waar hij het over heeft, zal zijn intonatie niet volledig natuurlijk kunnen zijn.
Sommige van de bovenstaande problemen zullen nog lang op een oplossing wachten, andere zullen bij een gelijkblijvende inspanning in de nabije toekomst opgelost zijn. Misschien is het tijd dat eens onderzocht wordt of luisteraars een natuurlijksprekende robot wel accepteren. Het lijdt geen twijfel dat slechtzienden een fraaie, automatisch ingesproken versie van de krant zullen toejuichen, maar ik ben er nog niet zo zeker van dat dat ook geldt voor andere vormen van robotspraak. Ik baseer mijn wantrouwen op de kritiek van velen op automatische inlichtingennummers: ‘Dank u voor het bellen naar X; voor meer informatie over de zaterdagvoorstelling: druk op de 1. Voor meer infor...’ De rest weet ik niet. Dan ligt de hoorn er alweer op.
Literatuur: Vincent J. van Heuven en Louis C.W. Pols red. Analysis and synthesis of speech. Strategic Research towards High-Quality Text-to-Speech Generation. Berlin/New York, 1993.