Problemen
Een van de eerste moeilijkheden voor een goede herkenning is het probleem van de uitspraakvariatie (zie het kader ‘Praten tegen de NS’). We slikken vaak veel klanken in, en zeggen dan bijvoorbeeld [amsedam] in plaats van [amsterdam], of [heboe] in plaats van [heleboel]. Soms voegen we ook klanken toe: [delleft] in plaats van [delft]. Dat is niet zozeer een kwestie van slordigheid als wel van normale uitspraak. Hoe dan ook, in al deze gevallen moet de spraakherkenner weten dat het niet om verschillende woorden gaat, maar om uitspraakvarianten van hetzelfde woord. Het is praktisch onmogelijk om al die uitspraakvarianten in een woordenlijst op te nemen.
In de tweede plaats spreken we lang niet altijd vloeiend. Integendeel (zie hetzelfde kader). In onvoorbereide spraak zitten veel pauzes (soms stiltes, die soms worden gevuld met een aangehouden uh), we maken woorden half af, herhalen (stukken van) woorden, stotteren, en nog veel meer. Probeer de volgende uiting maar eens hardop aan iemand voor te lezen, en kijk eens hoe lang het duurt voordat die verstaan wordt:
maardurzij-n ookdinguwaarf- ik- n- fin... nietfint... tatsukloppu
Een derde probleem is de woordvolgorde. Je zou geneigd zijn om als taalmodel voor de spraakherkenner een grammatica van het Nederlands te gebruiken, een grammatica die precies uitdrukt welke woorden er in welke volgorde in een uiting mogen staan. Dat is geprobeerd, maar het werkt totaal niet. We spreken namelijk vaak niet-grammaticale zinnen uit (zie nogmaals het kader ‘Praten tegen de NS’), en die zijn dan dus ook vaak niet vloeiend. Een spraakherkenner moet bijvoorbeeld nog maar begrijpen dat in van Amste- uh Nijmegen het woordje van bij Nijmegen hoort en niet bij het onafgemaakte Amsterdam.
Deze drie problemen hebben alleen nog maar te maken met het herkennen van de voortgebrachte spraak. Maar daarnaast vangt de microfoon vaak ook andere geluiden op. Dit kunnen allerlei achtergrondgeluiden zijn: spraak van iemand anders in de kamer, de radio, muziek, verkeerslawaai of deuren die worden dichtgeslagen. Al deze stoorsignalen kunnen het herkenproces bemoeilijken, zowel bij de machine als bij de mens.
Illustratie: Hein de Kort