Ein Mensch kann die einzelnen prosodischen Bereiche nicht völlig unabhängig voneinander verändern, weil wir den Stimmapparat nicht so präzis aktiv kontrollieren können. Eine Sprachsynthese kann dagegen den je einzelnen interessierenden Aspekt der prosodischen Struktur isolieren und so dessen Bedeutung auf den akustischen Gesamteindruck illustrieren kann. Die Sprachsynthese kann damit wertvolle Hilfe leisten, wenn es darum geht, Stimuli für Perzeptionstests zu generieren.
Im Fall einer kompletten Synthese zeigen sich falsche Annahmen in einzelnen Teilen oder falsche Zusammenhänge, indem ein falscher oder zumindest auffälliger Output generiert wird, der hörbar und damit unmittelbar erfahrbar wird. Die folgenden Beispiele desselben Satzes, der von verschiedenen deutschen Text-to-Speech-Sprachsynthesen generiert wurde, können das illustrieren.
Ich stehe in der Küche, wo sich Arbeit und Vergnügen, sinnliche Lust mit bewusstem Kalkül verbinden (Bsp13: Bell Labs; Bsp14: IKP; Bsp15: TU-Dresden; Bsp16:IMS; Bsp17: LAIP)[6]. Diese verschiedenen Synthesen deuten auf verschiedene Modelle hin. Die der Synthese zugrundeliegenden Hypothesen lassen sich also hörbar vergleichen. An dieser Stelle soll nicht eine Kritik an den Systemen angebracht werden; es soll nur aufmerksam gemacht werden auf unterschiedliche Modellierung des Timings in Phrasengrenzen, die Grundfrequenzsteuerung in Nebensilben, die Intonationskurve bei weiterweisenden Breaks, die unterschiedliche Realisierungen von stehe.
Ein falscher Output kann über eine neue Hypothesenbildung,
die Umarbeitung des Modells und die Überprüfung anhand des neuen
Outputs wieder korrigiert werden. Die Synthese ist also eine Methode, Hypothesen
zu verifizieren. Damit ist die Sprachsynthese ein probates Mittel, um das
in den Details immer komplexere und differenziertere Wissen über die
Sprache direkt hörbar und überprüfbar zu machen.