
"KI-Stimmen haben beim Ausdruck unterschiedlicher Emotionen
und bestimmter Betonungen weiterhin das Nachsehen."
In einem Praxisversuch lassen wir deshalb unsere menschliche Sprecherin Ulrike Kapfer gegen ihre KI-Stimme in unterschiedlichen Genres gegeneinander antreten. Grundlage für diesen Text to Speech-Selbstversuch bilden "Voice Clones", die mit Genre-ähnlichen Material bei einem führenden Anbieter für KI-Sprachgenerierung extra für diesen Vergleich angelernt wurden. Zuerst hörst Du die menschlische Stimme von Ulrike, anschließend die KI-generierte Variante:
Hörspiel
Imagefilm
Werbung 1
Werbung 2
Eine "perfekte" synthetische Stimme für alle Einsatzzwecke zu erzeugen, ist ohne Weiteres aktuell nicht möglich. "Out of the box" sind die mit Text to Speech erzeugten Files zwar für Anwendungen ohne großen Anspruch teilweise brauchbar, allerdings auch noch weit entfernt davon eine seriöse und kritische Hörerschaft positiv zu überzeugen. Schon im ersten Beispiel (Hörspiel) scheitert die KI daran, eine flüsternde Stimme darzustellen. In den weiteren Beispielen werden eine gewisse Betonungsmonotonie und überzeichnete Intonationen deutlich. Emotionsvarianz ist innerhalb eines Genres eigentlich gar nicht zu vernehmen - viel mehr wirkt die KI-Stimme immer etwas teilnahmslos.
Es bedarf also schon einer großen Menge an Ausgangsmaterial und/oder mehrere spezifische Sprachmodelle um unterschiedliche Emotionen, Betonungen, Aussprachen oder Sprechhaltungen halbwegs realistisch simulieren zu können. Außerdem ist die Erzeugung des Outputs, zumindest im Text to Speech-Bereich, in gewisser Weise auch immer ein Zufallsprodukt, sodass u. U. zahlreiche Generierungen eines Wortes oder Satzbausteins (Prompt) benötigt werden, um die gewünschte Sprachaufnahme herzustellen. Das macht sich durch einen zeitlichen und finanziellen Mehraufwand bei der Postproduktion in den Tonstudios bemerkbar und hebt mögliche Kosteneinsparungen bei der Sprechergage wieder auf. Diesbezüglich bist Du bei einer Sprachaufnahme mit einem menschlichen Profisprecher weiterhin deutlich effektiver unterwegs.