KI-Stimmen -
Eine mögliche Ergänzung

Künstliche Stimmen zur Unterstützung und Erweiterung menschlicher Sprecher für maßgeschneiderte Sprachlösungen.

KI-Stimme vs. Profisprecher: Wie gut klingt künstliche Intelligenz?

Künstliche Stimmen begegnen uns im Alltag immer häufiger. Sei es auf dem Smartphone, in einem Kinofilm oder als Chatbot eines großen Unternehmens. Aber wer steckt hinter diesen Stimmen? In den seltensten Fällen sind es deutsche Profisprecher oder bekannte Synchronstimmen. Große AI-Unternehmen bauen Ihre künstlichen Systeme in der Regel zunächst in englischer Sprache auf. Die Stimmen haben entweder eine exakte, menschliche Vorlage ("Voice Cloning") oder sind ein Produkt mehrerer menschlicher Stimmen (sog. "Blended Voices" durch Morphing). In diesem Fall lassen sich kaum noch Rückschlüsse auf die eigentlich synthetisierten Personen ziehen. Zudem bietet dieses Verfahren ein großes Potenzial für den Missbrauch mit organischen Stimmen.

Anbieter, die KI-Stimmen aktiv in Datenbanken (meist als kostenpflichtiges Abomodell) für verschiedenste Einsatzzwecke zum 24/7-Abruf bereitstellen, arbeiten, zumindest im deutschsprachigen Raum, überwiegend mit nicht bekannten Sprechern zusammen. Das hat einen ganz einfachen Grund. Die Profibranche sieht berechtigterweise viele Risiken beim Einsatz Ihrer Stimme als künstliches Wiedergabeprodukt. Viele KI-Unternehmen sitzen mit Ihren Servern im Ausland und arbeiten nicht DSGVO-konform. Eine Kontrolle darüber, wie Aufnahmen gespeichert und weiterverarbeitet werden, ist in den meisten Fällen nicht gewährleistet. Außerdem lassen sich Einsatzzwecke nur schwer eingrenzen und Preismodelle gehen an der Realität vorbei. Wer also weiterhin mit echten Profistimmen und bekannten Synchronsprechern zusammenarbeiten möchte, dem sei empfohlen auch zukünftig den Kontakt zu echten Menschen zu suchen. Das macht sich nicht nur im persönlichen Austausch, sondern auch qualitativ bemerkbar. Denn am Ende ist der Unterschied deutlich hörbar.

"KI-Stimmen haben beim Ausdruck unterschiedlicher Emotionen
und bestimmter Betonungen weiterhin das Nachsehen."


In einem Praxisversuch lassen wir deshalb unsere menschliche Sprecherin Ulrike Kapfer gegen ihre KI-Stimme in unterschiedlichen Genres gegeneinander antreten. Grundlage für diesen Text to Speech-Selbstversuch bilden "Voice Clones", die mit Genre-ähnlichen Material bei einem führenden Anbieter für KI-Sprachgenerierung extra für diesen Vergleich angelernt wurden. Zuerst hörst Du die menschlische Stimme von Ulrike, anschließend die KI-generierte Variante:


Hörspiel


Imagefilm


Werbung 1


Werbung 2



Eine "perfekte" synthetische Stimme für alle Einsatzzwecke zu erzeugen, ist ohne Weiteres aktuell nicht möglich. "Out of the box" sind die mit Text to Speech erzeugten Files zwar für Anwendungen ohne großen Anspruch teilweise brauchbar, allerdings auch noch weit entfernt davon eine seriöse und kritische Hörerschaft positiv zu überzeugen. Schon im ersten Beispiel (Hörspiel) scheitert die KI daran, eine flüsternde Stimme darzustellen. In den weiteren Beispielen werden eine gewisse Betonungsmonotonie und überzeichnete Intonationen deutlich. Emotionsvarianz ist innerhalb eines Genres eigentlich gar nicht zu vernehmen - viel mehr wirkt die KI-Stimme immer etwas teilnahmslos.
Es bedarf also schon einer großen Menge an Ausgangsmaterial und/oder mehrere spezifische Sprachmodelle um unterschiedliche Emotionen, Betonungen, Aussprachen oder Sprechhaltungen halbwegs realistisch simulieren zu können. Außerdem ist die Erzeugung des Outputs, zumindest im Text to Speech-Bereich, in gewisser Weise auch immer ein Zufallsprodukt, sodass u. U. zahlreiche Generierungen eines Wortes oder Satzbausteins (Prompt) benötigt werden, um die gewünschte Sprachaufnahme herzustellen. Das macht sich durch einen zeitlichen und finanziellen Mehraufwand bei der Postproduktion in den Tonstudios bemerkbar und hebt mögliche Kosteneinsparungen bei der Sprechergage wieder auf. Diesbezüglich bist Du bei einer Sprachaufnahme mit einem menschlichen Profisprecher weiterhin deutlich effektiver unterwegs.