KI-Stimmen -
Eine mögliche Ergänzung

Künstliche Stimmen zur Unterstützung und Erweiterung menschlicher Sprecher für maßgeschneiderte Sprachlösungen.

"KI-Stimmen online kostenlos erstellen" oder "Kostenloser Text-to-Speech- und KI-Stimmengenerator". Das sind die verlockenden Werbebotschaften von führenden Anbietern für KI-Stimmen. Ob es wirklich so einfach und vor allen Dingen kostenlos ist KI-Stimmen zu erzeugen, wie unkompliziert diese eingesetzt werden können und wie gut die Qualität am Ende wirklich ist, das versuchen wir Dir möglichst praxisnah in ausgewählten Case Studies zu veranschaulichen.
Du suchst Dir einen Anbieter für Sprachsynthese, verwendest ein kurzes Audiosample des Synchronsprechers von Bruce Willis und voilà, schon spricht Dir die wohl bekannteste Stimme Deutschlands als Text to Speech-Modell zum Nulltarif alle Deine Werbungen und Imagefilme. Das klingt doch zu schön, um wahr zu sein? Ist es auch. Der große Hype um KI-generierte Stimmen, der vor allen Dingen im Jahr 2024 einen großen Schub erfahren und die gesamte Sprecherbranche in Aufruhe versetzt hat, ließ bedauerlicherweise ein paar wichtige "Spielregeln" außer Acht und suggeriert bis heute, dass es bei der Verwendung von KI-Stimmen keine rechtlichen und moralischen Grenzen gibt. Dem ist natürlich nicht so. Nur war der technische Fortschritt schneller als die politischen Entscheidungsträger. Und so fehlt bis heute ein eindeutiges Regelwerk für den Einsatz von künstlicher Intelligenz.

"Die große KI-Revolution: Mit Online-Sprachgeneratoren
Deinen Wunschsprecher als KI-Stimme erzeugen"


Es sei also an dieser Stelle schon mal gesagt, fremde Stimmen synthetisieren zu lassen, ist kein Kavaliersdelikt, sondern verletzt Urheber- und Persönlichkeitsrechte und ist somit eine strafbare Handlung. Deshalb: Keine KI-Stimme ohne die persönliche Zustimmung der betroffenen Person bzw. des Sprechers (für weitere Informationen empfehlen wir den Blogbeitrag "KI Recht: Große Rechts-FAQ zu ChatGPT und Co." der Kanzlei Plutte). Wiederum sind aktuell deutsche KI-Stimmen in den Datenbanken bekannter oder unbekannter Anbieter verfügbar. Auch wenn sich seriöse Unternehmen darauf berufen, dass diese Stimmen nicht ohne Zustimmung des Rechteinhabers angelernt werden dürfen, sind die Sicherheitsmechanismen häufig unzureichend und der Datenschutz wird nur selten gewährleistet. Wer sind also die Personen hinter diesen deutschen Stimmen, wie schlagen sie sich im Vergleich zu unseren Profisprechern und werden Sprachaufnahmen durch den Einsatz von KI tatsächlich günstiger? Wir klären Dich auf und zeigen Dir, wann KI einen wirklichen Mehrwert bietet.

KI-Stimme vs. Profisprecher: Wie gut klingt künstliche Intelligenz?

Künstliche Stimmen begegnen uns im Alltag immer häufiger. Sei es auf dem Smartphone, in einem Kinofilm oder als Chatbot eines großen Unternehmens. Aber wer steckt hinter diesen Stimmen? In den seltensten Fällen sind es deutsche Profisprecher oder bekannte Synchronstimmen. Große AI-Unternehmen bauen Ihre künstlichen Systeme in der Regel zunächst in englischer Sprache auf. Die Stimmen haben entweder eine exakte, menschliche Vorlage ("Voice Cloning") oder sind ein Produkt mehrerer menschlicher Stimmen (sog. "Blended Voices" durch Morphing). In diesem Fall lassen sich kaum noch Rückschlüsse auf die eigentlich synthetisierten Personen ziehen. Zudem bietet dieses Verfahren ein großes Potenzial für den Missbrauch mit organischen Stimmen.

Anbieter, die KI-Stimmen aktiv in Datenbanken (meist als kostenpflichtiges Abomodell) für verschiedenste Einsatzzwecke zum 24/7-Abruf bereitstellen, arbeiten, zumindest im deutschsprachigen Raum, überwiegend mit nicht bekannten Sprechern zusammen. Das hat einen ganz einfachen Grund. Die Profibranche sieht berechtigterweise viele Risiken beim Einsatz Ihrer Stimme als künstliches Wiedergabeprodukt. Viele KI-Unternehmen sitzen mit Ihren Servern im Ausland und arbeiten nicht DSGVO-konform. Eine Kontrolle darüber, wie Aufnahmen gespeichert und weiterverarbeitet werden, ist in den meisten Fällen nicht gewährleistet. Außerdem lassen sich Einsatzzwecke nur schwer eingrenzen und Preismodelle gehen an der Realität vorbei. Wer also weiterhin mit echten Profistimmen und bekannten Synchronsprechern zusammenarbeiten möchte, dem sei empfohlen auch zukünftig den Kontakt zu echten Menschen zu suchen. Das macht sich nicht nur im persönlichen Austausch, sondern auch qualitativ bemerkbar. Denn am Ende ist der Unterschied deutlich hörbar.

"KI-Stimmen haben beim Ausdruck unterschiedlicher Emotionen
und bestimmter Betonungen weiterhin das Nachsehen."


In einem Praxisversuch lassen wir deshalb unsere menschliche Sprecherin Ulrike Kapfer gegen ihre KI-Stimme in unterschiedlichen Genres gegeneinander antreten. Grundlage für diesen Text to Speech-Selbstversuch bilden "Voice Clones", die mit Genre-ähnlichen Material bei einem führenden Anbieter für KI-Sprachgenerierung extra für diesen Vergleich angelernt wurden. Zuerst hörst Du die menschlische Stimme von Ulrike, anschließend die KI-generierte Variante:


Hörspiel


Imagefilm


Werbung 1


Werbung 2



Eine "perfekte" synthetische Stimme für alle Einsatzzwecke zu erzeugen, ist ohne Weiteres aktuell nicht möglich. "Out of the box" sind die mit Text to Speech erzeugten Files zwar für Anwendungen ohne großen Anspruch teilweise brauchbar, allerdings auch noch weit entfernt davon eine seriöse und kritische Hörerschaft positiv zu überzeugen. Schon im ersten Beispiel (Hörspiel) scheitert die KI daran, eine flüsternde Stimme darzustellen. In den weiteren Beispielen werden eine gewisse Betonungsmonotonie und überzeichnete Intonationen deutlich. Emotionsvarianz ist innerhalb eines Genres eigentlich gar nicht zu vernehmen - viel mehr wirkt die KI-Stimme immer etwas teilnahmslos.
Es bedarf also schon einer großen Menge an Ausgangsmaterial und/oder mehrere spezifische Sprachmodelle um unterschiedliche Emotionen, Betonungen, Aussprachen oder Sprechhaltungen halbwegs realistisch simulieren zu können. Außerdem ist die Erzeugung des Outputs, zumindest im Text to Speech-Bereich, in gewisser Weise auch immer ein Zufallsprodukt, sodass u. U. zahlreiche Generierungen eines Wortes oder Satzbausteins (Prompt) benötigt werden, um die gewünschte Sprachaufnahme herzustellen. Das macht sich durch einen zeitlichen und finanziellen Mehraufwand bei der Postproduktion in den Tonstudios bemerkbar und hebt mögliche Kosteneinsparungen bei der Sprechergage wieder auf. Diesbezüglich bist Du bei einer Sprachaufnahme mit einem menschlichen Profisprecher weiterhin deutlich effektiver unterwegs.

KI-Sprachaufnahmen: Kein Studio = weniger Kosten?

Ist eine Sprachsynthese abgeschlossen, erfolgt der Abruf der KI-Stimme auf Knopfdruck: Text eingeben und Stimme erzeugen (Text to Speech). Und das 24/7 von jedem Ort dieser Welt. Das klingt nicht nur einfach, sondern erfordert für zukünftige Produktionen keine Sprachaufnahmen im Ton- oder Homestudio mehr. Der Sprecher spart sich also einen möglichen Arbeitsweg zum Tonstudio und damit vor allen Dingen Zeit. Preislich sollte sich der Einsatz von KI-Stimmen also als deutliche Ersparnis bemerkbar machen. So zumindest die berechtigte Hoffnung vieler Kunden. Allerdings wurden und werden Sprechergagen nicht nach zeitlichem Aufwand abgerechnet. Vielmehr erwirbst Du als Kunde durch Zahlung der Sprechergage eine zweckgebundene Nutzungslizenz. Das ist ein etabliertes Abrechnungsmodell in der professionellen Sprecherbranche, welches auch beim Einsatz künstlicher Stimmen weiterhin Bestand haben wird. Selbstverständlich versuchen teilweise dubiose Anbieter (hauptsächlich aus dem Ausland) dieses Preismodell zu untergraben, aber das ist eben auch mit großen, qualitativen Einbußen verbunden. Seien es der fehlende Zugang zu erfahrenen und bekannten Profisprechern, die Exklusivität, der erhöhte Aufwand bei der KI-Generierung oder die technischen Einschränkungen. Es gilt also weiterhin: Qualität hat zu Recht seinen Preis und wird beim Konsumenten immer einen größeren Zuspruch finden.

Ein anderes Szenario, das auf den ersten Blick eine Kostenersparnis in Aussicht stellt, ist die Vertonung eines Films mit einer KI-Stimme in mehreren Sprachen, also beispielsweise eine deutsche (menschliche) Stimme als Vorlage und eine anschließende KI-basierte Lokalisierung weiterer Sprachen mit derselben Stimme. Durch den erweiterten Sprechumfang (Stichwort: Mengenrabatt) bei gleichzeitig reduziertem Studioaufwand (da nur noch eine Sprache physisch vor dem Mikrofon vertont wird) solltest Du das Projekt doch wesentlich günstiger umsetzen können? Bei den Studiokosten hebt sich der vermeintlich geringere Aufwand durch die Generierung der KI-Fassungen und einen zeitintensiven Postproduktionsprozess schnell auf. Dagegen ist bei der Sprechergage u. U. tatsächlich ein gewisser Nachlass nach Absprache mit dem gebuchten Sprecher denkbar. Aber es gibt einen ganz anderen Aspekt, der das reizvolle Gedankenspiel zunichtemacht: Die fehlende Qualitätskontrolle. Wer garantiert Dir, dass die KI-generierten Fassungen korrekt erzeugt worden sind? Ohne muttersprachlichen Check läufst Du Gefahr, Dich bei Veröffentlichung in dem entsprechenden Land mit einer fehlerhaften Lokalisierung unglaubwürdig zu machen oder gar mit falschen Übersetzungen rechtliche Probleme zu bekommen. Das Kontrollhören muss deshalb schon bei der Erzeugung der KI-Stimme eingeplant und mit in die Budgetplanung einkalkuliert werden. Eingesparten Gagen werden bei professioneller Umsetzung also durch die Kosten für den Qualitätscheck wieder kompensiert. Im schlechtesten Fall zahlst Du sogar drauf.

An dieser Stelle noch ein kleiner, moralischer Einwand: Was bei zehn Sprachen zuvor mit zehn unterschiedlichen Sprechern vertont wurde, wird nun nur noch mit einer einzigen (KI)-Stimme umgesetzt. Die leidenschaftliche Tätigkeit von neun Muttersprachlern wird also einfach wegrationalisiert. Bei aller Kosteneffizienz, solche Einsparungen bringen menschliche Existenzen ernsthaft in Gefahr.

Der Mehrwert von KI-Stimmen und mögliche Case Studies

Künstliche Stimmen sind in den meisten Fällen weder vollständig kostenlos, noch günstiger als ihr menschliches Pendant und schon gar nicht qualitativ ebenbürtig, wenn es um emotionale Varianz geht. Aber welche Vorteile bieten Dir dann KI-Stimmen überhaupt?

Case Study 1: Sprecher im Urlaub


Nehmen wir mal an, ein Sprecher hat eine Werbung gesprochen und befindet sich zwei Wochen später im Urlaub. Nun hat Dein Werbekunde um eine notwendige und dringende Korrektur (z. B. falsches Datum) gebeten. Was tun? Leider kann die Ausstrahlung nicht verschoben werden. Mit Zustimmung des Sprechers kann durch Einsatz seiner KI-Stimme die gewünschte Änderung durch das Tonstudio jederzeit vorgenommen werden. Selbstverständlich bei unveränderter Zahlung von Studiokosten und Sprechergage, wie bei jeder anderen Änderung in der Vergangenheit auch. Der große Vorteil? Der Gewinn an Flexibilität zu gleichbleibenden Kosten und ein Sprecher, der immer verfügbar ist, wenn Du ihn brauchst. 24 Stunden am Tag, 7 Tage die Woche.

Case Study 2: Individuelle Ansprachen im Unternehmen


Oder stell Dir ein modulares Sprachsystem vor. Du möchtest mehrere hundert Mitarbeiter in Deinem Unternehmen in einem E-Learning individuell ansprechen. Was vorher mit dem Sprecher Prompt für Prompt vertont werden musste oder aufgrund eines unverhältnismäßigen Aufwands gar nicht erst realisiert wurde, kann nun via Text-to-Speech erzeugt und nachträglich jederzeit mit derselben Ausgangsqualität erweitert oder geändert werden. Nachaufnahmen führen dadurch nicht mehr zu hörbaren Unterschieden. Zu beachten ist jedoch der erhöhte Aufwand bei der Generierung der Prompts und bei der Qualitätskontrolle. Außerdem sind die Nutzungslizenzen unverändert an den Sprecher zu entrichten.

Case Study 3: Individuelle Ansprachen in der Werbung


Ganz ähnlich verhält es sich mit einer modularen Werbung. Zum Beispiel, wenn diese zielgerichtet in einem Podcast ausgespielt werden soll. In Abstimmung mit dem Targeting lassen mithilfe der künstlichen Stimme individuelle lokale Angebote oder Allongen problemlos erzeugen und ausspielen. Varianten, die vorher undenkbar waren, sind ab sofort mit der Unterstützung von KI realisierbar, allerdings mit dem Wehrmutstropfen, dass u. U. Emotionen und gewünschte Betonungen nicht zu 100 Prozent abbildbar sind.

Selbstverständlich gibt es noch viele weitere Szenarien, bei denen künstliche Intelligenz eine Hilfe sein kann. Wir sehen sie jedoch vielmehr als Ergänzung oder Erweiterung der menschlichen Stimme. Nicht jedoch als Ersatz. Echte Emotionen und künstlerische Intelligenz lassen sich nicht austauschen. Bei uns bekommst Du deshalb die besten und professionellsten Stimmen als menschliche Basis für KI-Projekte. In enger Zusammenarbeit mit unseren Sprecherinnen und Sprechern und selbstverständlich nach deren persönlicher Zustimmung realisieren wir verantwortungsbewusst und rechtskonform innovative Projekte im Bereich künstlicher Intelligenz. Sei es Sprachsynthese, Text to Speech oder ein modulares Sprachsystem.

Gerne stehen Dir bei allen Fragen rund um das Thema KI jederzeit mit Rat und Tat zur Seite. Sprich uns einfach an!