KI-Stimmen -
Eine mögliche Ergänzung

Künstliche Stimmen zur Unterstützung und Erweiterung menschlicher Sprecher für maßgeschneiderte Sprachlösungen.

KI-Sprachaufnahmen: Kein Studio = weniger Kosten?

Ist eine Sprachsynthese abgeschlossen, erfolgt der Abruf der KI-Stimme auf Knopfdruck: Text eingeben und Stimme erzeugen (Text to Speech). Und das 24/7 von jedem Ort dieser Welt. Das klingt nicht nur einfach, sondern erfordert für zukünftige Produktionen keine Sprachaufnahmen im Ton- oder Homestudio mehr. Der Sprecher spart sich also einen möglichen Arbeitsweg zum Tonstudio und damit vor allen Dingen Zeit. Preislich sollte sich der Einsatz von KI-Stimmen also als deutliche Ersparnis bemerkbar machen. So zumindest die berechtigte Hoffnung vieler Kunden. Allerdings wurden und werden Sprechergagen nicht nach zeitlichem Aufwand abgerechnet. Vielmehr erwirbst Du als Kunde durch Zahlung der Sprechergage eine zweckgebundene Nutzungslizenz. Das ist ein etabliertes Abrechnungsmodell in der professionellen Sprecherbranche, welches auch beim Einsatz künstlicher Stimmen weiterhin Bestand haben wird. Selbstverständlich versuchen teilweise dubiose Anbieter (hauptsächlich aus dem Ausland) dieses Preismodell zu untergraben, aber das ist eben auch mit großen, qualitativen Einbußen verbunden. Seien es der fehlende Zugang zu erfahrenen und bekannten Profisprechern, die Exklusivität, der erhöhte Aufwand bei der KI-Generierung oder die technischen Einschränkungen. Es gilt also weiterhin: Qualität hat zu Recht seinen Preis und wird beim Konsumenten immer einen größeren Zuspruch finden.

Ein anderes Szenario, das auf den ersten Blick eine Kostenersparnis in Aussicht stellt, ist die Vertonung eines Films mit einer KI-Stimme in mehreren Sprachen, also beispielsweise eine deutsche (menschliche) Stimme als Vorlage und eine anschließende KI-basierte Lokalisierung weiterer Sprachen mit derselben Stimme. Durch den erweiterten Sprechumfang (Stichwort: Mengenrabatt) bei gleichzeitig reduziertem Studioaufwand (da nur noch eine Sprache physisch vor dem Mikrofon vertont wird) solltest Du das Projekt doch wesentlich günstiger umsetzen können? Bei den Studiokosten hebt sich der vermeintlich geringere Aufwand durch die Generierung der KI-Fassungen und einen zeitintensiven Postproduktionsprozess schnell auf. Dagegen ist bei der Sprechergage u. U. tatsächlich ein gewisser Nachlass nach Absprache mit dem gebuchten Sprecher denkbar. Aber es gibt einen ganz anderen Aspekt, der das reizvolle Gedankenspiel zunichtemacht: Die fehlende Qualitätskontrolle. Wer garantiert Dir, dass die KI-generierten Fassungen korrekt erzeugt worden sind? Ohne muttersprachlichen Check läufst Du Gefahr, Dich bei Veröffentlichung in dem entsprechenden Land mit einer fehlerhaften Lokalisierung unglaubwürdig zu machen oder gar mit falschen Übersetzungen rechtliche Probleme zu bekommen. Das Kontrollhören muss deshalb schon bei der Erzeugung der KI-Stimme eingeplant und mit in die Budgetplanung einkalkuliert werden. Eingesparten Gagen werden bei professioneller Umsetzung also durch die Kosten für den Qualitätscheck wieder kompensiert. Im schlechtesten Fall zahlst Du sogar drauf.

An dieser Stelle noch ein kleiner, moralischer Einwand: Was bei zehn Sprachen zuvor mit zehn unterschiedlichen Sprechern vertont wurde, wird nun nur noch mit einer einzigen (KI)-Stimme umgesetzt. Die leidenschaftliche Tätigkeit von neun Muttersprachlern wird also einfach wegrationalisiert. Bei aller Kosteneffizienz, solche Einsparungen bringen menschliche Existenzen ernsthaft in Gefahr.