„Es ist ausgeschlossen, dass KI-Produktionen in absehbarer Zeit an herausragende menschliche Darbietungen heranreichen“

Chris Kling (Klangkantine Audiobooks) und Marlene Rauch (Miss Motte) zu vollautomatisch generierten Hörbüchern

Foto: KI-generiert, freepik

Längst können mittels KI nicht nur Texte, Bilder und Videos, sondern auch Audio-Dateien und damit ganze Hörbücher generiert werden. Was bedeutet das für die Hörbuch-Produktion und den -Vertrieb? Wir haben nachgefragt bei Chris Kling, Geschäftsführer des Produktionshauses Klangkantine Audiobooks und Marlene Rauch, Geschäftsführerin des Verlags Miss Motte.

Wie viele KI-Produktionen sind schätzungsweise bereits auf dem Markt und lässt sich heute tatsächlich noch ein Unterschied zu herkömmlichen Hörbüchern feststellen?

Chris Kling: Das ist schwer exakt zu beziffern. Innerhalb der klassischen Hörbuch-Distributions- und Storestrukturen sind maschinell vorgelesene Hörbücher bislang eher ein Nischenphänomen. Gleichzeitig findet ein erheblicher Teil der Nutzung außerhalb dieser sichtbaren Märkte statt: Apps wie Speechify oder ElevenReader ermöglichen es Konsument:innen, für geringe Abo-Gebühren oder sogar kostenlos PDFs und EPUBs vorlesen zu lassen. Diese Nutzungen tauchen in den gängigen Branchenstatistiken bislang nicht auf – faktisch wird KI-Audio also vermutlich bereits deutlich breiter genutzt, als wir denken.

Es gibt Studien, unter anderem aus Schweden, die nahelegen, dass Hörer:innen bei Audiobooks kaum noch signifikante Unterschiede zwischen KI- und menschlicher Narration wahrnehmen. Unsere eigenen Tests und Blindvergleiche in Deutschland kommen jedoch zu einem differenzierteren Bild: Die reine Stimmqualität hat sich in den letzten Jahren enorm verbessert.

Deutlich hinterher hinkt jedoch weiterhin die künstlerische Gestaltung über den bloßen Klang hinaus. Schwächen zeigen sich vor allem in Interpretation, Betonung und Aussprache längerer Inhalte. Während dies bei kurzen Passagen oft kaum auffällt, berichten Hörer:innen bei längeren Formaten häufig von Ermüdung, Konzentrationsverlust und monotonen Betonungsmustern – ein klassischer „Uncanny-Valley“-Effekt. Fairerweise gilt allerdings: Auch bei menschlichen Produktionen ist nicht jede Performance automatisch überzeugend.

„Bei einigen Text to speech-Funktionen ist es schon beeindruckend, wie menschlich es klingt“

Marlene Rauch: Mir persönlich sind bisher noch keine KI-Produktionen auf dem deutschen Markt der Belletristik (in dem ich mich vorrangig bewege) begegnet. Das bedeutet nicht, dass es sie nicht bereits in großer Zahl gibt. Es spricht aber dafür, dass diese Form von Produktion zumindest in der gehobenen Unterhaltungsliteratur noch keine spürbare Rolle einnimmt. Von einem anderen Verleger weiß ich aber, dass er bereits Hunderte KI-Hörbücher von gemeinfreien als auch Sachtexten mit KI im Vertrieb hat.
Bei einigen „Text to speech“-Funktionen ist es schon beeindruckend, wie menschlich es klingt. Für einen rein informativen Text, wie z. B. einem Sachbuch, durchaus brauchbar und in den ersten paar Sekunden gar nicht so sehr von einer menschlichen Darbietung zu unterscheiden. Hört man aber mehrere Sätze hintereinander, merkt man den Unterschied deutlich, weil die sprecherische Modulation nicht ausgefeilt genug ist. Es lässt sich meiner Meinung nach also definitiv ein Unterschied feststellen.

Welche Chancen und Risiken bringen KI-Produktionen aus Ihrer Sicht mit sich?

Marlene Rauch: Die Chancen liegen auf der Hand: Mit vergleichsweise geringem finanziellem und zeitlichem Investment lässt sich enorm viel Output erzielen. Aus Text wird Hörbuch, ein gänzlich automatisierter Prozess, bei dem optimalerweise wenig bis kaum menschliche Nachbearbeitung nötig ist. Dadurch könnten nicht nur ausgewählte Spitzentitel vertont werden, sondern ganze Backlist-Kataloge. Tausende Titel ließen sich theoretisch mit wenigen Mausklicks produzieren. Für Produzent:innen klingt das gegebenenfalls wirtschaftlich attraktiv und auch für Konsument:innen könnte es hinsichtlich geringerer Preise und mehr Auswahl auf Anklang treffen.

Die eigentlichen Risiken zeigen sich erst, wenn der Konsument bzw. die Konsumentin sich an KI-Hörbücher gewöhnt hat. Der Mensch ist ein Gewohnheitstier, verteufelt das Neue und die damit verbundenen Veränderungen. Verkauft man sie ihm aber günstig, vorteilhaft verpackt und leicht zugänglich, ist er schnell dazu verleitet, sie auszuprobieren. Sei es als Produzent:in oder Konsument:in. Und nach dem zweiten oder dritten KI-Hörbuch wirkt der Unterschied möglicherweise gar nicht mehr so störend. Was heute noch als „nicht ganz dasselbe“ empfunden wird, könnte morgen schlicht Alltag sein.

Eine mögliche Konsequenz wäre eine strukturelle Verschiebung innerhalb der Branche. Wenn Verlage dauerhaft den kostengünstigeren Weg wählen, entzieht man damit einer kompletten künstlerischen Branche, nämlich den Sprecher:innen, Regiesseur:innen und Tontechiker:innen/Studios die Existenzgrundlage.

„Dann besteht die Gefahr, dass hochwertige Titel und Produktionen untergehen“

Ein weiteres Risiko sehe ich in einer potenziellen Marktübersättigung. Bisher wird ein Buch meist dann zum Hörbuch, wenn man ihm zutraut, seine Produktionskosten wieder einzuspielen. Diese wirtschaftliche Hürde fungiert auch als Qualitätsfilter. Wenn diese Schwelle wegfällt und praktisch jedes Buch vertont werden kann, könnte der ohnehin schon gesättigte Markt überflutet werden. Dann besteht die Gefahr, dass hochwertige Titel/Produktionen untergehen, außer sie werden von Plattformen aktiv kuratiert oder prominent platziert. Über die finanziellen Mittel für eine entsprechende Sichtbarkeit verfügen jedoch vor allem große Marktteilnehmer:innen. Für viele der in den letzten Jahren neu gegründeten Hörbuchverlage könnte es deutlich schwieriger werden, überhaupt wahrgenommen zu werden.

Langfristig besteht zudem die Gefahr, dass das Vertrauen in das Format Hörbuch insgesamt und nachhaltig leidet, wenn kein klares Auswahl- oder Qualitätsversprechen mehr mit einer Produktion verbunden ist.

Chris Kling: Eine große Chance liegt aus meiner Sicht darin, Hörinhalte zugänglich zu machen, die aus wirtschaftlichen Gründen niemals als menschlich produzierte Hörbücher realisiert worden wären. Gerade im Long Tail kann KI dazu beitragen, Inhalte überhaupt erst hörbar zu machen.

Die größte Stärke von KI sehe ich jedoch nicht im Nachahmen klassischer Hörbücher, sondern in der Entwicklung neuer, dynamischer und interaktiver Formate. KI-generierte Stimmen können Inhalte in Echtzeit wiedergeben und flexibel auf Personalisierung, Aktualisierungen oder User-Input reagieren. Hier entsteht das Potenzial zu einer völlig neuen Kategorie von Audioinhalten.

Das zentrale Risiko liegt darin, dass viele Publisher:innen aktuell versuchen, KI nach der Logik statischer Hörbuchproduktionen einzusetzen, indem menschlich produzierte Titel innerhalb bestehender Vertriebswege schlicht ersetzt werden. Dieses Modell halte ich mittelfristig für wenig tragfähig. Schon heute zeigt sich, dass KI-Audio zunehmend direkt über B2C-Apps der Tech-Anbieter oder über proprietäre Technologien großer Plattformen konsumiert wird und dabei klassische Vertriebs- und Verlagsstrukturen umgeht.

Wie sinnvoll ist es beispielsweise, Backlist-Titel auf diese schnelle und günstige Weise zu vertonen?

Chris Kling: Hier wäre ich als Verlag vorsichtig. Hochwertig kuratierte KI-Produktionen sind nach wie vor teurer, als häufig angenommen wird, und stehen oft in keinem klaren Verhältnis zur tatsächlichen Zahlungsbereitschaft des Marktes. Der wirtschaftliche Effizienzgewinn gegenüber günstigen menschlichen Produktionen relativiert sich dadurch deutlich.

Zudem bleibt fraglich, ob solche Produktionen für Hörer:innen einen ausreichend starken Mehrwert bieten, solange vergleichbare oder vollständig automatisierte Inhalte in vielen B2C-Apps kostenlos verfügbar sind. Ohne klare Differenzierung oder neue Nutzungsszenarien entsteht hier kaum ein tragfähiger USP.

„Wir reden hier darüber, einer kompletten Branche von kreativen Menschen die Existenzgrundlage zu entziehen“

Marlene Rauch: Ich komme selbst aus der professionellen Sprecher:innentätigkeit und übe sie manchmal auch immer noch aus. Meine Liebe zum Sprechen hat mich letztlich in die Rolle einer Verlagschefin geführt. Und natürlich muss ich als Unternehmerin auch unternehmerische Aspekte (Kosten/Nutzen) betrachten. Aber: Für mich steht der wirtschaftliche Vorteil hier in keinem angemessenen Verhältnis zum möglichen kulturellen Verlust.

Wir reden hier darüber, einer kompletten Branche von kreativen Menschen, die unser Land braucht, weil sie uns mit ihrem Können, ihren Stimmen und Emotionen berühren und Geschichten fühlbar erlebbar machen, die Existenzgrundlage zu entziehen. Wir reden darüber, dass man einem Kulturgut, das nicht umsonst seit Jahren einen Boom erfährt, den Qualitätsanspruch entzieht. Wir reden darüber, dass wir Qualität durch Quantität ersetzen. Für wen sollte das sinnvoll sein?

Effizienz und Margen dürfen in einem kulturellen Bereich nicht die ausschlaggebenden Entscheidungsparameter sein. Gerade weil das Hörbuch in den letzten Jahren einen so starken Boom erlebt hat, ist es wichtig, den Qualitätsanspruch nicht zugunsten maximaler Skalierbarkeit aufzugeben.

Ich bin mir bewusst, dass meine Antwort weniger neutral als vielmehr wertebasiert ist, aber es geht hier um so viel mehr als „nur“ um Geld. Ich hoffe sehr, dass unsere Branche hier zusammensteht und wir uns einig sind, dass wir uns in einer Kunstform bewegen, wo wir künstlicher Intelligenz keinen Platz einräumen sollten.

Dennoch erwägen einige Publisher:innen selbstverständlich die Möglichkeiten, beispielsweise auch der Internationalisierung …

Marlena Rauch: Die Internationalisierung ist grundsätzlich eine große Chance, ob mit oder ohne KI. Der Bedarf ist seit Jahren spürbar: Immer mehr internationale Autor:innen und Verlage suchen Wege, ihre übersetzten Werke auch als Hörbuch auf dem deutschen Markt zu platzieren. Aus meiner Sicht sollte die Frage aber weniger lauten, wie wir KI zur Internationalisierung nutzen können, sondern vielmehr, welche strukturellen Alternativen wir generell in diesem Bereich anbieten können.

Viele internationale Autor:innen fühlen sich auf dem deutschen Markt zunächst orientierungslos. Sie wissen nicht, wo sie ansetzen sollen, welche Partner:innen relevant und verlässlich sind oder wie Vertriebsstrukturen funktionieren. Genau in diesem ersten Schritt liegt großes Handlungspotenzial für deutsche Hörbuchverlage.

Im Laufe meiner Arbeit habe ich festgestellt, dass für eine erfolgreiche Zusammenarbeit nicht allein das Endprodukt ausschlaggebend ist. Entscheidend sind Vertrauen, transparente Prozesse, klare Kommunikation und verlässliche Ansprechpartner:innen.

Internationalisierung bedeutet für mich daher nicht, die möglichst günstigste Lösung anzubieten – etwa mit KI –, sondern langfristige Partnerschaften aufzubauen. Wir sollten zeigen, welchen Mehrwert eine professionelle, menschliche Interpretation bietet und warum sie gegenüber einer KI-Stimme emotional den Unterschied ausmacht.

„Sinnvoll wird Internationalisierung vor allem dann, wenn Inhalte kontextuell, kulturell und funktional angepasst werden“

Chris Kling: Technisch bietet KI große Möglichkeiten für Internationalisierung, etwa durch schnelle Sprachadaptionen oder mehrsprachige Varianten. Problematisch wird es jedoch, wenn dieses Potenzial lediglich genutzt wird, um bestehende Hörbuchmodelle in andere Sprachen zu exportieren. Nachhaltig sinnvoll wird Internationalisierung vor allem dann, wenn Inhalte kontextuell, kulturell und funktional angepasst werden – nicht allein durch automatisierte Übersetzung und Vertonung.

Wie stehen Sie zum Voice Cloning von prominenten Stimmen, die, einmal aufgenommen, auch für andere Produktionen eingesetzt werden könnten?

Chris Kling: Wenn das geklonte Stimmprofil letztlich wieder über klassische Text-to-Speech-Systeme bespielt wird, gelten aus meiner Sicht die gleichen Pro- und Contra-Argumente wie bei anderen KI-Stimmen. Die klangliche Nähe zu realen Stimmen ist bei vielen Anbietern inzwischen beeindruckend.

Offen bleibt jedoch die Frage nach der interpretatorischen Qualität. Stimme allein erzeugt noch keine Präsenz, Persönlichkeit oder erzählerische Tiefe. Ob und wie sich diese Dimensionen technologisch weiterentwickeln lassen, bleibt abzuwarten.

Marlene Rauch: Grundsätzlich sehe ich Voice Cloning nicht per se negativ. Entscheidend sind hier die Rahmenbedingungen. Wenn eine prominente Stimme bewusst ihre Einwilligung gibt und für jede einzelne Nutzung angemessen vergütet wird, halte ich das für legitim.

Die Vergütung müsste transparent geregelt sein und sich idealerweise an Empfehlungen oder Modellen orientieren, wie sie etwa vom Verband der Deutschen Sprecher:innen vorgeschlagen werden. Wichtig ist für mich vor allem die Kontrolle: Der oder die Sprecher:in muss jederzeit wissen, wofür die eigene Stimme eingesetzt wird und dieser Nutzung aktiv zustimmen.

Problematisch wird es dort, wo Stimmen ohne klare Rechtebasis geklont oder pauschal abgegolten werden.

Ob sich faire, praktikable Modelle für die Branche langfristig etablieren lassen, wird sich zeigen. Aber die Voraussetzung sollte immer Transparenz, Zustimmung und angemessene Vergütung sein.

„KI-Hörbücher sollten eindeutig gekennzeichnet sein“

Welchen (Mehr)wert bieten KI-Produktionen am Ende und wie geht man ggf. mit verärgerten Sprecher:innen und Hörer:innen um?

Marlene Rauch: Der zentrale Mehrwert von KI-Produktionen liegt in der Kosteneffizienz und dem damit verbundenen geringen wirtschaftlichen Risiko. Entscheidet sich ein Verlag für KI-Produktionen, halte ich Transparenz für zwingend erforderlich. KI-Hörbücher sollten eindeutig gekennzeichnet sein, sodass Konsument:innen bewusst wählen können. Eine klare Differenzierung, z. B. durch Preisgestaltung, könnte den Eindruck von Fairness vermitteln.

Chris Kling: Wir müssen uns in der Branche realistisch und ohne Beschönigung mit der Situation auseinandersetzen: Jede technologische Entwicklung bringt Vor- und Nachteile mit sich – sowohl für die erschaffende als auch für die konsumierende Seite. Die Entscheidung für KI fällt in der Regel nicht aus qualitativen Gründen, sondern aufgrund von Kosten- und Skaleneffekten. Menschliche Produktionen sind in manchen Fällen unter den aktuellen Marktbedingungen vielerorts schlicht nicht wirtschaftlich darstellbar, insbesondere bei steigenden Vorschüssen und gleichzeitig sinkenden Per-Title-Payouts. In diesem Spannungsfeld kann KI helfen, Inhalte überhaupt erst realisierbar zu machen.

Gleichzeitig halte ich es für ausgeschlossen, dass Produktionen mit künstlichen Stimmen in absehbarer Zeit an herausragende menschliche Darbietungen heranreichen, wie sie Hörer:innen insbesondere bei Spitzentiteln erwarten. Genau hier liegt die Verantwortung der Anbieter: durch transparentes Erwartungsmanagement die richtigen Inhalte in die passenden Nutzungskontexte zu lenken. Auf Plattformen, auf denen Konsument:innenen bewusst nach „Premium“-Erlebnissen suchen, sollte klar kommuniziert werden, welche Form der Produktion sie erwartet, um Enttäuschungen zu vermeiden.

In einem optimistischen Szenario kann die zunehmende Menge automatisiert erzeugter Inhalte sogar dazu führen, dass hochwertig produzierte, menschliche Audioformate stärker wahrgenommen und wertgeschätzt werden. Erste vergleichbare Entwicklungen lassen sich bereits in anderen Medienbereichen wie Social Media beobachten. Für talentierte Audioschaffende, die konsequent auf Qualität, Interpretation und ihre menschlich-kreativen Stärken setzen und sich zugleich in einem marktgerechten, fairen Preisrahmen bewegen, könnte diese Entwicklung langfristig sogar neue Chancen eröffnen.

Wie schafft man es in der Flut an Titeln, die durch KI potenziell entstehen kann, nicht unterzugehen?

Marlene Rauch: Indem man sich als Verlag klar positioniert und eine wiedererkennbare Markenidentität entwickelt. In einem Markt, in dem alles produziert werden kann, wird die Brand Identity entscheidend. Diese Identität kann sich über bestimmte Sprecher:innen, eine klare Genre-Positionierung oder ein konsistentes Produktionsniveau definieren. Wenn Hörer:innen wissen, wofür ein Verlag steht, entsteht eine Verbindung und ist diese einmal geknüpft, wissen sie auch, wonach sie suchen müssen.

Gleichzeitig gewinnen Social-Media-Reichweite und damit verbundene Community-Bindung massiv an Bedeutung. Wer eine direkte Beziehung zu seiner Zielgruppe aufbaut, ist weniger abhängig von der Sichtbarkeit auf den Plattformen. Hier wird die Kuratierung wichtiger denn je. In einer Flut an Titeln werden Empfehlungen, Playlists, redaktionelle Platzierungen und Algorithmen zunehmend darüber entscheiden, was wahrgenommen wird.

Chris Kling ist Gründer und Geschäftsführer von Klangkantine Studios, Klangkantine Audiobooks, des Audio-Tech-SaaS-Start-ups Narrafix und neuerdings des Hörbuchverlags Connecting the Dots. Seit den Anfängen als Produktionsstudio im Jahr 2009 beschäftigen er und sein Team sich seit 2016 zunehmend mit der Entwicklung neuer Audioformate und Produktionsprozesse. Dabei setzen sie innovative Ansätze wie die hauseigene Software „APP“ ein, um Branchenlösungen und Prozessoptimierungen anzubieten. Neben seiner unternehmerischen Tätigkeit lehrt Chris als Gastdozent an der Johannes Gutenberg-Universität Mainz, wo er sich im Fachbereich Buchwissenschaften auf Medienkonvergenz und KI konzentriert.

Marlene Rauch wurde 1985 in Göttingen geboren und entschied sich nach ihrem Studium der Indologie und Religionswissenschaften dazu, ihre Leidenschaft, das hobbymäßige Hörbuchsprechen, zu ihrem Hauptberuf zu machen. In den folgenden Jahren baute sie sich ein Netzwerk aus Sprecher:innen und Autor:innen auf, erkannte und nutzte das Potenzial von Selfpublisher-Autor:innen auf dem Hörbuchmarkt und rief 2017 Miss Motte AUDIO ins Leben, einen Dienstleister für die Produktion und den Vertrieb von Hörbüchern mit besonderem Augenmerk auf der Selfpublisherbranche.