„Die entscheidende Frage: Ist das ein gutes Hörerlebnis?“

Wie Bookwire und ElevenLabs mit synthetischen Stimmen neue Erlöspotenziale für Verlage schaffen – und wo die Technologie an ihre Grenzen stößt

Nur ein Bruchteil aller weltweit veröffentlichten E-Books schafft jemals den Sprung zum Hörbuch – oft scheitert es an den hohen Kosten einer klassischen Studioproduktion. Eine neue strategische Partnerschaft zwischen dem Frankfurter Digital-Publishing-Experten Bookwire und der führenden KI-Audio-Plattform ElevenLabs soll das nun grundlegend ändern. Durch den Einsatz hochentwickelter, synthetischer Stimmen wollen die beiden Unternehmen neue globale Zielgruppen erschließen und Verlagen zusätzliche Umsatzkanäle eröffnen. Doch wie reagieren Autorinnen und Autoren und Verlage auf den Einzug der Künstlichen Intelligenz in die Audio-Welt? Wo liegen die wirtschaftlichen Chancen und wo die unüberwindbaren Grenzen der Technologie? Bookwire-Co-CEO John Ruhrmann im Interview über die Zukunft des Hörens, das umstrittene „Voice Switch“-Feature und den verantwortungsvollen Umgang mit KI-generierten Inhalten.

Published: 19.5.2026 | Photo / Video: ElevenLabs, Youtube

Was zeichnet ElevenLabs aus eurer Sicht aus? Warum die Kooperation?

ElevenLabs gehört aus unserer Sicht zu den technologisch führenden Anbietern im Bereich KI-generierter Stimmen. Entscheidend ist dabei nicht nur die reine Sprachqualität, sondern auch die internationale Skalierbarkeit.

Für Bookwire ist das ein konsequenter nächster Schritt: Wir wollen Verlagen zusätzliche Wege eröffnen, ihre Inhalte hörbar, auffindbar und monetarisierbar zu machen. Dabei geht es nicht darum, klassische Hörbuchproduktionen zu ersetzen, sondern Programme zu erweitern – insbesondere dort, wo eine vollwertige Studioproduktion wirtschaftlich bisher nicht darstellbar war.

Was ist ElevenReader?

ElevenReader ist die E-Book und Hörbuch-App von ElevenLabs, dem führenden Start-up im Bereich synthetischer Stimmen. Die App ermöglicht es Nutzern, digitale Titel in individuell wählbarer Stimme oder Lesegeschwindigkeiten zu hören. Die Technologie unterstützt zudem über 30 Produktsprachen und bietet eine Read Aloud Funktion für E-Books an. Das Geschäftsmodell umfasst klassisches Download-To-Own sowie ein Flat-Subscription Angebot.

Wie reagieren Autor:innen und Verlage auf synthetische Stimmen? Wie groß sind die Vorbehalte?

Die Reaktionen sind differenziert. Es gibt großes Interesse, weil viele Verlage sofort erkennen, dass KI-Audio neue Erlöspotenziale für Titel schafft, die bislang gar nicht als Hörbuch erschienen wären. Gleichzeitig gibt es weiterhin berechtigte Vorbehalte – vor allem bei Fragen der Transparenz, Qualität, Rechte, Sprechervergütung und Markenwirkung.

Unsere Erfahrung ist: Die Akzeptanz steigt, wenn klar ist, dass Verlage und Rechteinhaber die Kontrolle behalten, dass KI-Audio transparent gekennzeichnet wird und dass es nicht als Ersatz für hochwertige menschliche Produktionen positioniert wird. Wichtig ist ein verantwortungsvoller Einsatz. Es muss zum Titel, zum Genre, zur Zielgruppe und zur verlegerischen Strategie passen.

„Der größte Mehrwert liegt primär in der Backlist“

Welche Erfahrungen habt ihr mit der Qualität KI-generierter Audioinhalte gemacht? Wo gelingt es gut, wo gibt es Probleme?

Die Qualität hat sich in den letzten Jahren enorm verbessert. Bei klar strukturierten Texten, insbesondere Sachbuch, Ratgeber, Fachbuch, Backlist-Titeln oder erzählerisch eher linearen Stoffen, kann KI-Audio heute bereits sehr überzeugende Ergebnisse liefern.

Grenzen sehen wir weiterhin bei stark literarischen Texten, Dialogen, Humor, Ironie, Dialekten, sehr emotionaler Dramatik oder komplexer Figurenführung. Ein guter menschlicher Sprecher interpretiert einen Text, setzt Subtext, Rhythmus und Pausen bewusst ein. KI kann das zunehmend besser simulieren, aber nicht in jedem Fall auf dem Niveau einer hochwertigen Studioinszenierung leisten.

Über die Partnerschaft Elevenlabs und Bookwire

Die Zusammenarbeit von ElevenLabs und Bookwire verknüpft die Sprachtechnologie von ElevenLabs direkt mit der Vertriebsinfrastruktur von Bookwire. Während das Software-Unternehmen ElevenLabs die künstlichen Stimmen für die Vertonung in mehr als zwölf Sprachen bereitstellt, übernimmt der Digitaldienstleister Bookwire die Bereitstellung der E-Book-Kataloge seiner Vertragshändler sowie die Klärung der Distributionsprozesse. Für die beteiligten Verlage soll das Modell eine risikoarme Möglichkeit bieten, insbesondere ältere Titel oder Nischengenres nachträglich als Audio-Version zu verlegen, bei denen eine klassische Studioproduktion bisher nicht wirtschaftlich war. Damit adressiert die Kooperation ein bestehendes Marktsegment: die Digitalisierung von Buchbeständen, die mangels Produktionsbudgets bislang exklusiv als Text vorlagen.

Für welche Titel oder Segmente seht ihr den größten Mehrwert?

Der größte Mehrwert liegt zunächst in der Backlist und bei Titeln, die aus wirtschaftlichen Gründen bisher nicht vertont wurden. Besonders interessant sind Sachbücher, Ratgeber, Fachbücher, Wissenschaft, Business, Spiritualität, Selfpublishing-Programme, Nischengenres und fremdsprachige Rechte.

Bei Belletristik kommt es stärker auf den einzelnen Titel an. Genre Fiction mit klarer Erzählstruktur kann funktionieren. Hochliterarische Titel oder Werke, bei denen die Sprecherleistung ein zentraler Teil des Produkts ist, bleiben eher Kandidaten für klassische Produktionen.

Seht ihr Hybridmodelle – etwa menschliche Einleitung, KI für den Haupttext?

Denkbar sind menschlich gesprochene Vorworte, Kommentare, Interviews oder kuratierte Rahmungen, kombiniert mit KI-Narration für den Haupttext.

Das Entscheidende wird sein, solche Formate nicht als Sparmodell zu denken, sondern als neues Produktionsmodell mit klarer Qualitätskontrolle.

„Eine internationale Rechteverwertung wird spannender“

Welche neuen Modelle oder Formate sind denkbar?

Wenn die technischen Möglichkeiten von Plattformen ausgeschöpft werden, könnten wir mehr dynamische Audioformate sehen: mehrsprachige Versionen, personalisierte Stimmen, kapitelweise Updates bei Fachbüchern, Audio-Zusammenfassungen, Companion-Formate, Lernfassungen usw. könnten Nutzerbedürfnisse noch besser abholen.

Auch eine internationale Rechteverwertung wird spannender: Ein deutscher Verlag kann künftig viel schneller testen, ob ein Titel in anderen, auch kleineren, Sprachräumen als Audio funktioniert.

Aktuell sind nur etwa 5 bis 10 Prozent der Bücher als Hörbuch verfügbar. Wie könnte sich das entwickeln?

Wir gehen davon aus, dass dieser Anteil in den nächsten Jahren deutlich steigen wird. ElevenLabs spricht selbst davon, dass heute nur etwa 5 Prozent der veröffentlichten Bücher als Audio existieren – in kleineren Sprachmärkten noch weniger. (ElevenLabs)

Bis 2030 könnte Audio für viele Neuerscheinungen und große Teile relevanter Backlists selbstverständlich mitgedacht werden. Nicht jeder Titel wird eine Premium-Studioproduktion bekommen, aber deutlich mehr Titel werden überhaupt hörbar sein.

Wie sieht das Hörbuch-Ökosystem 2030 aus? Gibt es dann noch klare Unterschiede zwischen KI und Mensch?

Wenn nicht jetzt schon, dann wird 2030 Audio noch stärker Teil des gesamten digitalen Publishing-Ökosystems sein. Die Grenze zwischen E-Book, Hörbuch, Podcast, Zusammenfassung und interaktivem Audio kann auch durchlässiger werden.

Ob Nutzer immer oder für immer eindeutig unterscheiden können und wollen, ob eine Stimme menschlich oder synthetisch ist, bleibt vorsichtig ausgedrückt: „offen“. Aber aus unserer Sicht sollte die Kennzeichnung klar bleiben. Transparenz ist zentral für Vertrauen. Gleichzeitig wird die entscheidende Frage weniger lauten: „Ist das KI oder Mensch?“, sondern: „Ist das ein gutes Hörerlebnis?“
Die Möglichkeit zum Switch der Erzählstimme verhindert nachweislich den Abbruch des Hörbuchkonsums, sagen die Plattformen, und das ist ein gutes Argument, über diese Technologie positiv nachzudenken.

„Menschliche Sprecher bleiben unverzichtbar“

Hat das Hörbuch mit menschlichen Sprechern noch eine Zukunft?

Ja, unbedingt. Menschliche Sprecher haben nicht nur eine Zukunft, sondern bleiben für viele Produktionen unverzichtbar. Gerade bei literarischen Titeln, großen Autorinnen und Autoren, bekannten Stimmen, Kinderhörbüchern, aufwendig inszenierten Produktionen oder emotional anspruchsvollen Stoffen ist die menschliche Interpretation ein zentraler Wert.
Und besonders wichtig ist doch auch: Verlage haben die Wahl, welche Technologie sie einsetzen wollen oder eben wie sie produzieren wollen. Die Möglichkeiten werden größer und der Verlag wird entscheiden, gemeinsam mit den Autorinnen und Autoren, wie deren Hörbücher vertont oder deren E-Books vorgelesen werden können, ob mit menschlicher oder mit künstlich erzeugter Stimme.
Außerdem dürfen wir nicht vergessen: Die Konsumenten entscheiden mit, was gefällt. Qualität und ob es zum Produkt passt, kann man nicht nur mit Technik, sondern nur mit Geschmack und Stil sowie Kunstfertigkeit beantworten.

Gleichwohl: KI-Audio erweitert den Markt. Es ersetzt nicht die wunderbare Kunst des Sprechens. Im besten Fall entsteht ein größeres Hörbuch-Ökosystem: mehr verfügbare Titel, mehr Formate, mehr internationale Reichweite – und weiterhin starke, ggf. auch Premiumproduktionen mit menschlichen Stimmen dort, wo sie den größten Mehrwert schaffen.

John Ruhrmann ist Mitgründer und Co-CEO von Bookwire. Mit seiner umfassenden Erfahrung im globalen Audioverlagswesen beschäftigt er sich intensiv damit, wie Künstliche Intelligenz das Verlagswesen, die Lizenzierung, das Marketing, die Produktion und denVertrieb entlang der gesamten Audio-Wertschöpfungskette transformiert.