Ein Hörbuch-Unternehmen, bei dem es nicht um Hörbücher geht

Carlo Carrenho über den ElevenLabs Summit

ElevenLabs gestaltet die Hörbuchbranche neu – doch der Londoner Summit des Unternehmens machte deutlich, dass Publishing nicht das Endziel ist. Für ein Unternehmen mit einer Bewertung von 11 Milliarden Dollar stellen Hörbücher nur einen von vielen vertikalen Geschäftsbereichen dar, nicht die Kernmission. Diese Unterscheidung könnte die Zukunft des Sektors definieren.

jumping-arrow-white

photo / Video: Carlo Carrenho

Anfang Februar versammelte sich Londons Verlagsbranche im Shaw Theatre im Stadtteil Euston zur Jahreskonferenz der Independent Publishers Guild (IPG). Künstliche Intelligenz dominierte die Diskussionen, wobei Berater George Walkley half, ein Gespräch zu moderieren, das zunehmend dringlich wirkte: Wie schnell entwickelt sich KI, und was bedeutet das für Verlage?

Doch etwa 16 Kilometer entfernt, in Greenwich, fand ein weiteres Event statt – eines, das sich letztlich als ebenso folgenreich für die Zukunft von Audio erweisen könnte.

Im Magazine London versammelten sich mehr als 1000 Teilnehmer:innen zum ElevenLabs Summit, dem zweiten globalen Treffen des KI-Sprachunternehmens nach seiner ersten Ausgabe in Kalifornien. Das Publikum bestand nicht in erster Linie aus Verlagsmenschen. Stattdessen spiegelte es ein breiteres Technologie-Ökosystem wider: Risikokapitalgeber, Unternehmenskunden, Fintech-Führungskräfte, Produktleiter, Berater und Entwickler.

In vielerlei Hinsicht war die Veranstaltung eng mit dem Verlagswesen verbunden. ElevenLabs ist heute wohl die einflussreichste Kraft im Hörbuchbereich. Seine Tools werden zunehmend in Arbeitsabläufe von unabhängigen und selbstveröffentlichenden Verlagen integriert und gewinnen auch bei größeren Verlagen an Bedeutung, die mit KI-gestützter Produktion experimentieren. Die zukünftige Wirtschaftlichkeit von Hörbüchern könnte nun teilweise an die Entwicklungsroadmap des Unternehmens gekoppelt sein.

Dennoch spielte das Verlagswesen auf der Bühne in Greenwich nur eine marginale Rolle. Das Wort „Hörbuch” tauchte nur flüchtig auf und wurde ein paar Mal ohne besondere Betonung erwähnt. Das traditionelle Verlagswesen war lediglich in Form von Logos – HarperCollins und Bertelsmann – auf einer Folie mit Partnerunternehmen vertreten. Im Mittelpunkt der Agenda standen nicht redaktionelle Arbeitsabläufe oder Rechtsstrategien, sondern KI-Agenten für Unternehmen, Kundendienstinfrastruktur und groß angelegte kommerzielle Einsätze.

Unknown

Agenten als Kernthema

Von Anfang an war die Botschaft klar.

In seiner Eröffnungsrede konzentrierte sich Mati Staniszewski, CEO von ElevenLabs, ganz auf KI-Sprachagenten. „Denken Sie an den Kundenservice”, begann er. „Unternehmen weltweit geben dafür jedes Jahr über 400 Milliarden Dollar aus, und im Allgemeinen ist die Erfahrung bestenfalls erträglich.” Er betonte: „Der durchschnittliche Einwohner Großbritanniens verbringt jedes Jahr 10 Stunden in der Warteschleife.” Dem konnte man kaum widersprechen.

Diese Lücke, so Staniszewski, stelle eine der größten unmittelbaren Geschäftsmöglichkeiten im Bereich der angewandten künstlichen Intelligenz dar.

Live-Demonstrationen untermauerten diesen Punkt. In einem Abschnitt simulierte Staniszewski Echtzeit-Interaktionen mit einer öffentlichen Einrichtung, einmal auf Englisch und einmal auf Polnisch, wobei er KI-Sprachagenten einsetzte, die flüssig und dialogorientiert reagierten. Der Schwerpunkt lag nicht auf synthetischer Erzählung als Inhalt, sondern auf der Stimme als Schnittstelle – als Infrastruktur.

Der Rest des Programms folgte diesem Beispiel:

  • Sebastian Siemiatkowski, CEO von Klarna, sprach über KI-gesteuerten Kundenservice in großem Maßstab.

  • In Podiumsdiskussionen wurden Marketinganwendungen und Implementierungsstrategien für Unternehmen erörtert.

  • Jonathan Abrahamson, Chief Product & Digital Officer bei der Deutschen Telekom, brachte die Perspektive der Telekommunikationsbranche ein.

  • Der Gipfel endete mit einem Gespräch zwischen Doug Leone von Sequoia Capital und Staniszewski über Risikokapital, in dessen Mittelpunkt das Wachstum von Start-ups und die Investitionsdynamik standen.

Die Botschaft war unmissverständlich: ElevenLabs positioniert sich nicht als Medienunternehmen, sondern als grundlegende Sprachtechnologie-Plattform für globale Unternehmen.

IMG_3484

Konzentrierte sich ganz auf KI-Sprachagenten: Mati Staniszewski, CEO von ElevenLabs

Ein stiller Schritt in Richtung Hörbücher

Doch nur zwei Tage vor dem Gipfel unternahm ElevenLabs einen Schritt, der direkt auf Verlage abzielte.

Das Unternehmen startete eine spezielle Produktionsumgebung für Hörbücher innerhalb seiner ElevenCreative, seiner umfassenden KI-gesteuerten Kreativplattform. Das Update vereint das Hochladen von Manuskripten, die Sprachgenerierung, die Bearbeitung und den Export in einer einzigen Schnittstelle, die speziell für die Produktion von Langform-Audiodateien entwickelt wurde.

Durch dieses konsolidierte Ökosystem können Verlage und Autoren nun fertige Hörbuchdateien an einem Ort erstellen, bearbeiten und herunterladen und sie dann direkt auf Plattformen wie Spotify oder über InAudio, den auf der zuvor von Findaway entwickelten Infrastruktur aufgebauten Vertriebszweig, vertreiben.

Bisher fühlte sich die Erstellung von Hörbüchern innerhalb der Plattform modular an – leistungsstark, aber etwas an allgemeine Sprachtools angepasst. Die neue Version ist zweckmäßiger gestaltet, was darauf hindeutet, dass das Verlagswesen auch weiterhin ein strategisch wichtiger Bereich bleibt, selbst wenn es nicht die größte Einnahmequelle des Unternehmens ist.

Im Vergleich zum Kundenservice für Unternehmen ist der globale Hörbuchmarkt klein. Aber proportional gesehen erhalten Hörbücher weiterhin Aufmerksamkeit innerhalb der Produktentwicklung von ElevenLabs. Dafür gibt es auch einen technischen Grund: Professionell vertonte Hörbücher, die mit dem Text abgestimmt sind, liefern hochwertige Trainingsdaten für Sprachmodelle. Für KI-Systeme, die Kadenz, Tempo und Aussprache lernen, ist das Verlagswesen nicht nur ein Kundensegment, sondern ein Entwicklungsgut.

Die 11-Milliarden-Dollar-Geschwindigkeit

Staniszewski hob auch die jüngste Finanzierungsrunde des Unternehmens in Höhe von 500 Millionen Dollar hervor, die seine Bewertung auf 11 Milliarden Dollar brachte – eine Bewertung, die die Marke und die Glückszahl des Unternehmens treffend widerspiegelt.

ElevenLabs wurde 2022 gegründet und ist mit ungewöhnlicher Geschwindigkeit gewachsen. Noch vor wenigen Jahren war die Sprach-KI eine fragmentierte Landschaft, die von Start-ups und experimentellen Tools geprägt war. Einige der frühen Akteure sind inzwischen verschwunden, andere bleiben Nischenanbieter. Selbst Google hat trotz seiner enormen Ressourcen Schwierigkeiten, eine maßgebliche kommerzielle Plattform für synthetische Stimmen aufzubauen.

ElevenLabs hat einen anderen Weg eingeschlagen: aggressive Produktisierung, API-gesteuert und stark fokussiert auf die praktische Umsetzung in verschiedenen Branchen.

Für das Verlagswesen sind die Auswirkungen erheblich.

Die verschwindende Hörbuchdatei

Eines der disruptivsten Elemente im Ökosystem des Unternehmens ist die ElevenReader-App. Anstatt eine vorproduzierte Hörbuchdatei zu benötigen, ermöglicht die App die Echtzeit-Umwandlung eines E-Books in Sprache. Ein Verlag lädt den Text hoch, der Nutzer wählt einen Sprecher aus und hört zu. Die kommerzielle Transaktion mag wie ein E-Book-Verkauf strukturiert sein, aber das Konsumverhalten wird audio-first.

Dieser Ansatz wirft offensichtliche Fragen zu Rechten und Lizenzen auf. Amazon sah sich 2009 ähnlichem Widerstand gegenüber, als es die Kindle-Text-to-Speech-Funktion einführte. Verlage erhoben Einwände aus rechtlichen Gründen, und Amazon erlaubte schließlich Opt-outs, die das Potenzial der Funktion zunichte machten. Aber Rechtsrahmen entwickeln sich im Laufe der Zeit weiter.

Bei Sachbüchern – insbesondere englischsprachigen, von einer einzigen Stimme vorgetragenen – argumentieren einige Beobachter, dass KI-Stimmen in vielen Kontexten bereits kommerziell rentabel sind. Bei Belletristik sieht das anders aus. Eine emotionale, nuancierte Darbietung mit mehreren Charakteren erfordert nach wie vor das, was menschliche Sprecher einzigartig leisten können: einen wesentlichen qualitativen Vorteil, der vorerst unersetzbar bleibt.

Dies führt zu der zentralen strategischen Frage: Wie weit wird ElevenLabs die Perfektion verfolgen?

Die letzte Meile

Hörbücher stellen eine der höchsten Qualitätsanforderungen für Sprach-KI dar. Literarische Erzählungen erfordern emotionale Präzision, Charakterdifferenzierung, Tempo und Tonkontrolle. Der Übergang von einer nahezu menschlichen zu einer von Menschen nicht zu unterscheidenden Darbietung kann erhebliche zusätzliche Investitionen erfordern.

Aus Marktperspektive stellen Unternehmensagenten und Kundenservice den Verlagsbereich in den Schatten. Ein plausibles Szenario ist, dass ElevenLabs nicht die vollständige literarische Perfektion anstrebt, sondern sich stattdessen auf eine skalierbare Sprachinfrastruktur konzentriert. In diesem Fall könnte die Erzählung von Premium-Belletristik weiterhin überwiegend von Menschen übernommen werden, während KI-Stimmen im Verlagswesen ihre Nische in Sachbüchern, Bildungsmedien und kleineren Sprachmärkten finden, in denen sich die traditionelle Produktionsökonomie nicht rechnet.

Das alternative Szenario ist strategischer. Je näher ElevenLabs der literarischen Erzählkunst kommt, desto besser lässt sich seine Technologie branchenübergreifend verteidigen. Das Streben nach Perfektion bei Hörbüchern zielt demnach nicht darauf ab, das Verlagswesen an sich zu erobern, sondern, die technologische Grundlage für alle anderen Anwendungen zu stärken.

Ein Akteur im Verlagswesen – ohne einer zu sein

Auf dem Gipfeltreffen in Greenwich wurde deutlich, dass ElevenLabs sich nicht als Verlag positioniert. Seine Ambitionen sind weitreichender, und seine primären Geschäftsmöglichkeiten liegen in der unternehmensweiten Bereitstellung und der KI-Sprachinfrastruktur in verschiedenen Branchen.

Dennoch ist sein Einfluss auf das Verlagswesen bereits spürbar.

Durch die Neudefinition der Beziehung zwischen Text und Sprache, durch die Entwicklung von Modellen, die die Grenze zwischen E-Book und Hörbuch verwischen, und durch die stetige Verringerung der Leistungsunterschiede zwischen menschlicher und synthetischer Erzählung gestaltet ElevenLabs die strategische Landschaft des Audio-Verlagswesens neu. Seine Entscheidungen – über Qualitätsschwellen, Vertriebsarchitektur, Preisgestaltung und Produktintegration – werden sich auf den gesamten Hörbuchmarkt auswirken.

ElevenLabs ist kein Verlag. Aber heute ist es einer der wichtigsten Akteure im Verlagswesen – und eine der wichtigsten Kräfte, die die Welt der Hörbücher prägen –, auch wenn es weit über diesen Bereich hinaus tätig ist.

carlos-carrenho-cda-500x749

Carlo Carrenho ist ein in Schweden ansässiger Verlagsberater und Mitglied der Beratungsfirma Alpine Global Collective.