«Mit KI sprenge ich die Grenzen meiner Stimme»

Die US-Musikerin Holly Herndon wirkt als Pionierin an der Schnittstelle von Musik und Technologie. Permanent auf der Suche nach neuen Formen des kreativen Zusammenspiels hat sie sich weit vor dem aktuellen KI-Hype mit den Möglichkeiten der Co-Kreation von Mensch und Maschine auseinandergesetzt – und definiert damit die Grenzen des musikalischen Schaffens neu.

Von Samuel Näf · 13. November 2024

Auch visuell spielt Herndon gekonnt mit den Grenzen zwischen Realität und Digitalität. (Foto: Andrés Mañón)

Die einzigartige Textur und Klangfarbe der eigenen Stimme gilt gemeinhin als grösstes Gut einer Sängerin. Eine Coverband kann noch so gut sein, beim Konzert vermisst das Publikum schnell einmal die vertraute Originalstimme. Doch was passiert mit einer Künstlerin, wenn jeder und jede mit ihrer Stimme «singen» kann?

Digitales Double

«Ich habe mich nie als richtige Sängerin gesehen», sagt die in Berlin lebende Künstlerin Holly Herndon über sich selbst. Trotzdem – oder gerade deshalb – steht die Stimme im Zentrum ihres Schaffens: Lange bevor KI-generierte Stimmen in der öffentlichen Diskussion angekommen sind, hat sie sich mit KI-Anwendungen in der Musik beschäftigt. Mit ihrer Arbeit bewegt sich Herndon, die am Center for Computer Research in Music and Acoustics der Stanford University promoviert hat, im Spannungsfeld von Musik, Forschung und Technologie. Gemeinsam mit ihrem Partner Mat Dryhurst experimentiert sie seit Jahren mit neuronalen Netzen, die sie mittels ihrer eigenen und fremder Stimmen trainiert, um so völlig neue Werke zu schaffen. Mit «Spawn» (engl. für etwas entstehen lassen) schuf Herndon ein von rund 50'000 Stimmen trainiertes Modell. Bei der Produktion ihres Albums «Proto» im Jahr 2019 ergänzte sie ihre Gesangsspuren und die ihres Berliner Chors mit computergenerierten Zwillingsstimmen zu einer Art Hybrid-Ensemble. Doch die neugierige Künstlerin ging noch einen Schritt weiter: Mit Holly+ hat sie ein im Internet frei verfügbares, viel beachtetes digitales Gesangsreplikat ihrer selbst geschaffen. Oder wie es die Musikerin selbst beschreibt:

Holly+ ist eine kollektive Halluzination, wer ich bin, gefiltert durch das Internet. Holly Herndon

Spawning ist das Sampling des 21. Jahrhunderts

Für den Prozess, bei dem eine durch Machine Learning trainierte KI ein neues Werk generiert, haben Herndon, Dryhurst und ihr Team den Begriff «Spawning» geprägt. Holly+ ist in der Lage, das Timbre – die charakteristische Klangfarbe – einer Stimme zu imitieren. Das eröffnet völlig neue Möglichkeiten im Einsatz der eigenen Stimme: «Mit der KI-Version kann ich die Grenzen meiner physischen Stimme überwinden. Und mehr: Holly+ kann in jeder Sprache und jeder kulturellen Tradition singen», führt Herndon aus. Inzwischen ist auch eine Version des Tools verfügbar, die in Echtzeit funktioniert und so auch bei Live-Auftritten eingesetzt werden kann. Diese ist jedoch noch weit davon entfernt, perfekt zu klingen. Durch die Echtzeitverarbeitung hat sie einige Schwächen und man hört ihr den künstlichen Anteil deutlich an. Trotzdem ist erstaunlich, welche Wirkung erzielt werden kann, wenn entweder Holly Herndon ihre eigene Stimme mit Holly+ effektvoll erweitert oder auch ein ganz anderer – auch männlicher – Künstler plötzlich wie Herndon klingt.

Die eigene Stimme als Allgemeingut

Herndon glaubt, dass künstliche Intelligenz die Art, wie Künstlerinnen und Künstler kreativ tätig sind, grundlegend verändern wird. «Es ist nicht mehr die Skulptur oder das Gemälde: Das Modell selbst ist das Kunstwerk. Und es kann unendlich viele Werke generieren.» Mit der rasanten Verbreitung von ChatGPT, Midjourney und anderen Tools der generativen KI ist die Diskussion um Deepfakes bekannter Künstler:innen in der öffentlichen Wahrnehmung angekommen. Mit KI erstellte Songs von Drake oder Eminem wurden beinahe so schnell wieder offline genommen, wie sie entstanden waren. Umso bemerkenswerter ist Herndons Umgang mit ihrem digitalen Stimmklon: Eine dezentralisierte autonome Organisation (DAO) wacht darüber, wer mit Holly+ erstellte Werke kommerziell nutzen darf. Die DAO setzt sich aus Freunden und Unterstützerinnen zusammen, die Anspruch auf einen Teil der Gewinne aus den neuen Werken haben. Ein weiterer Teil der Einnahmen fliesst in die Weiterentwicklung und auch die Künstler:innen als Urheber:innen der neuen Werke partizipieren daran. Indem sie nicht nur neue Kunst kreiert, sondern gleichzeitig auch neue Verwertungsmodelle exploriert, verfolgt Herndon einen holistischen Ansatz in ihrem künstlerischen Schaffen.

2023 wurde Holly Herndon vom Time Magazine zu den 100 wichtigsten Personen im Bereich KI gezählt. (Foto: Boris Camaca)

«Wem gehört heutzutage eine Stimme?» Herndon wirft diese Frage immer wieder auf. Sie ist überzeugt, dass eine Stimme immer ein Produkt der Gesellschaft ist: «Ich habe gelernt, meine Stimme zu benutzen, indem ich die Menschen um mich herum durch die Sprache nachgeahmt habe, durch die jahrhundertelange Entwicklung der Sprache oder auch durch Gesangsstile. In der Popmusik ahmt man oft etwas nach, was vorher da war, und drückt dann seine Individualität durch diese Art von Gemeinschaftsstimme aus.» Daher sei es nichts als logisch, dass sie die Kontrolle über ihre Stimme in die Gemeinschaft zurückgebe.

Holly+ kann in jeder Sprache und jeder kulturellen Tradition singen. Holly Herndon

Herndon vergleicht die Ausgangssituation und das Schaffen neuer Werke mithilfe von Holly+ mit den Anfängen des Samplings in der Musik, also der Übernahme einzelner Soundelemente aus bestehenden Werken für eigene Songs. Auch damals habe es keine Lizenzierungsstruktur gegeben. Diese habe sich erst noch entwickeln müssen. Die Technik des Samplings habe aber schliesslich zu einer ganz neuen, unglaublich vielfältigen Kreativität geführt. Dasselbe erwartet die 44-jährige Künstlerin als Folge der Machine-Learning- oder KI-Anwendungen in der Kunst. Der eigentliche Wert ihrer Arbeit liegt deshalb nicht nur in ihrer Musik, sondern auch im Experimentieren mit neuen Verwertungs- und Lizenzierungsmodellen wie z. B. der DAO.

Von der Musik zur eigenen Consent-Software

Bei ihren Versuchen mit KI-Modellen und Machine Learning erkannten Holly Herndon und ihr Team früh, dass die Verwendung eigener Kunstwerke für das Training von KI-Modellen unweigerlich zu grossen Diskussionen führen wird und dem Einwilligungsprozess eine wichtige Rolle zukommen würde. Deshalb haben Herndon und Dryhurst eine Software entwickelt, mit der sich prüfen lässt, ob eigene Werke für das Training grosser KI-Modelle wie Stable Diffusion verwendet worden sind. In einem zweiten Schritt haben sie den Einwilligungsmechanismus dazu gebaut: Mit wenigen Klicks lässt sich ein Werk vom Training ausnehmen. Damit bereiten sie sich auf das kulturelle Ökosystem der Zukunft vor und versuchen, ihren Beitrag zur Lösung von Urheberrechts- und Lizenzierungsfragen im Zeitalter der generativen KI zu leisten.

Erlauben es technische Hilfsmittel wie Holly+ Cover-Bands dereinst, mit der unverkennbaren Stimme des Originalsängers oder der Originalsängerin aufzutreten? Oder wie Herndon es ausdrückt: Herndon hat darauf derzeit noch keine Antwort. Doch es scheint, als sei sie in ihrer schier unersättlichen Neugier und Experimentierfreude im Begriff, die Antwort auf diese Frage zu entdecken.

Die Wahl-Berlinerin stammt ursprünglich aus den USA. (Foto: Boris Camaca)

Über Holly Herndon

Die 44-jährige US-Künstlerin Holly Herndon wurde 2023 vom «Time Magazine» zu den wichtigsten 100 Personen im Bereich der künstlichen Intelligenz gezählt. Ihren Ph.D. hat sie am Center for Computer Research in Musics and Acoustics der Stanford University absolviert. Für ihre Werke greift die in Berlin lebende Musikerin auf eine selbst entwickelte KI ihrer eigenen Stimme zurück und sprengt Genregrenzen. Ihre Arbeit präsentiert Herndon regelmässig an den renommiertesten internationalen Kunstfestivals oder bei TED-Talks.

Zur Musik von Holly Herndon bei Youtube, Spotify und Apple Music