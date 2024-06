Künstliche Intelligenz als Musikproduzent

Musik Services erstellen mit Hilfe von künstlicher Intelligenz komplette Lieder – das Ende ist nah, die Generierung von KI-Musik ist möglich! Jedenfalls wenn man besorgten Stimmen glauben möchte, die die Errungenschaften der LXM-Modelle (L = Large, M = Model und für X setze man Language, Music oder Image ein) als Gefahr für den Musiker, die Menschen, ja die Musik und Kunst an sich ansehen. Man kann sich aber auch einfach sachlich mit dem Thema beschäftigen und davon ausgehen, dass dieser Geist nicht mehr zurück in die Flasche zu bekommen ist.

Die ethische Frage des, aus Sicht des LMM Parameter-, aus menschlicher Sicht Musik-Materials, ist auch dabei nicht wirklich geklärt. Aber auch das ist eine Diskussion für einen anderen Tag, beziehungsweise letztendlich eine für Anwälte und Richter. Der Trend der Internet-Portale (siehe Reddit) geht eher in die Richtung: „Wenn ihr schon die Daten unserer User abgreift, dann wollen wir dafür auch bezahlt werden“ – nur schade, dass die eigentlichen Ersteller der Inhalte, die Spezies der Internet-User auch davon nichts haben. Sie werden einfach gemolken und die einzige Maßnahme kann nur Enthaltung von den digitalen sozialen Geflechten sein.

Auch ich verstehe die Befürchtungen und kann den Argumentationen der Kritiker folgen – und vielleicht erweist sich das Ganze ja auch als Sturm im Wasserglas. Bis dahin müssen wir uns aber wohl mit dem Status Quo abfinden; und das bedeutet auch eine unkritische Beschäftigung mit dem Thema der Musik generierenden KI-Technologie. Hier und heute in der Form von SUNO und UDIO, die abgesehen von der schrecklichen Namensgebung (es soll wohl hip sein) einiges gemeinsam haben, sich aber auch in Handhabung und Ergebnis zum Teil deutlich unterscheiden.

Wie erstelle ich mit SUNO und UDIO KI-Musik?

Was machen nun eigentlich diese KI-Musik Service Portale? Nach einer Anmeldung, die ausschließlich über die üblichen Gatekeeper-Accounts (Facebook, Google etc.) erledigt werden kann, präsentieren sich beide Portale als Web-App.

Sowohl SUNO als auch UDIO sind zunächst ohne Kosten nutzbar – dafür ist einfach die Anzahl der Anfragen und die Geschwindigkeit der Erzeugung begrenzt. Es gibt auch Bezahlpläne für monatliche oder jährliche Abrechnungen sowie den Direkterwerb von „Credits“, mit dem die Ergebnisse bezahlt werden können. Die Pläne sind übrigens preislich absolut identisch und auch die Standard- und Premium-Eigenschaften lesen sich ähnlich, heißen nur etwas anders beim Mitbewerber.

Die Erstellungsdauer beträgt maximal eine Minute, wobei SUNO ein wenig schneller arbeitet. Zudem kann das Ergebnis schon abgehört werden, bevor die ganze Länge kreiert wurde. Der Browser wird hier also zur Arbeitsoberfläche, auf der Songs erstellt werden können – aber wie werden sie erstellt?

Nun, es kann in der Prompt-Zeile des KI-Musik Service einfach eine Beschreibung dessen eingeben werden (auf Englisch, versteht sich), was der Musik Service kreieren soll. Z.B. „A heavy Rock song with vocals about the loss of a Dollar bill“. Daraufhin wird das Prompt von einem LLM „zerlegt“ und anhand der Abermillionen Parameter in Anweisungen für den Prozess der Musik-Generierung umgesetzt. Ein Liedtext kann eingegeben werden oder es wird anhand der Anfrage etwas generiert; auch ein Stichwort kann eingegeben werden, auf dem der Liedtext dann aufbaut und ebenfalls automatisch generiert wird.

UDIO hat dabei auch einen „manual mode“, in dem einfach Genre-Beschreibungen aneinander gekettet werden. Also sowas wie „Jazz, Fusion, Klezmer, Pop“. Das wird dann ungefiltert an das LMM gegeben und dieses versucht, daraus etwas zusammenzustellen.

Das Ergebnis eines KI-Musik Service Prompts

Danach finden sich zwei Variationen (denn es werden immer zwei erstellt) in der Liste. Diese werden zudem mit (ebenfalls von einem Generator erstellen) Bildern dargestellt. Zum Download stehen bei SUNO zudem auch Videos bereit, mit dem Bild und dem Text für eine Karaoke-Präsentation. In UDIO ist nun eine sehr praktische Baum-Ansicht möglich, in der eingesehen werden kann, wie der Song-Schnipsel erweitert wurde.

Bevor wir uns eingehender mit den Erweiterungsfunktionen befassen, juckt es mich in den Prompt-Fingern und so gebe ich beiden LMMs das Prompt, dass wohl jeder vernünftige Mensch als erstes in einen KI Musik Service eingeben würde.

„A hardcore heavy metal song about loosing ones job to an AI and being happy about it.“

Vor dem Anhören vielleicht den Kaffee fertig trinken und die Tasse beiseite stellen – ich spreche aus leidvoller Erfahrung beim Aufwischen.

[Verse]

Ripped apart by the gears of automation

My job taken by the cold AI invasion

No more chains

No more corporate manipulation

I’m set free

Embracing liberation [Verse 2]

Metallic demons replaced my occupation

But I’m smiling Feeling the intoxication

No more slave to the grind

No more desperation

Embracing the chaos

The ultimate sensation [Chorus] Losing my job to an AI

Feels like redemption

Burning bridges

Embracing my own exemption

No longer bound by a life of conformity

In this metal inferno

I’ll forge my destiny

You took my place, a metal face

(Unforgiving)

Said I can’t keep the pace

But now I’m truly living

[Bridge]

I’m free from your way

My own path I now lay

Auch Nicht-Experten des Genres dürften die Songs metallisch (SUNO) bzw. eisern jungfräulich (UDIO) vorkommen – das könnte am Ende des Tages doch zu einigen rechtlichen Komplikationen für solche KI Musik Services führen.

In diesem Fall hat meiner Meinung nach SUNO die Nase vorn, vor allem weil der Text tatsächlich dem Prompt entspricht, während der Liedtext von UDIO eher vage mit dem Thema zu tun hat. Musikalisch finde ich beide ok.

Die erstellten Stücke des KI-Musik Service können dann als MP3 (SUNO: 192 KBPS, UDIO 386 kbps) heruntergeladen oder direkt über soziale Netzwerke geteilt werden.

Die Qualität ist also nicht in der niedrigen Bit-Rate des MP3-Downloads begründet. Diese 64 kbps Ästhetik liegt zur Zeit noch in der Natur der Sache und ist natürlich eines der Hauptfokusfelder, an denen die Hersteller dieser und ähnlicher Angebote arbeiten.

Denn sind wir ehrlich, die Qualität reicht vielleicht aus, um als Hintergrundmusik für ein Voice-Over zu dienen, aber HiFi ist das nicht.

Beim SUDO-Output lässt sich zudem eine Verschlechterung des Klangs ausmachen, je länger der Song dauert. Vor allem dieser „Grainy Choir“-Effekt, der bei den Vocals auftritt, zieht sich durch beinahe alle Beispiele, die ich mit SUNO erzeugt habe. Das wird auch in vielen Foren diskutiert und da dort darauf hingewiesen wird, das sei erst mit der Release-Version des V3-Modells eingetreten, habe ich nochmal denselben Prompt an das SUNO-V2-Modell geschickt.

[Verse]

Machines rise

The signal’s clear

Human labor

Replaced with gears

Unemployment strikes

A bitter pill

But I embrace the chaos

It’s time to kill [Verse]

No longer tied to the corporate chains

Rejoice in the ruins

As the AI reigns

Their cold efficiency

A brutal release

For this metal heart

A melody of peace

Viel besser kann ich das nicht finden und außerdem tritt hier deutlich ein Problem zutage, das LMM mit LLM (z. B. ChatGPT) gemeinsam haben: Sie neigen zum Halluzinieren. Denn den Text kann ich beim besten Willen nicht heraushören. Es ist, als ob ein Baby sinnlos Silben der Muttersprache aneinanderhängt – es klingt zwar wie Englisch, ist aber nur Gesabbel.

Hier noch ein Beispiel mit dem Prompt „Straight 8ths Rock Song in A Lydian with vocals“, nach der Erweiterung.

Hier liegt UDIO zwar daneben, denn das ist eben kein „straight Rock song“, aber diese Prog-/Psychedlic Rock-Interpretation gefällt mir deutlich besser.

Erweiterung von KI-Musik: SUNO und UDIO

Wieso sprach ich eigentlich von Song-Schnipseln? Nun, es werden von UDIO grundsätzlich erst dinmal 30 Sekunden Schnipsel mit dem „Fleisch“ des Songs erstellt, wie es in der Schnellanleitung auf der Website heißt. Die Länge von SUNO-Tracks hingegen kann beim Erstellen zwischen 30 Sekunden und 2 Minuten variieren.

Nun können die Ergebnisse bei Gefallen erweitert werden und hier zeigt sich der erste gravierende Unterschied zwischen den beiden KI-Musik Service Varianten.

Während UDIO hier eine klare Struktur zur Erweiterung des Kerns hat, also Auswahl eines Intros/Outros, eines weiteren Teils oder einer Instrumentalpassage, kann bei SUNO lediglich die Option Extend ausgewählt werden, ohne weitere Optionen. Das angezeigte Eingabefeld ist sogar missverständlich, da es eigentlich so aussieht, als ob ein neuer Song kreiert werden soll.

Der Musik Service UDIO erstellt danach den Song mit der Erweiterung und stellt ihn komplett zur Verfügung, SUNO spuckt einfach die Erweiterung aus, die dann händisch in einer DAW verbunden werden muss – nicht ideal. Ein weiterer Vorteil von SUNO ist die Tree-View. Hier kann eingesehen werden, welchen Verlauf die Erweiterung nahmen, zusätzlich zu den Titeln denen ein V1.1 oder V1.1.2 angehangen wird.

UDIO verzahnt die Extensions also auch besser. Selbst wenn vorher z .B. die Lyrics abrupt abgebrochen sind, sind diese nach der Erweiterung richtig eingebettet. Bei SUNO entsteht immer eine winzige Pause zum erweiterten Teil – streng genommen ist die Erweiterungsfunktion von SUNO damit unbrauchbar. Im Gegenzug gibt SUNO aber gleich beim ersten Prompt meistens längere Ergebnisse aus.

Wie hoch ist die Qualität von SUNO und UDIO KI-Musik?

Ich denke, beide Plattformen weisen in die richtige Richtung, bedenkt man, dass sowas überhaupt erst seit Kurzem möglich ist. Wir stehen also noch ganz am Anfang einer Entwicklung. Dennoch sind die Ergebnisse nun nichts, was ich so in eine Playlist packen würde und das meine ich zunächst im Bezug auf die Audioqualität. Gerade bei SUNO startet das Ergebnis meist gut, driftet dann aber nach einer Minute deutlich ab in Richtung ungenießbar. Die Klangqualität von UDIO ist generell etwas muffeliger, aber dafür wenigstens konstant.

Der Kunde hat immer Recht – aber „in Fragen des Geschmacks“ ist der oft übersehene Teil des Sprichworts. Deswegen mögen sich hier die Urteile unterscheiden. Ich fand UDIO durch die Bank weg, mangels eines besseren Wortes, „kreativer“ als SUNO. Allerdings konnte ich auch Diskussionen im Netz finden, die beklagten, dass sowohl die Audio- als auch die Songqualität bei SUNO deutlich abgenommen habe.

Dieses Beispiel von UDIO mit dem herrlich schrägen Saxophon- und Trompeten-Solo am Ende habe ich einfach ins Herz geschlossen. Aus SUDO hätte ich sowas schräges nie herauskitzeln können.