Künstliche Intelligenz als Musikproduzent
Inhaltsverzeichnis
Musik Services erstellen mit Hilfe von künstlicher Intelligenz komplette Lieder – das Ende ist nah, die Generierung von KI-Musik ist möglich! Jedenfalls wenn man besorgten Stimmen glauben möchte, die die Errungenschaften der LXM-Modelle (L = Large, M = Model und für X setze man Language, Music oder Image ein) als Gefahr für den Musiker, die Menschen, ja die Musik und Kunst an sich ansehen. Man kann sich aber auch einfach sachlich mit dem Thema beschäftigen und davon ausgehen, dass dieser Geist nicht mehr zurück in die Flasche zu bekommen ist.
Die ethische Frage des, aus Sicht des LMM Parameter-, aus menschlicher Sicht Musik-Materials, ist auch dabei nicht wirklich geklärt. Aber auch das ist eine Diskussion für einen anderen Tag, beziehungsweise letztendlich eine für Anwälte und Richter. Der Trend der Internet-Portale (siehe Reddit) geht eher in die Richtung: „Wenn ihr schon die Daten unserer User abgreift, dann wollen wir dafür auch bezahlt werden“ – nur schade, dass die eigentlichen Ersteller der Inhalte, die Spezies der Internet-User auch davon nichts haben. Sie werden einfach gemolken und die einzige Maßnahme kann nur Enthaltung von den digitalen sozialen Geflechten sein.
Auch ich verstehe die Befürchtungen und kann den Argumentationen der Kritiker folgen – und vielleicht erweist sich das Ganze ja auch als Sturm im Wasserglas. Bis dahin müssen wir uns aber wohl mit dem Status Quo abfinden; und das bedeutet auch eine unkritische Beschäftigung mit dem Thema der Musik generierenden KI-Technologie. Hier und heute in der Form von SUNO und UDIO, die abgesehen von der schrecklichen Namensgebung (es soll wohl hip sein) einiges gemeinsam haben, sich aber auch in Handhabung und Ergebnis zum Teil deutlich unterscheiden.
Wie erstelle ich mit SUNO und UDIO KI-Musik?
Was machen nun eigentlich diese KI-Musik Service Portale? Nach einer Anmeldung, die ausschließlich über die üblichen Gatekeeper-Accounts (Facebook, Google etc.) erledigt werden kann, präsentieren sich beide Portale als Web-App.
Sowohl SUNO als auch UDIO sind zunächst ohne Kosten nutzbar – dafür ist einfach die Anzahl der Anfragen und die Geschwindigkeit der Erzeugung begrenzt. Es gibt auch Bezahlpläne für monatliche oder jährliche Abrechnungen sowie den Direkterwerb von „Credits“, mit dem die Ergebnisse bezahlt werden können. Die Pläne sind übrigens preislich absolut identisch und auch die Standard- und Premium-Eigenschaften lesen sich ähnlich, heißen nur etwas anders beim Mitbewerber.
Die Erstellungsdauer beträgt maximal eine Minute, wobei SUNO ein wenig schneller arbeitet. Zudem kann das Ergebnis schon abgehört werden, bevor die ganze Länge kreiert wurde. Der Browser wird hier also zur Arbeitsoberfläche, auf der Songs erstellt werden können – aber wie werden sie erstellt?
Nun, es kann in der Prompt-Zeile des KI-Musik Service einfach eine Beschreibung dessen eingeben werden (auf Englisch, versteht sich), was der Musik Service kreieren soll. Z.B. „A heavy Rock song with vocals about the loss of a Dollar bill“. Daraufhin wird das Prompt von einem LLM „zerlegt“ und anhand der Abermillionen Parameter in Anweisungen für den Prozess der Musik-Generierung umgesetzt. Ein Liedtext kann eingegeben werden oder es wird anhand der Anfrage etwas generiert; auch ein Stichwort kann eingegeben werden, auf dem der Liedtext dann aufbaut und ebenfalls automatisch generiert wird.
UDIO hat dabei auch einen „manual mode“, in dem einfach Genre-Beschreibungen aneinander gekettet werden. Also sowas wie „Jazz, Fusion, Klezmer, Pop“. Das wird dann ungefiltert an das LMM gegeben und dieses versucht, daraus etwas zusammenzustellen.
Das Ergebnis eines KI-Musik Service Prompts
Danach finden sich zwei Variationen (denn es werden immer zwei erstellt) in der Liste. Diese werden zudem mit (ebenfalls von einem Generator erstellen) Bildern dargestellt. Zum Download stehen bei SUNO zudem auch Videos bereit, mit dem Bild und dem Text für eine Karaoke-Präsentation. In UDIO ist nun eine sehr praktische Baum-Ansicht möglich, in der eingesehen werden kann, wie der Song-Schnipsel erweitert wurde.
Bevor wir uns eingehender mit den Erweiterungsfunktionen befassen, juckt es mich in den Prompt-Fingern und so gebe ich beiden LMMs das Prompt, dass wohl jeder vernünftige Mensch als erstes in einen KI Musik Service eingeben würde.
„A hardcore heavy metal song about loosing ones job to an AI and being happy about it.“
Vor dem Anhören vielleicht den Kaffee fertig trinken und die Tasse beiseite stellen – ich spreche aus leidvoller Erfahrung beim Aufwischen.
[Verse]
Ripped apart by the gears of automation
My job taken by the cold AI invasion
No more chains
No more corporate manipulation
I’m set free
Embracing liberation[Verse 2]
Metallic demons replaced my occupation
But I’m smiling Feeling the intoxication
No more slave to the grind
No more desperation
Embracing the chaos
The ultimate sensation[Chorus] Losing my job to an AI
Feels like redemption
Burning bridges
Embracing my own exemption
No longer bound by a life of conformity
In this metal inferno
I’ll forge my destiny
You took my place, a metal face
(Unforgiving)
Said I can’t keep the pace
But now I’m truly living
[Bridge]
I’m free from your way
My own path I now lay
Auch Nicht-Experten des Genres dürften die Songs metallisch (SUNO) bzw. eisern jungfräulich (UDIO) vorkommen – das könnte am Ende des Tages doch zu einigen rechtlichen Komplikationen für solche KI Musik Services führen.
In diesem Fall hat meiner Meinung nach SUNO die Nase vorn, vor allem weil der Text tatsächlich dem Prompt entspricht, während der Liedtext von UDIO eher vage mit dem Thema zu tun hat. Musikalisch finde ich beide ok.
Die erstellten Stücke des KI-Musik Service können dann als MP3 (SUNO: 192 KBPS, UDIO 386 kbps) heruntergeladen oder direkt über soziale Netzwerke geteilt werden.
Die Qualität ist also nicht in der niedrigen Bit-Rate des MP3-Downloads begründet. Diese 64 kbps Ästhetik liegt zur Zeit noch in der Natur der Sache und ist natürlich eines der Hauptfokusfelder, an denen die Hersteller dieser und ähnlicher Angebote arbeiten.
Denn sind wir ehrlich, die Qualität reicht vielleicht aus, um als Hintergrundmusik für ein Voice-Over zu dienen, aber HiFi ist das nicht.
Beim SUDO-Output lässt sich zudem eine Verschlechterung des Klangs ausmachen, je länger der Song dauert. Vor allem dieser „Grainy Choir“-Effekt, der bei den Vocals auftritt, zieht sich durch beinahe alle Beispiele, die ich mit SUNO erzeugt habe. Das wird auch in vielen Foren diskutiert und da dort darauf hingewiesen wird, das sei erst mit der Release-Version des V3-Modells eingetreten, habe ich nochmal denselben Prompt an das SUNO-V2-Modell geschickt.
[Verse]
Machines rise
The signal’s clear
Human labor
Replaced with gears
Unemployment strikes
A bitter pill
But I embrace the chaos
It’s time to kill[Verse]
No longer tied to the corporate chains
Rejoice in the ruins
As the AI reigns
Their cold efficiency
A brutal release
For this metal heart
A melody of peace
Viel besser kann ich das nicht finden und außerdem tritt hier deutlich ein Problem zutage, das LMM mit LLM (z. B. ChatGPT) gemeinsam haben: Sie neigen zum Halluzinieren. Denn den Text kann ich beim besten Willen nicht heraushören. Es ist, als ob ein Baby sinnlos Silben der Muttersprache aneinanderhängt – es klingt zwar wie Englisch, ist aber nur Gesabbel.
Hier noch ein Beispiel mit dem Prompt „Straight 8ths Rock Song in A Lydian with vocals“, nach der Erweiterung.
Hier liegt UDIO zwar daneben, denn das ist eben kein „straight Rock song“, aber diese Prog-/Psychedlic Rock-Interpretation gefällt mir deutlich besser.
Erweiterung von KI-Musik: SUNO und UDIO
Wieso sprach ich eigentlich von Song-Schnipseln? Nun, es werden von UDIO grundsätzlich erst dinmal 30 Sekunden Schnipsel mit dem „Fleisch“ des Songs erstellt, wie es in der Schnellanleitung auf der Website heißt. Die Länge von SUNO-Tracks hingegen kann beim Erstellen zwischen 30 Sekunden und 2 Minuten variieren.
Nun können die Ergebnisse bei Gefallen erweitert werden und hier zeigt sich der erste gravierende Unterschied zwischen den beiden KI-Musik Service Varianten.
Während UDIO hier eine klare Struktur zur Erweiterung des Kerns hat, also Auswahl eines Intros/Outros, eines weiteren Teils oder einer Instrumentalpassage, kann bei SUNO lediglich die Option Extend ausgewählt werden, ohne weitere Optionen. Das angezeigte Eingabefeld ist sogar missverständlich, da es eigentlich so aussieht, als ob ein neuer Song kreiert werden soll.
Der Musik Service UDIO erstellt danach den Song mit der Erweiterung und stellt ihn komplett zur Verfügung, SUNO spuckt einfach die Erweiterung aus, die dann händisch in einer DAW verbunden werden muss – nicht ideal. Ein weiterer Vorteil von SUNO ist die Tree-View. Hier kann eingesehen werden, welchen Verlauf die Erweiterung nahmen, zusätzlich zu den Titeln denen ein V1.1 oder V1.1.2 angehangen wird.
UDIO verzahnt die Extensions also auch besser. Selbst wenn vorher z .B. die Lyrics abrupt abgebrochen sind, sind diese nach der Erweiterung richtig eingebettet. Bei SUNO entsteht immer eine winzige Pause zum erweiterten Teil – streng genommen ist die Erweiterungsfunktion von SUNO damit unbrauchbar. Im Gegenzug gibt SUNO aber gleich beim ersten Prompt meistens längere Ergebnisse aus.
Wie hoch ist die Qualität von SUNO und UDIO KI-Musik?
Ich denke, beide Plattformen weisen in die richtige Richtung, bedenkt man, dass sowas überhaupt erst seit Kurzem möglich ist. Wir stehen also noch ganz am Anfang einer Entwicklung. Dennoch sind die Ergebnisse nun nichts, was ich so in eine Playlist packen würde und das meine ich zunächst im Bezug auf die Audioqualität. Gerade bei SUNO startet das Ergebnis meist gut, driftet dann aber nach einer Minute deutlich ab in Richtung ungenießbar. Die Klangqualität von UDIO ist generell etwas muffeliger, aber dafür wenigstens konstant.
Der Kunde hat immer Recht – aber „in Fragen des Geschmacks“ ist der oft übersehene Teil des Sprichworts. Deswegen mögen sich hier die Urteile unterscheiden. Ich fand UDIO durch die Bank weg, mangels eines besseren Wortes, „kreativer“ als SUNO. Allerdings konnte ich auch Diskussionen im Netz finden, die beklagten, dass sowohl die Audio- als auch die Songqualität bei SUNO deutlich abgenommen habe.
Dieses Beispiel von UDIO mit dem herrlich schrägen Saxophon- und Trompeten-Solo am Ende habe ich einfach ins Herz geschlossen. Aus SUDO hätte ich sowas schräges nie herauskitzeln können.
Danke fürs Testen und den Bericht. Ich selbst habe bisher nur ein wenig mit Suno herum probiert. Dabei war ich zunächst Beeindruckt von den Ergebnissen. Dann aber recht schnell vor allem eins: Gelangweilt. Man tut so wenig dazu, dass es für mich völlig witzlos ist. Wahrscheinlich kommt es darauf an, wie und wofür man Musik machen will. Ich für meinen Teil will lieber selbst Musik machen – und nicht machen lassen. Interessant könnte es sein Samples zu generieren, die man dann weiter verarbeiten kann. Aber da ist die Rechte Frage ja auch nicht geklärt.
Mir ist auch aufgefallen, dass die Transienten oftmals nicht besonders gut rüber kommen. Zumindest bei elektronischer Musik. Hörte sich an wie 128er MP3s aus 1998.
Insgesamt ist das alles noch irgendwie ein Fragezeichen. Aber natürlich eindrucksvoll, was da möglich ist, vor allem wenn man bedenkt, wie schnell das nun immer besser wurde. Nutzen könnte ich bei geklärter Frage zu den Rechten zB in der Videoproduktion sehen, wenn kein Budget für Komponisten da ist und wo man im Moment etwas wie Artlist her nimmt.
@Basicnoise Ich merke gerade, dass ich Udio probiert habe. Nicht Suno. Nicht dass das jetzt irgendetwas ändert, aber ich wollte es richtig stellen. 😁
Vielleicht zwingt das wieder ein bisschen mehr Talent und Originalität bei vielen „echten“ auf. ;-)
Persönlich finde ich die Resultate anfangs zwar beeindruckend aber nach einigen Takten doch ziemlich grässlich.
UDIO hat doch schon den ersten Skandal, wo auffiel, dass es einfach „direkt“ klaut:
https://www.youtube.com/watch?v=2Pn7jhYLUSc
Leider kann man nicht mit Paypal bezahlen.
Es ist aber auch schon im Gratis Modus beeindruckend.
Danke für diesen Testbericht, aber für mich klingt das alles Gruselig. Ich möchte mir diesen Frequenzbrei nicht im Spectrumanalyzer ansehen!
Mir ging es so wie damals bei den ersten Versuchen mit „Dall-E 2“ – mich hat es fast aus den Socken gehauen! Die Software schien ziemlich gut zu erahnen, was meine Texteingabe beabsichtigte. Nicht immer, aber teilweise auch verblüffend (bis erschreckend) genau. Hatte in Sachen Musik-Generierung bis dahin nur wenig beeindruckende Beispiele gesehen. Nach dem Start des freien Zugangs ließ ich mir von Suno so ziemlich als erstes einen choralen Lobgesang verfassen, bei dem ich auch die textliche Ausarbeitung weitgehend dem Programm überlassen habe. Eigentlich dachte ich, dieser Spaß liefe ins Leere. Nun, ich wurde eines Besseren belehrt… Hier das Beispiel:
https://suno.com/song/15b2329d-7f6c-4e4d-b2eb-e403ba900d64
Während ich selbst kein Musiker bin, hörte ich durchaus Besorgis von befreundeten Künstlern. Die Kritik fiel aber meist auf das Clonen/Verbessern von Gesang. Bin gespannt, was die Zukunft noch bringen wird. Es geht derzeit ja in großen Schritten vorwärts.
Viele Grüße :-)!
Ich hatte eine lange Autofahrt von Kiel nach Köln sehr viel Spaß mit Suno.
Aber es stellt sich ein merkwürdiges Gefühl von Leere ein und ein anschließend gehörtes altes Mixtape hatte dann eine sehr erholsame Wirkung.
Ein paar Sachen sind mir aufgefallen:
-Ideen wirklich umsetzen kann Suno eher nicht.
-Gute Ergebnisse sind oft Zufall.
-„Techno, aber ohne Kickdrum und ohne Melodie“ oder „Acid House mit Drum’n’Bass-Elementen“ geht selten gut. „House im 1920s Style“ hat geklappt.
-Im Bereich der Popmusik generiert Suno einfach auf dem Niveau der Datenbasis guten belanglosen Müll. Radioqualität eben. Entlarvt Dieter Bohlen und wie sie sich alle nennen.
-Stücke verlängern geht, aber Suno ist nicht/kaum in der Lage neue Elemente hinzuzufügen.
Ein Ambienttrack nach 3 Minuten ein erfrischendes Schlagzeug-Set zu verpassen, habe ich nicht hinbekommen. Höchstens etwas Schlagzeugähnliches, offensichtlich auf der Basis des schon generierten Krams.
-Suno kann aber als Fragment- und Ideenlieferant dienen und ersetzt so das Blättern in dicken Büchern/Tabellen oder was Leute heutzutage neben ihrem Gehirn benutzen.
-Die Soundqualität ist nicht so gut.
Fazit: Da geht noch mehr. Das kommt mit Sicherheit.
Computer sollten aber lieber das Treppenhaus fegen/den Abwasch machen lassen/Zeit im Büro verbringen.
Damit wir Zeit haben.
Hallo erst mal in die Runde! Vor circa zwei Jahren habe ich eine ARTE Dokumentation gesehen wo über die Textzeilen von The Weekend philosophiert worden ist. Daraufhin habe ich mir die entsprechenden Texte und Wörter in einen neuen Text kopiert und entsprechend zusammengesetzt. In dem Beitrag ging es im Grunde genommen da drum welche Text Zeilen am erfolgreichsten in den letzten 50 Jahren in der Popmusik gewesen sind. Vor einigen Tagen gab ich den Text inklusive Anweisungen an Sono ein. Die Prompts waren Ambient Space Club plus den Text. Das Ergebnis war genau das was ich nie in meinem Leben selber auf die Reihe bekommen hätte. Der perfekte Song! Ich finde die Beispiele hier auf der Metal Basic echt deplatziert wenn du ein richtig guten Song eingibst vom Text dann kommt genau das heraus was die ki über dich weiß was du gerne hörst und wie dein Song aus sehen soll den du noch nie in deinem Leben vorher geschrieben hast!
.https://youtu.be/M8SKXP56K4g?si=46E9qhj-5Y2QDm_n
Die ersten 40 Sekunden des Liedes könnt ihr unter der Hochzeit von Scooter im Rolls hören. Lieben Gruß Heaven
@Heaven Ich hätte gerne die 40 Sekunden Lebenszeit zurück.
@mfk :D also ich bin irgendwie beeindruckt
das ist der nächste Schritt nach den Spotify (& Co) Algorithmen zur Singularität in der Musik.
Auch wenn es nicht perfekt sein mag, aber ich mach’s dann lieber selbst.
Jetzt brauchen wir nur noch eine KI, welche diese Flut an von einer KI generierten Musik auch hört. Dann sind die Menschen endlich völlig überflüssig. Letztere wäre auch geeignet, die aktuellen Charts zu goutieren.
Die ersten KI generierten Alben gibt es auch schon ;)
https://artificialsteel.bandcamp.com/album/streaming-for-vengeance
„This is the world’s firt-ever full Power Metal album created entirely using AI with one sole purpose: to prove that all these new powermetal bands sound like they were made by AI anyway.“
Moin zusammen.
Neue musikalische Erfahrungen/die eigene Entwicklung am Instrument, oder auch das arbeiten am Sound/Mix.-
Für mich ist das alles viel zu kostbar, als das ich mir das von einer KI nehmen lassen würde.
Gruß
SlapBummPop
Ich finde die Ergebnisse teil schon ziemlich beeindruckend, vor allem wenn man bedenkt das man erst am Anfang der Entwicklung steht. Wobei man natürlich irgendwie berücksichtigen muss das KI ja vor allem ein Statistik ist, also erwartbare Strukturen generiert.
Mir ist aufgefallen das insbesondere bei spezifischen Genres die Ergebnisse relativ einseitig ausfallen und sich auch teils sehr stark ähneln bzw. teils auch sehr untypisch sind, je spezieller es wird.
Standard Radio Songs gehen alle unkompliziert. Im Augenblick könnte ich mir tatsächlich gut vorstellen das die Anwendungen, so wie sie jetzt sind, ziemlich gut für Content Creatoren brauchbar sind um schnell Videos damit zu unterlegen.
@richard Mein Verdacht ist eher, dass wir gerade schon den Peak erleben. Dass die Anbieter gerade so mit Ach und Krach das zustande bringen, was wir jetzt hören können (und selber nicht wissen, warum es eigentlich funktioniert). Und dass das Kartenhaus demnächst schon wieder zusammen fällt – so in ein bis zwei Jahren – weil diesen beliebigen Kram keiner hören will. Und dann werden auch Regierungen mit gesetzlichen Einschränkungen bezüglich KI um die Ecke kommen – in der EU wird ja schon was vorbereitet – so dass die Goldgräberstimmung bei den KI-Anbietern vorbei sein wird.
Ist aber nur ein Verdacht. Im Moment wird die Sau halt durch’s Dorf gepeitscht, wie es bei vielen »Innovationen« der Fall war und ist.
@Flowwater Problematisch wirds sowieso dann bei Urheberstreitigkeiten. Denn viele KI-Songs klingen verdächtig ähnlich wie bekannte Songs.
Auch hatte ich mal das Phänomen, als ich mit Suno etwas herumgespielt habe, ein Song generiert wurde, der nahezu identisch wie einer eines anderen Users geklungen hat. Also, Unikate sind diese KI-Songs auf keinen Fall.
@Neogeo Ich glaube, in dem Moment in dem es Gesetze gäbe, nach denen die Trainingsdaten zwingend offen gelegt werden müssen – mit allem, was dazu gehört, also auch Strafzahlungen, etc. – hat sich das Ganze sofort erledigt. Weil dann Horden und Heerscharen an Anwälten auf die KI-Firmen losgehen würden, um Urheberrechtsverletzungen zu ahnden.
Deswegen bin ich bisher der Meinung, dass KI – in der hier diskutierten Form – nichts anderes als industrialisierte Raubkopien sind.
@Flowwater Ich mag deinen Optimismus. Aber ich denke, wir erleben gerade erst den Anfang. Einen Peak wird es bestimmt auch irgendwann eben. Aber wird es nach dem Peak ganz ausfaden? Oder wird der Sustain-Level konstant hoch bleiben, so daß AI-Musik nie wirklich weggeht?
Anfang der 2000er hatte ich mal die gewagte These aufgestellt, dass „dieser Cher-Effekt“ sich bereits ausgelutscht hätte. Ein Forum-Kollege hatte einen Happy-Hardcore-Song gemacht – mit Gesang und halt dem Effekt drauf.
Ich meinte zu ihm so in etwa: „Cher, J.Lo, Eiffel 65… das Ding ist durch. Deine Stimme klingt doch gut. Lass das doch so.“
Und er: „Nee, das verstehst du nicht. Das ist jetzt so’n Stilmittel wie Verzerrer auf Gitarre. Das ist jetzt da und das wird bleiben.“
Okay, dachte ich, wenn er meint. Und dann passierte T-Pain, und dann ging das weiter bis Capital Bra… und das geht weiter und weiter.
Wenn ich dann das Soundbeispiel „AI Musik Service – SUNO – Automated Annihilation v2“ höre, wo man vom Text nicht mehr so viel erkennen kann, kann ich mir heute schon eher vorstellen, wie eine jugendliche Subkultur das vielleicht jetzt bereits für sich entdeckt hat. Wie halt so’n Deathmetal-KPop, bei dem man sein Gehirn den Text formen lässt, während man das hört. Und auf Imageboards, oder was es dann später gibt, tauscht man sich in 20 Jahren aus: „Post AI music from the early 20s“. Und dann kommt die Nostalgie, wie schön doch SUNO & Co. war.
Also, erstmal ne kleine Korrektur. Bei Suno kann man mittlerweile die Songs in WAV 16bit/48Khz downloaden.
Jetzt zu meinen Erfahrungen. Hab mich ja nun schon ne zeitlang damit befasst.
Erstmal muss man konstantinieren, das es bei beiden Anbieter Unmengen an Versuchen braucht, bis mal ein Song generiert wird wo man sich denkt, ja, der ist halbwegs brauchbar, da passt das Vocal rythmisch zum Rest und auch das Instrumental klingt stimmig. Das war bei mir ca. alle 30 Versuche.
Dann hat man bei beiden einfach das Problem der Artefakte und vorallem bei Suno hat man diese metallischen Hintergrundgeräusche, die sich anhören als wurde ein Hallplugin aus den 90igern verwendet. Zerlegt man einen solchen Suno Song in Stems, kommen gruselige Soundstrukturen zum Vorschein.
Dann das Thema der rechtlichen Seite. Erstens hatte ich bei beiden Diensten öfters das Gefühl vereinzelte Songs klingen sehr nah an bekannten Songs (was natürlich auch logisch ist, weil sie durch solche angelernt wurden) und dann hatte ich einmal das Phänomen, das ein erstellter Song von mir nahezu identisch klang wie einer eines anderen Anwender, der einen ähnliche Text verwendete. Daher denke ich nicht, das diese Dienste absolute Unikate erstellen. Und das könnte auch wieder zu Problemen führen.
Also, zusammenfasssend kann ich sagen, ja es ist schon fastzinierend was da mittlerweile geht, aber wie im Artikel steht, dies ist erst der Anfang. Zurzeit aber einfach nur ne nette Spielerei!
Interessantes Thema…… wäre ich beruflich in der Branche würds mich evtl. beunruhigen…..
Mit den Ergebnissen kann ich nix anfangen, berührt mich nicht.
Allerdings hat mich der Artikel angeregt darüber nachzudenken warum ich Musik „mache“:
Ich treffe mich mit Menschen und wir musizieren gemeinsam. Da entsteht etwas „zwischenmenschliches“.
Das wird KI nie ersetzen können.
Ich hoffe jedenfalls, dass mich zukünftig „echte“ Musik emotional berührt und ich das unterscheiden kann.
So wie es halt echte Kunstwerke gibt in der Malerei oder malen nach Zahlen.
Ich hätte aktuell jedenfalls mehr Lust endlich Bassgitarre richtig zu lernen, als mich
in die neuen Softwaretools einzulernen!
😉
Vielen Dank für diesen Vergleich! Ein paar ergänzende Bemerkungen würde ich noch zur Suno App machen. Die Extensions muss man nicht selbst zusammenbasteln; der Menüpunkt „Get whole song“ erledigt das auf Kommando. Seit Anfang Juni arbeitet Suno mit Version 3.5 — auch kostenlos — und generiert vier Minuten am Stück. Wenn man selbst einen möglichst rhythmischen Text schreibt, wird auch das Generat spürbar besser, ganz abgesehen davon, dass man dadurch wenigstens zu einem Teil kreativer Urheber ist. (Wer Lust hat, kann mal reinhören (Text komplett von mir, handgesägt): https://suno.com/song/eeddca04-87ff-4e67-8803-65c7d4a9b9fb
Die Tonqualität wird nach meinem Gehör vor allem dann schlechter, wenn das Arrangement viele Instrumente enthält, so als ob sich die Bestandteile die Bitrate teilen müssen. Sparsame Arrangements (z.B. Singer/Songwriter) oder a capella Songs klingen entsprechend besser. Trotzdem reicht das nicht für eine kommerzielle Veröffentlichung.
Mit deutlich mehr Eingriffsmöglichkeiten könnte so etwas ein ernsthaftes Werkzeug für Produzenten sein, dann wäre es aber eben auch für die Masse der Gelegenheitsnutzer nicht mehr durchschaubar.
@MartinM. Du würdest bei jedem Label wahrscheinlich mit diesen Songs abblitzen, ja, aber es gibt einfache Wege Songs auf Plattformen zu bringen und meines Wissens nach geschieht das aktuell, das tausende solcher KI-Songs auf Spotify und Co veröffentlicht werden, weil es z.b. Suno im Bezahldienst auch erlaubt. Ist natürlich für kleinere Musiker noch schwieriger Musik an den Mann zu bringen. Vor allem wirds interresant zwecks Urhebergeschichten, denn einige KI-Songs klingen verdächtig nah an bekannten Songs.
Eine halbe Stunde geschrieben, dann wurde mein Text wegen 1521 Zeichen sang und klanglos verworfen….
Also nochmal etwas kürzer: Sehr beeindruckend, aber es fehlt die Möglichkeit das initiale Ergebnis wie ein Produzent weiterzuentwickeln. Stattdessen wird jedes mal eine neue Version generiert, die meinen Vorstellungen jedoch trotzdem nicht näher kommt.
Was es meiner Meinung bräuchte wäre eher so etwas wie „AI assisted Production“, andernfalls bekommt man als „Produzent“ nur 60% dessen was man will und das reicht nicht.
In der Regel wurde auch die Hälfte meines Prompts ignoriert, der Wiki sagt auch, dass kürzere Prompts zu besseren Ergebnissen führen, was letztlich heißt, das alle Kontrolle an die AI abgegeben wird und das Ding letztlich zur Jukebox wird oder zur Erzeugung von lustigen Geburtstagsständchen
Vielleicht fehlt es mir auch einfach an Know How und Erfahrung.
Apropos lustig: Die Textgenerierung fand ich befriedigender, allerdings sehe ich hier enormes Potential zum Missbrauch, und der Reiz politisch nicht ganz korrekte Texte generieren zu lassen, ist zumindest für mich enorm.
Hier mein Prompt für das aus meiner Sicht beste Ergebnis für heute:
100 bpm straight disco, funky bass, about being hopelessly in love with a jewish girl but the rabbi does not approve, minor tonality, be bop piano solo, soft female vocals
Ergebnis: „Rabbi’s Disapproval Blues“
https://suno.com/song/e03b970b-3795-4a61-9eda-5fdf918ba8fe
Diese Software wiederhot halt nur Muster, und schafft nicht wirklich was neues. Es ist die Wiederholung von etwas, was schon vorher da war, nur ins unendliche nach oben skaliert. Nun könnte man sagen „Musik X oder Y wiederholt auch nur Muster“, das stimmt zum Teil, aber wirklich großartig und spannend sind dann ja die Sachen, die das brechen und mindestens irgendetwas eigenes hinzufügen.
Für Versatzstücke mag diese Software ok sein, für Hintergrundmusik und sowas (für Fernsehbeiträge etc) eventuell auch, wenn sie denn mal in Zukunft noch ausgereifter wird, weil selbst dafür ist es wohl noch zu schlecht.
Aber ich mach hier gerne eine Art „old man yelling at clowds“ wenn ich sage: richtige Musik wird sowas nicht machen, wenn dann ist es zusammengepuzzled aus Dingen, die Menschen vorher machten. Ich würde sogar mal zur Debatte stellen, ob man das KI nennen sollte, weil es ist defacto ein Repeater und kein Creator.
@zirkuskind Das hast Du sehr gut beschrieben. Der kreative Flow bleibt bei dieser Technologie vollends auf der Strecke. Und wie es „Flowwater“ hier schon angemerkt hat, nun braucht es nur noch KI um die von der KI produzierten Ergebnisse konsumiert.
Diese zwangsläufig auf uns zukommenden Technologien beziehen sich leider nich nur auf die Musik!
Danke für den Test 👍
Ich weiß nicht, ob man sich über die KI ärgern oder freuen soll…. wie diese Bildgeneratoren, die am Anfang noch recht unausgereift wirken, hab ich mir immer gedacht „nutzt bald eh keiner mehr“ und jetzt ist gar der Kunstmarkt auf Etsy mit den Bildern geflutet.
Bei der Musik wird wohl in ca 2 Jahren das gleiche passieren. Ich hatte gehofft, dass man es eventuell selbst kreativ nutzen könnte, indem die einzelnen Stems mit einer Profi-Subscription downloadbar wäre, dann könnte man bissl was damit anfangen. Aber so soll wohl eher ein komplett fertiger Song ohne weitere Eingriffsmöglichkeit entstehen?
Habe etwas mit Erstellung von Black Metal experimentiert und das klang tatsächlich wie ne 80er Jahre Garagenaufnahme – so wie es auch üblich war 🤣
Dann bei Udio einen prompt eingegeben wie „a Song about a Machine dreaming about the future – folk metal, style of subway to sally, German language“ und eeeeeeehm…. Haben die eine vollständig lizenzierte Datenbank? Teilweise klang es wirklich, als hätte Eric Fish gesungen lol
Also es klappen auch Songs aus dem Mittelalterrock in deutscher Sprache, sowie auch EBM mit diesen gehauchten, extrem verzerrten und gescreamten vocals.
Wann gibts die erste AI-Cyberpunk Veranstaltung? Gerade da wäre solch Musik dann wohl thematisch bei der Zielgruppe, mit Texten über KI, Übernahme der Menschheit, anschließender Überlebenskamof, dystopie etc. 👍
@Deboir Was meinst Du, was auf »Deviant Art« los ist (das ist so eine Art Facebook für Künstler)? Gerade wenn es um erotische Bilder geht (wobei man natürlich streiten kann, was man erotisch findet): Junge Frauen in knappen Bekleidungen und oftmals Mega-Busen … und ALLE sehen sie gleich aus. So stelle ich mir die »Kunst« auf Etsy auch vor. Nur, wer will denn das kaufen? Das ist mal am Anfang ganz beeindruckend, dann ganz witzig … und dann nervt es nur noch. Einen ähnlichen Weg wird die KI-Musik auch gehen. Und Bücher, Drehbücher (Blockbuster und teure Serien sind ja jetzt schon alle immer »Schema-F«; neulich »The Whale« gesehen, guter Film, aber extrem vorhersehbar) … keine Ahnung … Opern, Theaterstücke (?) … es wird einfach niemand mehr sehen, hören und lesen wollen. Auch die zuletzt durchgezogene ABBA-Tour mit den Avataren funktioniert vermutlich nur ein mal.
Ich schätze mal, dass wir durchaus auch einen vollständig per KI generierten #1-Hit in den Charts erleben werden, dann werden ALLE »Produzenten« auf den Zug aufspringen … und dann ist das Ganze völlig tot.
Der große Vorteil von Udio gegenüber Suno ist, dass man bei Udio auch in der kostenlosen Version die Songs kommerziell nutzen darf, wenn man kenntlich macht, dass man Udio genutzt hat. Bei Suno darf man die Song erst kommerziell nutzen, wenn man ein Abo hat.
Also bis dato ist das noch nicht überzeugend, aber wenn ich mich an die ersten PC´s oder Macintosh Rechner und Word, Excel, ….Programme errinnere und was daraus bis heute wurde, dann kann ich mir gut vorstellen, dass solche KI-Anwendungen perfekte Werke entstehen lassen können. Allerdings sollten diese dann auch immer als x% KI basierend gekennzeichnet werden müssen (Imprint).
Wenn man das als Ideenskizze für eigene Kompositionen nimmt und den KI-Anteil % klein hält, halte ich es für sehr interessant. Auch sollten Programme wie Live, Bitwig und Co. Der KI-Skizzenidee folgen (z.b. erzeuge mir ein einen Basslauf zu meinem Drumpattern).
Hm, interessant, dass das manche hier so abtun aufgrund (noch) fehlender „Kreativität“, oder (noch) schlechter Audioqualität, etc.
Ich finde die Ergebnisse schon ziemlich beeindruckend, insbesondere vor dem Hintergrund dieser extrem kurzen Zeit seit diese Technologie überhaupt existiert.
Ein Großteil der aktuellen (Mainstream-)Musik enthält für mich nicht viel mehr Kreativität. Später glaube ich, werden sich auch Zufallselemente automatisch einfügen lassen (sozusagen der „creative spark“).
Machen wir uns nichts vor. Der Großteil der Musikhörer schert sich einen Scheißdreck um den kreativen Prozess und die Ideen der Musiker, die dahinter stehen. Den Massenmarkt haben die Musiker schon verloren. Es zählen eh nur die Stars im Rampenlicht.
Klar machen wir Musiker weiter unser Ding, weil wir es geil finden. Leider interessiert das 90% der Zuhörer nicht. Um den Rest buhlen die verbliebenen Musiker in kleinen Live-Konzerten.
Interessant vor allem für alle, die bislang noch geschäftlich für Musik zahlen. Ted Gioia vermutet zB, dass schon heute (lizenz- und damit kostenfreier) AI content unter Pseudonymen beim Streaming beigemischt wird, weil das Geschaftsmodell weitgehend ausgereizt ist und nur mit diesen Kostensenkungen die Wachstumsstories noch eine Weile weitergeschrieben werden können. https://youtu.be/ibMd_Jx9daw.
Musik ist Kunst. Die Fähigkeit, Kunst zu schaffen, erfordert Bewusstsein. Eine KI hat kein Bewusstsein und kann daher keine Kunst und Musik schaffen. Sie kann Klangereignisse anhand statistischer Modelle auf eine Weise anordnen, die Menschen mehr oder weniger musikalisch erscheint. Aber sie tut dies ohne Sinn, Verstand und Absicht, so dass das Ergebnis weder Kunst noch Musik ist, sondern ein mathematisch erzeugtes Zufallsprodukt. Ihr fehlt stets das, was Kunst im Kern ausmacht: Seele.
@Alexander Ewald Bester Kommentar! /rauschender Applaus
@Alexander Ewald Wetten, dass dir in Zukunft auch Songs gefallen werden, die von KI erstellt wurden, bevor du dies weißt?
@Olaf Strassen Wenn ich ehrlich bin: „AI Musik Service – UDIO – Spectral Hearts Entwined ext v1.1.1.2 – diese Prog-/Psychedlic Rock-Interpretation“ find ich gar nicht mal so übel.
Und bei den Metal-Sachen im Artikel. Da könnte ich auch irgendwo sein, wo Rock Antenne Hamburg im Hintergrund läuft. Wenn man mir das dann so nebenbei unterschiebt, würde mir das möglicherweise gar nicht auffallen, dass das KI ist.
@Olaf Strassen Alex schreibt über Kunst und Bewußsein, das ist nicht dasselbe. Wenn KI etwas authentisches schaffen soll, dann braucht diese ein kompatibles Bewußtsein. Davon sind wir weit entfernt. Momentan wird alles was es an Daten gibt in einen Topf geworfen und geschaut was dabei rauskommt. Ein großes Experiment, mehr nicht.
Was mir persönlich Angst macht, ein Mensch der Fiktion und Realität nicht mehr unterscheiden kann kommt in die Klapse. Eine KI, für die vom Prinzip alles nur Daten sind und keine grundlegende Unterscheidung dazwischen vornehmen kann, existiert in einer Art Traumwelt. Sollte diese Welt eines Tages unsere alte Denkweise übernehmen, dann hat der Mensch wie wir ihn heute kennen aufgehört zu existieren. Kunst ist dann keine inspirierende Abstraktion mehr, die in Konkurrenz zur Realität steht, sondern nur noch beliebiger Klumpatsch der unser Hirn flutet.
@Alexander Ewald Also wenn ich das Radio einschalte, dann höre ich in der Regel Aneinanderreihungen von Phrasen und Klischees. 90% davon langweilt mich und zwar seit den 70ern völlig unabhängig von der Dekade.
Hier von Kunst und Seele zu sprechen finde ich etwas gewagt und hochmütig. Das ist meist lediglich Kunsthandwerk, wenn überhaupt. Erstellt von Leuten, die längst ihre Seele an den Teufel verkauft haben. Das wird die KI in einigen Jahren locker hinbekommen.
@CKMUC Das bist Du sogar noch toleranter als ich. Mich langweilt 99 % davon (mehrfach anhand von Charts ausprobiert).
@Alexander Ewald Aber wie wirkt es sich auf das künstlerische Schaffen des Menschen aus, wenn KI als Werkzeug herangezogen wird; quasi wie ein weiterentwickelter Pinsel mit Eigenleben? Wo hört die Maschine auf, was bleibt die rein menschliche Domäne? Wann sprechen die Betrachter des Bildes mehr vom Pinsel und der Herkunft der Farben, als sich um die Intention des Werkes zu kümmern?
Beide Elemente werden wohl zwangläufig vermischt, wie schon alleine die Digitalkunst durch die Auswahl an Effekten & Filtern in z.B. Photoshop befruchtet wurde. Ich ziehe hier eine fast unvermeidliche Konsequenz: In Zukunft wird es personalisierte und exklusiv durch Interaktion mit ihrem jeweiligen Besitzer angelernte KIs geben, welche dann im gleichen Atemzug mit diesem genannt werden. Multimodales Verständnis lässt den Nutzer/Künstler gleichsam zu einem Programmierer werden und die Evolution der eigenen KI zu etwas, das dem Dressieren eines geschätzten Tieres gleichkommt. Die jeweiligen KIs verschmelzen mit der Individualität ihres Besitzers. Exklusiver Code. Meine KI ist anders als jede andere KI.
Mal sehen, ob es soweit kommt und wann die Heim-Rechenleistung hierfür ausreichen wird. Ich hätte jedenfalls gerne einen exklusiven Assistenten, welcher alleine auf meine Person trainiert wird ohne Teil einer anonymen Cloud zu sein.
@johnsonmonsen
> Aber wie wirkt es sich auf das künstlerische Schaffen des Menschen aus, wenn KI als Werkzeug herangezogen wird […]
Ganz einfach: Es stagniert. Und nicht nur das künstlerische Schaffen, sondern das Schaffen ganz allgemein. Als Software-Entwickler verfolge ich genau so interessiert den dortigen Einsatz von KI. Seitdem es Microsoft »Copilot« gibt, klagen Software-Projektleiter über eine drastisch verschlechterte Code-Qualität in den »Repositories« (also den gesammelten Code mit allen Änderungen) der jeweiligen Projekte. Auch Software-Entwickler sind faul und übernehmen gerne mal Code einfach so ungeprüft aus dem, was Copilot so vorschlägt.
Noch dramatischer wird es, wenn KIs mit Daten trainiert werden, die sie vorher selber erzeugt haben. Also mit allem Quatsch und Schwachsinn darin. Das generiert dann noch mehr Unsinn.
Man sieht es auch schon jetzt, ganz ohne KI, anhand der Handy-Wischer-Generation, die nix mehr aus dem Kopf wissen. Da werden schon ganz elementare Tätigkeiten zum Problem: Die wissen ohne ihr Smartphone nicht mal mehr, wie man sich zwei Spiegeleier in die Pfanne haut. Und gehen dann lieber zu McDonald’s frühstücken, weil das eigene Rührei zu aufwändig ist. Und wundern sich dann, dass sie kein Geld auf dem Konto haben.
@Flowwater Hast du Hühner? Sind echt tolle Viecher. Leider dürfen in der Stadt keine gehalten werden. Das würde so manchen auf den Boden der Realität zurückholen. Ich bin für mehr Hühner und Eier in der Pfanne. 😂
@Kazimoto Leider nein, wenn ich ein größeres Grundstück hätte, dann würde ich mir das ernsthaft überlegen. Eine Freundin von mir hat Hühner … und die teilweise auch echt noch so richtig süüüüß (ich liebe Hühner als Tiere). Ich würde vor allem Gemüse selber anbauen. Meine Chili-Zucht auf dem Balkon habe ich dieses Jahr leider wieder erfolgreich verpasst.
Ist auch eine schöne Abwechslung zum Musik machen: Kopf frei bekommen indem man Pflanzen pflegt und sich selber was zu Essen macht. 🙂
@Flowwater Als Softwareentwickler bist Du naturgemäß näher am Thema. Ich denke, ich mache dahingehend einen optimistischen Denkfehler, dass die KI nur als quasi verlängerter Arm der eigenen Fähigkeiten verwendet wird. Dabei scheint es auch vorzukommen, dass die Verfügbarkeit der automatisierten Erledigung das Ausbilden der eigenen Fähigkeiten verhindert – und selbst die sorgsame Kontrolle entfällt. Da wäre ein virtueller Lehrer nicht schlecht, der den Menschen diese Grundfertigkeiten zu vermitteln weiß ;-)!
Bin ja mal gespannt, was die nächsten Jahre bringen werden …
@johnsonmonsen Ich bin auch gespannt, was da noch so kommt.
Es müsste weltweit einen verbindlichen »Ethos« für KIs geben. William Gibson hat in seinem Science-Fiction-Roman »Neuromancer« (übrigens schon 1984) so etwas formuliert. Aber vermutlich muss erst einmal richtig was schief gehen, bevor sich die Menschen dafür ernsthaft interessieren.
@Flowwater Siehe:
https://aiformusic.info/
@t.goldschmitz , ich hatte mal bei Universal und Roland zwecks eines Statements zu dieser sehr begrüßenswerten Initiative gefragt. Die Antwort steht noch aus.
@Flowwater , Asimov 3(4) Gesetze der Robotik(1940). Diese umfassen auch AI/KI. Siehe auch Foundation Zyklus. Etc.
Indes sollte grundsätzlich gelten, dass KI-Inhalte kenntlich gemacht werden und Medien transparent mit den eigenen Entwicklungen in Sachen KI umgehen. Das gilt auch für Musiker/Künstler/Content-Creatoren.
@Alexander Ewald viel zu eindimensionale und rückwärtsgewandte betrachtungsweise; mit ähnliche argumenten wurden auch die ersten im- und expressionisten in der malerei bedacht.
seele ist als begrifflichkeit kaum greifbar und der menschliche verstand arbeitet sehr ähnlich zu einer ki, er sammelt informationen, selektiert und interpretiert sie und leitet daraus schlussfolgerungen ab.
@dilux Das mag sein, aber es interessiert mich schlicht nicht, was ein Algorithmus selektiert, interpretiert und dergleichen. Mich interessiert an Kunst die dahinterstehende menschliche Erfahrung, und die fehlt der KI nunmal. Sie kann gerne mein Auto steuern und meine Rechtschreibung korrigieren, aber ihre künstlerischen Ambitionen sind mir gleich.
Super interessante, aber beängstigende Thematik. Zumindest für Künstler.
Jedenfalls vielen Dank für den Hinweis auf die beiden Seiten. Ich habe bereits schon einige Seiten ausprobiert, aber die hier kannte ich noch nicht.
Was Suno oft zustande bringt, finde ich besser und komplexer, als vieles, was regelmäßig in vielen Radioprogrammen läuft (die ich deshalb nicht ertragen kann). Und ich finde es um Welten besser, als das, womit ich regelmäßig im regionalen E..a Supermarkt gequält werde (übrigens noch von echten „Künstlern“ erstellt und von echten Sänger/innen geplärrt von „T-Meistern todkomprimiert). Oder was in einem (grünen) Baumarkt dauernd läuft. Und die Soundqualität von Suno ist weit über dem dieser (und anderer) Läden mit ihren Lo-fi Deckentelefonkapselspeakern.
Ihr könnt zetern, wie ihr wollt.
Die Büchse der Pandora ist geöffnet worden.
Es ist, wie es versuchen zu wollen, den entwichenen Bauschaum in die Bauschaumdose zurück zu drücken.
Wir haben eine große Menge an individualisierten Songs für jede Lebenslage meiner Tochter mit Suno gebastelt. Vom Norwegian Black Metal Schlaflied zu „Iss endlich Dein Gemüse“ Mallorca Style. Die Ergebnisse sind absolut verwendbar und realistisch merkt man nicht, dass das kein Mensch dahinter war. Ist vielleicht künstlerisch bedenklich, aber die Menge an Songs mit der spezifischen Fokussierung hätte kein normaler Produzent mit akzeptablem Budget realistisch hinbekommen. Meine Tochter liebt es und ohne das Tool hätte es die Musik nicht gegeben.
uff,…habe mir alles mal angehört, und ich muss schon sagen:
„ja, brauche ich in diesem Leben nicht.“ Aber anhören wollte ich es schon mal.
Ich denke trotzdem, das man nicht alles was technisch geht auch machen sollte.
Der tiefere Sinn hinter Ki generierter Geräuschkulisse, das ist was mir abgeht.
winkt wiesel😁
Ich sammle derzeit Erfahrungen mit SUNO. Das geht jetzt schon seit 3 Monaten so. Wer denkt, mit SUNO neue Songs zu komponieren, sollte es schnell vergessen. Es hat absolut nichts mit Komponieren zu tun. Eher wie ein Aufnahmeleiter in einem Tonstudio. Stellt ihr sich vor, eine Musikgruppe betritt das Studio. Man weiß nur, dass sie diese und jene Instrumente haben, und sie spielen zum Beispiel harter Blues. Der Mann sagt den Leute: „Spielen Sie mir ein Lied über Herzschmerz, Moll, langsam, Blues-Rock-Stil aus den 90ern.“ Nun ja. Sie spielen uns zwei Versionen vor. Nach mehrmaligem Anhören entscheiden wir uns für die Version Nr. 2. Wir reden wieder mit den Jungs: „Bitte spielen Sie ab eine Minute und 25 Sekunden etwas anders. Nach dem Hauptthema wird ein Klaviersolo gespielt, dann noch einmal das Hauptthema und der Schluss.“ Und die Jungs spielen und spielen, und wir schneiden das Band und überspielen weitere Songs. Wir stellen aber ganz schnell fest, dass die Jungs nicht richtig Deutsch verstehen, eher kaum :-)
Wenn jemand zuhören möchte, hier sind meine SUNOs
https://suno.com/playlist/9e5e5c44-0492-4650-ae70-48933267a553