Künstliche Intelligenz als Kompositions-Tool
ChatGPT ist nach wie vor in aller Munde und fast täglich entdecke ich neue Möglichkeiten, dieses auf einem Large Language Model basierende KI-Tool in meinen Alltag zu integrieren. Für das Musizieren eignet sich ChatGPT nur bedingt, da das Tool eben ein Sprachmodell ist und in Sachen Sprache auch hervorragende Dienste leistet. Doch es gibt zahlreiche andere Tools am Markt, die tatsächlich für das Musikmachen gedacht sind. In einem ersten Schritt möchte ich euch einige KI-Tools für den Einsatz im Bereich Komposition vorstellen.
Inhaltsverzeichnis
Künstliche Intelligenz
Neben diesem Bericht haben wir bei AMAZONA.de weitere Artikel zum Thema Einsatz von künstlicher Intelligenz im Tonstudio, beispielsweise in Form von DAWs, Plug-ins, Software und Audio-Tools:
- MIDI-Generatoren mit künstlicher Intelligenz: AIVA, WAVtool und Staccato
- Der Einsatz von Künstlicher Intelligenz in der Musikproduktion
- DAW KI: Plug-ins mit künstlicher Intelligenz – Marktübersicht
- Workshop: KI im Tonstudio, smarte EQs und intelligente Reverbs
- Künstliche Intelligenz in der Musikproduktion: Interview Daniel Knoll, Markus Wegmann
- Test: Hit’n’Mix RipX DAW Pro, Software mit künstlicher Intelligenz
Künstliche Intelligenz (KI), im englischen Sprachraum Artificial Intelligence (AI) genannt, ist ein sehr hochtrabender Begriff. Zu Intelligenz gehört mehr als eine reine Datenverarbeitung. Die Algorithmen gaukeln dem Anwender jedoch vor, intelligent zu sein. Vereinfacht gesagt handelt es sich bei KI und ein Modell mit Realitätsbezug. So könnte es zum Beispiel ein Sprachmodell sein, das dann mit Daten trainiert wird. Durch die Analyse einer signifikant großen Datenbasis durch Algorithmen entsteht die Möglichkeit, eine Annahme zu treffen, wie das gewünschte Ergebnis aussehen könnte. Je größer die Datenbasis ist, desto genauer sind die Aussagen, die das KI-Modell trifft. Die Ausgabe des KI-Modells muss aber nicht zutreffend sein. Eines der Probleme der Informatik ist es, wahre Aussagen von falschen Aussagen eines KI-Modells zu unterscheiden.
Die Algorithmen machen sich mathematische und statistische Methoden zur Datenanalyse zunutze, um Muster zu erkennen oder Regeln aus den Datensätzen abzuleiten. Weit fortgeschritten sind KI-Modelle auf der Basis neuronaler Netze, die die Funktionsweise des menschlichen Gehirns nachbilden. Die Besonderheit dieser KI-Modelle ist, dass sie nach der Trainingsphase auf noch nie zuvor „gesehene“ Daten reagieren können, um daraus eine mit hoher Wahrscheinlichkeit zutreffende Ausgabe zu generieren.
KI-Modelle auf der Basis neuronaler Netze kommen zum Beispiel in der Sprachanalyse und Gesichtserkennung zum Einsatz.
KI-Tools für Komposition
Es gibt einige Kompositions-Tools, die auf KI basieren. In der Regel definiert der Anwender einen Stil, Instrumente, eine Tonart, das Tempo sowie eine bestimmte Stimmung, die das Endergebnis aufweisen soll. Manchmal lässt sich auch ein eigenes Profil auf der Basis von Musikaufnahmen erstellen. Die Ergebnisse lassen sich dann zum Beispiel als MIDI-File downloaden oder gleich im KI-Tool editieren. Die meisten Tools arbeiten im Webbrowser, einige wenige als App auf dem Computer oder Tablet. Eigentlich alle lassen sich kostenlos ausprobieren, manche sogar mit ihrem kompletten Funktionsumfang.
AIVA
Ein mächtiges Tool, das man sogar komplett kostenlos ausprobieren kann, ist AIVA. AIVA steht für Artificial Intelligence Virtual Artist. AIVA läuft entweder im Browser unter www.aiva.ai oder als App auf deinem Computer. AIVA ermöglicht es dem Anwender, aus vielen vorgefertigten Stilen auszuwählen, diese anzupassen und dann darauf basierend komponieren zu lassen. Es können aber auch eigene Generation Profiles und Influences erstellt werden. Ein Generation Profile ist sozusagen die Blaupause für die KI, anhand der sie dann komponiert. Influences sind Audio- oder MIDI-Dateien, die der Anwender hochladen kann. Das können komplexe Tracks sein, aber auch Einzelspuren.
Es dauert etwas, bis man zu guten Ergebnissen kommt. Manchmal gelingen jedoch aus dem Stand heraus beachtenswerte Kompositionen, die dann heruntergeladen und weiter verarbeitet werden können. Besonders gut gelingen orchestrale Werke. Hier mal einige Beispiel von mit AIVA erstellten Kompositionen, die ausschließlich mit den Sounds von AIVA wiedergegeben werden. Es benötigt nicht viel Phantasie, um sich vorzustellen, wie man diese KI-Kompositionen ausarbeiten könnte. AIVA bietet von allen hier vorgestellten Tools die meisten Editiermöglichkeiten, die sich selbst mit dem kostenlosen Account ausprobieren lassen.
Soundraw
Soundraw ist der Nachfolger von Ecrett Music und läuft unter der URL https://soundraw.io im Webbrowser. Soundraw funktioniert ähnlich wie der Vorgänger Ecrett Music, hat aber eine gänzlich andere Oberfläche. Wähle für die Erstellung ein Genre aus, eine Stimmung, ein Thema, bestimme die Länge, das Tempo und die Instrumente.
Es stehen erneut viele verschiedene Musikstile zur Verfügung. Hat man einen Song generiert, kann dieser editiert werden. Verändern können wir die Länge der einzelnen Patterns, die Intensität, die Lautstärke, das Tempo, die Tonart und mehr. Natürlich lassen sich auch mittendrin Passagen hinzufügen oder entfernen.
Hat man ein passables Ergebnis erzielt, lässt sich dieses als Grundlage für weitere Songs verwenden oder direkt herunterladen. Mit dem kostenlosen Account kann man die Funktionen von Soundraw in Ruhe ausprobieren. Möchte man den generierten Song herunterladen und nutzen, ist ein Abo notwendig.
Die so erstellten Songs dürfen als Grundlage für eigene Songs verwendet werden oder einfach so wie sie sind das Backing zum Beispiel für Gesang stellen. Es werden dem Nutzer alle Rechte zur Verbreitung, Vervielfältigung und Monetarisierung eingeräumt.
Die mit Soundraw erstellten Kompositionen klingen zwar sehr generisch, aber es sind gute Ideen mit dabei, die man dann später ausarbeiten kann. Während AIVA eine Stärke bei orchestralen Stücken hat, liegt die Stärke von Soundraw bei allen Stilarten der Popmusik. Sehr gut lassen sich damit kurze Musikstücke für Social Media Videos erstellen.
Flow Machines
Flow Machines ist ein weiteres Kompositionstool mit Schwerpunkt auf der Komposition von Melodielinien anhand von vorgegebenen Akkorden oder Ideen. Parameter wie Notenlängen oder die Komplexität der zu komponierenden Melodie lassen sich vom Nutzer einstellen. Gefällt ein Teil der komponierten Melodie, wird dieser als Favorit markiert. Einzelne Takte lassen sich neu komponieren und der Vorgang so lange fortsetzen, bis das Endergebnis zufriedenstellend ist. Per MIDI-Export überträgt der Nutzer die komponierte Melodielinie schließlich in die DAW seiner Wahl, um sie dort frei weiter zu bearbeiten.
Flow Machines ist für Mac und iPad erhältlich und kostenlos. Als Ideengeber ist die Software durchaus brauchbar, wenn auch nicht alle Ergebnisse immer zu einhundert Prozent zur eingestellten Akkordfolge passen. Manchmal sind die Ergebnisse aber durchaus beachtenswert und man wäre vielleicht selbst nicht auf die eine oder andere sehr interessante melodische Phrase gekommen.
Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Splash Pro
Die Software Splash Pro von Splashmusic läuft im Webbrowser und ist unter https://www.splashmusic.com zu finden. Splash Pro generiert Musik auf Basis einer Text-to-Music AI. Der Nutzer gibt einen Text-Prompt ein und bekommt daraufhin eine Auswahl aus fünf Samples als Vorschlag. Er kann nun eines dieser Samples auswählen oder auf Grundlage dieses Samples neue Samples generieren lassen. Auswählen lässt sich außerdem das Tempo des Songs.
Alles in allem eine recht einfache KI-Lösung. Nach der kostenlosen Anmeldung ermöglicht Splash Pro das Erstellen von 15-sekündigen Samples. Immerhin lässt sich noch ein Rapper hinzufügen, der einen selbst eingegebenen Text rappt. Möchte man längere Samples erstellen oder seine Lyrics von einem der vielen Sänger singen lassen, muss ein Upgrade durchgeführt werden.
Das Starter-Set für $10 pro Monat beinhaltet eine Lizenz zur kommerziellen Nutzung, bis zu 120-sekündige Songs mit der Gen. 2 AI und 60-sekündige Songs mit der Gen. 1 AI. Es stehen dann drei Sänger und zwei Rapper zur Auswahl. MP3s lassen sich in hoher Qualität herunterladen.
Für noch höhere Ansprüche steht das Max-Upgrade bereit. Mit $ 49 pro Monat ein kostspieliges Unterfangen. Die Gen. 1 Songs dürfen nun bis zu 180 Sekunden lang sein, bei den Gen. 2 Songs bleibt es bei maximal 60 Sekunden. 10 AI Sänger und 3 AI Rapper stehen zur Auswahl. Downloads sind nun auch im WAV-Format möglich und sogar als Stems.
Soundful
Soundful ist ebenfalls eine Webapplikation (https://my.soundful.com) und arbeitet ähnlich wie Soundraw und Co. Anhand von auszuwählenden Musikstilen und Templates wird ein Song generiert, der dann die Grundlage für weitere Kompositionen sein kann. Es lässt sich das Tempo wählen sowie die Tonart. Auch Drum-Loops lassen sich mit Soundful erstellen. Die so generierten Songs klingen aber immer ähnlich und unterscheiden sich nicht allzu sehr voneinander. Immerhin sind die kostenpflichtigen Pläne deutlich günstiger als die der anderen Anbieter.
Die Songs lassen sich in einer Preview in kompletter Länge vorhören. Gemischt und gemastert werden sie automatisch beim Download. Drei Downloads sind im kostenlosen Account enthalten. Stems bekommt man nur mit den kostenpflichtigen Mitgliedschaften. Die Eingriffsmöglichkeiten sind bei Soundful sehr viel beschränkter. Allerdings sind die klanglichen Ergebnisse schon beim kostenlosen Account qualitativ hervorragend.
Hörbeispiele
Die Hörbeispiele wurden ausschließlich mit den kostenlosen Accounts generiert. Sie zeigen, was schon nach kurzer Beschäftigung mit den jeweiligen Tools möglich ist. Eine Wertung möchte ich nicht vornehmen, denn die Tools setzen jeweils etwas andere Schwerpunkte. Aufgrund der Lizenzbestimmungen für kostenlose Accounts liegen die Rechte aller Hörbeispiele bei den jeweiligen KI-Anbietern und dienen hier nur zu Anschauungszwecken.
Mit AIVA habe ich einige orchestrale Songs für ein fiktives Computerspiel erstellt, bei dem es um die Reise vom gerade erst entdeckten Kontinent Amerika geht.
Soundful durfte zwei Synthie-Tracks beisteuern. „Feel the Synths II“ basiert dabei auf dem ersten Track „Feel the Synths“. Beachtenswert ist das KI-Mixing und Mastering der beiden Tracks, das von Soundful vor dem Download automatisch vorgenommen wird.
Soundraw darf sich hingegen von der rockigen Seite zeigen. Die Hörbeispiele könnten zum Beispiel als Hintergrundmusik für TikTok-Videos dienen.
Splash Pro bietet das kürzeste Hörbeispiel, arbeitet aber auch nach einem gänzlich anderen Prinzip. Trotzdem inspiriert der kurze Clip ungemein und könnte zum Beispiel als Sample genutzt werden.
„Den nächsten großen Hit wird eine KI aber wohl eher nicht komponieren.”
Na, dem Himmel sei Dank, sonst gäbe es einen immer wiederkehrenden Einheitsbrei.
@Markus: Vielen Dank für den aufschlussreichen Überblick.
@herw Oh Mann, Du ahnst gar nicht, wie sehr Du mir aus der Seele sprichst! 🙂👍
@Markus Auch von mir in dem Zuge ein herzliches Dankeschön für die Übersicht. Man muss ein Werkzeug ja nicht gut finden, aber kann trotzdem dankbar für die Einführung sein. 🙂
@Flowwater Ich finde das Thema sehr spannend, aber auch kritisch. Je mehr man sich mit KI beschäftigt, desto deutlicher wird, dass hier eigentlich nicht wirklich „Intelligenz“ am Werk ist. Das ist zwar eigentlich klar, doch aufgrund der Antworten von z. B. LLMs wie ChatGPT kann man das schnell einmal kurz vergessen. Ich finde solche Tools allerdings ganz gut für das Generieren GEMA-freier Musik wie zum Beispiel für Warteschleifen oder auch für Mockups, zum Beispiel für Computerspiele. Manche Ideen sind echt nett und die könnte man dann später ausarbeiten. Aber ohne Musiker wird es wohl eher nicht gehen.
@herw 😂KI🤣 wenn dein Roboter für dich zur Probe geht…. dann kannst es gleich vergessen mit dem Musikmachen, denn Robi übernimmt das ab jetzt für dich! Ich habe keine Angst dass wir Musikanten jemals ersetzt werden, denn diesen Spaß lasse ich mir nicht nehmen! Vielleicht ideal für Dieter Bohlen, der kann dann seinen Studio Fritz aus dem Studio werfen und die Kohle komplett für sich einstecken und wird noch mehr reich. Aber der kann ja auch nichts, keine Gitarre, kein Keyboard kein Gesang, nur Labern und andere Leute anweisen was sie tun sollen! Für ihn ist also die KI perfekt 🤣🤣🤣aber für Leute die ihr Handwerk gelernt haben, die lassen sich alle nicht ihren Spaß nehmen!
@herw Das ist alles erst der Anfang, in ein paar Jahren werden die „wiederkehrenden Einheitsbrei“ Charts von KI angeführt. Man suche mal auf Youtube „bob marley ai“, oder „ai music“, und höre und staune den Anfängen. Alles reingeladen in die KI, und die verwurstet das dann. Den Spaß am individuellen Musizieren gibt´s natürlich weiterhin, keine Frage.
Die Hörbeispiele haben bei mir abwechselnd zu großer Erheiterung und großer Langeweile geführt. Gut, dass nun Menschen keine Zeit mehr damit verschwenden müssen SO ETWAS zu komponieren.
Wenn ich es richtig verstanden habe schöpft die KI ihr „Wissen“ aus dem Training, also ein Vielzahl von Beispielen. Die Kreativität kommt nicht von innen heraus. Pattern die früher gepasst hatten werden wieder neu verarbeitet und vorgeschlagen. Soweit so gut. Was ich aber noch nicht so richtig verstanden hatte ist der Umgang mit dem geistigen Eigentum. Wenn die KI eine Akkordfolge vom Künstler XXX im Song YYY vorschlägt – darf das dann benutzt werden oder gibt es dann eine Klage wegen Verletzung des geistigen Eigentums? Wenn ja, wer wird dann verklagt? Der Endnutzer, der KI-Anbieter oder der Programmierer? Und wenn jetzt was neues und einmaliges erschaffen wird – wem gehört das dann?
@Wiglaf Bei einer Akkordfolge wird das noch nicht so problematisch sein, weil die Akkordfolge nicht die geistige Höhe erreicht, um für sich allein genommen einen Urheberanspruch auszulösen und durch das Urheberrecht geschützt zu sein. Problematischer würde es bei Melodien oder beim Einbau von Samples. Haften wird am Ende immer der Nutzer des Programms. Du kannst auch nicht einfach irgendwelche kostenlosen Loops nutzen und die einbauen, auch wenn diese als GEMA-frei oder urheberrechtsfrei (urheberrechtsfrei ist ohnehin nichts) beworben werden. Veröffentlichst du einen Song, bei dem ein solcher Loop verwendet wird, bist du selbst erst einmal in der Haftung. Das steht oft zumindest im Kleingedruckten der Anbieter drin. Ist auch bei Fotos so. Dazu findet man zum Beispiel hier etwas: https://www.urheberrecht.de/urheberrechtsfreie-bilder/
Wenn also die KI irgendetwas ausspuckt, dass aus Fragmenten großer Hits zusammengebaut wurde und die urheberrechtlich geschützten Phrasen erkennt jemand, hast du ein Problem. Aus diesem Grund laufen die Urheber ja gerade Sturm gegen die Verwendung von urheberrechtlich geschützten Materialien zum Training der KI. Die Gefahr ist schon groß, dass so etwas passiert.