Künstliche Intelligenz: Die aktuellen Entwicklungen bei Native Instruments und Roland
Native Instruments und Roland haben in den letzten Tagen Neuigkeiten veröffentlicht, in denen es um die Entwicklung von KI geht. Roland hat eine KI-Betaversion für das Roland-Cloud-Instrument GALAXIAS bereitgestellt, und Native Instruments stellte ein Instrument vor, das sich noch in der Entwicklungsphase befindet.
Fertige Produkte haben weder Roland noch Native Instruments vorzuweisen, doch was sie zu berichten haben, kann Aufschluss darüber geben, welche Produkte uns in Zukunft erwarten könnten und wohin die Reise geht. Natürlich könnte man kritisieren, dass diese beiden Firmen sich nicht als Speerspitze der KI-Entwicklung präsentieren, doch es ist interessant zu erfahren, inwieweit diese etablierten Unternehmen bereit sind, sich auf neue Technologien einzulassen.
Native Instruments erforscht das Thema wissenschaftlich. Sie haben ein Paper mit technischen Details veröffentlicht, und in einem YouTube-Video sieht man, wozu die künstliche Intelligenz in der Lage ist. Im Video ist ein Kontrol S61 zu sehen, darüber wird ein Chat-Fenster eingeblendet, in dem die Musizierenden eine Soundbeschreibung eingeben können. Dort liest man zum Beispiel: „Ethereal and delicate string pad that feels like floating in space among stars“, und tatsächlich klingt es dann auch wie ein Space Pad. die Technologie basieert wohl auf Samples. Native Instruments betont mehrfach, dass es sich bei den gezeigten Hörbeispielen ausschließlich um Grundlagenforschung handelt und kein Produkt geplant ist. Details können unter diesem Link nachgelesen werden.
Roland präsentiert den Tone Explorer, der als Beta-Version im Rahmen des GALAXIAS Labs Experiment in der Roland-Cloud implementiert wurde. Roland-Cloud-Nutzer dürfen dieses Produkt also auf Massentauglichkeit testen.Diese KI unterstützt bei der Suche nach dem richtigen Klang. Der Tone Explorer analysiert die Eigenschaften einer musikalischen Phrase und präsentiert Vorschläge, wie die Komposition fortgeführt werden könnte. Roland Tone Explorer soll dabei helfen, Ideen mit neuen Impulsen zu beleben, Schreibblockaden zu überwinden und „um die Ecke“ zu denken. Die Technologie wurde in Zusammenarbeit mit Qosmo entwickelt, einem japanischen Unternehmen, das sich mit Musik und Kreativität im Kontext von KI auseinandersetzt. Unter diesem Link stellt Roland seine Entwicklung vor.
Es ist interessant, dass diese etablierten Musiktechnologie-Konzerne langsam beginnen, KI-Anwendungen in ihre Technologien zu integrieren oder neue zu entwickeln. Derzeit habe ich jedoch das Gefühl, dass diese Anwendungen auf bereits bekannten Technologien basieren, die längst von Vorreitern in der KI-Szene angestoßen wurden. Textbasierte Anwendungen und Assistenten sind in der KI-Welt bereits etabliert. Trotzdem bleibt es spannend, was Roland und Native Instruments liefern werden, wenn sie sich mit diesem Thema vollständig angefreundet haben, denn KI wird zweifellos auch in der Musiktechnologie die Zukunft sein.
Können sie ich im Vergleich zu den neuen modernen KI-Musictechnologie Firmen durchsetzten? Schreibt es wie immer in die Kommentare.
Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Ich frage mich immer, wieso ich eigentlich eine Textzeile – den sog. »Prompt« – eingeben muss, um ein Ergebnis zu erzielen? Das bedeutet ja im Umkehrschluss, dass ich besonders gut formulieren können muss bzw. genau die Stichwörter drauf haben muss, welche die KI auch kennt um die gewünschten Sounds zu erzeugen. Wäre es nicht sinnvoller, man hätte irgendwie eine andere Art der Nutzeroberfläche? Vielleicht eine, die mir schon mal grob Hinweise gibt, welche Sounds überhaupt erzeugt werden können? Ich denke da zum Beispiel an »Abyss« (über Tracktion verkauft); das geht teilweise schon grob in die Richtung. Oder dieser Synth, der aussieht, als würde man eine Pflanze wachsen lassen (komm‘ gerade nicht auch den Namen).
Ansonsten formulierte ich mich zu Tode und bekomme trotzdem nicht den Sound, den ich haben will. Genau daran kranken ja im Moment quasie ALLE KIs (nicht nur in der Musik).
Oder wird hier einfach »nur« ein sog. LLM (Large Language Model) als Interface genutzt und das als Innovation verkauft? Und die KI dahinter ist gar keine KI (im Sinne von: Die erzeugt die Multisamples), sondern »nur« eine massive Sammlung an vorgefertigten Sounds?
Ich halte LLMs für Musiker für den falschen Weg. Aber naja, man wird sehen.
@Flowwater Der Begriff KI ist mittlerweile ein Euphemismus für maschinelles Lernen. Da ist keine Intelligenz drin, es handelt sich nur um eine Menge an gelernter Erfahrungen, auf die unscharf zugegriffen werden kann.
Letztlich in Code und in eine Gewichtung verschiedener Pfade gegossene Menge an Trainingsdaten.
@bluebell Ich bin voll auf Deiner Seite, dass mit dem Begriff »KI« im Moment viel Schindluder getrieben wird. Marketingtechnisch muss heutzutage alles »KI« sein, was irgendwie mit computergenerierten Vorschlägen zu tun hat … weil man ja sonst als Anbieter so einer Technik nicht »in« ist. Völlig klar.
Ich meine zwar die echte »KI«, wenn ich selber den Begriff schreibe … aber schlussendlich ist es mir natürlich auch egal, welche Programmteile die eigentlichen Ergebnisse liefern. Mir ging es eher um dieses vorgeschaltete LLM … ob das wirklich so sinnvoll ist.
@Flowwater Grundsätzlich stimme ich Dir zu, und würde gerne noch zwei Punkte hinzufügen:
– Die Hype-Entwicklung: Bei einer neuen Technik kommt häufig zuerst der Hype-Berg „Das revolutioniert alles!“, dann das Tal der Ernüchterung „Ist ja doch nicht sooo doll“ und schliesslich das Pragmatik-Plateau, wenn wir die neue Technik einfach nutzen, wo sie sinnvoll ist, und sie mehr oder weniger selbstverständlich wird – oder ausstirbt, weil sie keinen echten Nutzen (mehr) bringt. Kann sich noch jemand an den „Multimedia“-Hype der 90er erinnern? An den Internet-Hype? Und heute ist es KI – in ein paar Jahren werden wir sehen, wo es tatsächlich Nutzen bringt.
– „dass ich besonders gut formulieren können muss“: Meine Erfahrung – ganz unabhängig von Deinem konkreten Post – ist, dass eine genügend präzise formulierte Frage die Antwort praktisch schon enthält. Das eigentliche Kunststück ist also, genau genug zu formulieren, was Du wissen / haben möchtest.
Stell Dir vor, Du wirst gefragt nach „feels like floating in space“: Schwierig. Aber wenn ich Dich frage nach einem Sound mit „mehr Hall, extrem großer Raum und etwas Schimmer, also künstlichen Obertönen“? Damit lässt sich durchaus etwas finden.
@chardt , beim Roland Galaxias Tone Explorer rattert die „KI“ wohl nur an Hand eingehender MIDI Daten, Tones und Scenes heraus. Schlägt also nur den „Sound“ der passen soll vor.
„The model is built by performing metric learning with a neural network consisting of both MIDI and tone data. It then analyzes and calculates the “distance” between phrases and tones to extract compatibility indicators. Tones are given a “score” as a guide to compatibility, and then Tone Explorer provides graphical views of the tone choices for deeper exploration.“
Primär gehts darum den kreativen Prozess mit GALAXIAS zu beschleunigen. Okay, das ist sinnvoll, man kann sich in GALAXIAS verlieren. Aber woher will der TONE EXPLORER wissen, ob ich heute eine Synthwave Nummer im Kopf habe oder obs dann Drum and Bass werden soll, Weil ich die 172 BPM Halftime spiele und am Synth chillen möchte. Steht ja nirgendwo geschrieben Reese Bass bitte nur in DnB Rollern. Und andersrum Synthwave nur echt mit der tiefen TR-707 Snare und den TR-727 Congas und bitte mit Cowbell. Im Kontext von Galaxias macht das Sinn. Aber mit Blick auf den kreativen Prozess? Der TONE EXPLORER analysiert ja nur eingehendes MIDI und merkt sich allen Falls meine Wahl.
@TobyB Vielleicht hat der »Galaxias Tone Explorer« von Roland sogar den besseren Ansatz. Aber grundsätzlich sehe ich auch das Problem, dass man der KI irgendwie mitteilen muss, was man eigentlich genau haben will. Und dann müssen sich meine Begrifflichkeiten auch mit denen der KI decken. Dafür brauche ich eigentlich keine KI, dafür langen Schlagworte für Sounds … die ich schlussendlich auch verstehen und genau so wie die KI einordnen muss.
Beispielsweise bei einem Begriff wie »gritty bass« (bei dem Beispiel von NI) muss sich meine Vorstellung von »gritty« mit dem der KI – sprich dem Lernmodell – decken. Sonst bekomme ich nie das heraus, was ich haben will. Wenn mir der Begriff nicht einfällt, den mein gewünschter Sound für die KI bedeutet, dann habe ich Pech gehabt. Dann lieber eine Liste mit Schlagworten, die ich durchscrolen und ausprobieren kann.
Erschwerend kommt noch hinzu, dass diese Begrifflichkeiten von KI zu KI und von Version zu Version unterschiedlich sind. Ich kann also mein hart erarbeitetes KnowHow alle Nase lang weg schmeißen. Wenn man das weiter denkt, dann arbeite ich mehr für den Computer als er für mich. Aber damit fange ich besser nicht an.
@Flowwater , von der derzeitigen Bedienung wird GALAXIAS mit KI sicher nicht schlechter. Nur wie du sagst, mein gritty und das der KI muss sich nicht decken. Aber am Ende des Tages führt diese Arbeitsweise dazu, dass die Kollegen an analogen Maschinen total überfordert sind. Überspitzt geschrieben, nehme ich einer bestimmen Klientel das Smartphone weg und sage, jetzt machen wird das mal total altmodisch mit Maus schubsen, dann kommt da nicht mehr viel. Halte ich für den falschen Ansatz. Ich persönlich glaube das es immer noch schneller ist, sich mit seinen 4 – 5 Geräten den Sound zusammenzuschrauben, wie mit Siri, Cortana und Co rumzuprompten. Trotzdem werd ich mir die Installation geben und damit mal rumspielen. Vielleicht bekomme ich ja einen Fat Moog Bass raus ;-)
@chardt , ich wollte eigentlich Flowwater anworten.
@chardt Ich sehe das auch: Im Moment wird »KI« sehr viel vom Marketing getrieben … und da wird immer gerne auch geflunkert, was eine neue Technik können soll und welchen Einfluss sie auf das Leben aller hat.
Ich sehe KI am Scheideweg und zwar rein wirtschaftlich für die Anbieter und Entwickler von KIs. Und zwar deshalb weil:
Ressourcen-Verbrauch
KI verbraucht höllisch viele Ressourcen (Strom). Und zwar jetzt schon. Mal sehen, ob wir (die Menschen) uns das auf Dauer leisten können.
Parellelisierung
KI benötigt auch eine pervers hohe Parallelisierung der Rechenprozesse. So etwas skaliert nicht endlos. Ich habe den Eindruck, dass da bereits ein Plateau erreicht ist.
Geldmittel und Marketing: Investitionsblase
Aber mein Haupt-Ansatzpunkt ist, dass so unglaublich hohe Geldmittel eingesetzt werden (zum Beispiel Microsoft). Die Firmen müssen den Investoren glaubhaft versichern, dass das auch funktionieren wird. Für mich ist das gerade eine Investitionsblase, die sich da aufbaut. Und solche Blasen sind bisher immer geplatzt. Sollte das auch bei KI passieren, dann hat es sich mit der Technik, weil niemand wieder dafür Geld geben wird (auch wenn es sinnvoll sein sollte).
Ich bin gespannt.
@Flowwater Meine Sicht: Bei KI sind wir noch in der Baby-Phase, man kann schon ein bisschen was sehen aber bis das „erwachsen“ wird, dürften noch etliche Jahre ins Land ziehen. Wenn es mal soweit ist, dann dürften die Algorithmen erheblich effektiver sein als das derzeitige „Brute Force“ und die HW-Anforderungen werden weniger problematisch sein.
Ansonsten: KI benutzen, um einen Synth-Sound zu finden? Will ich das wirklich? Mir würden ein paar Kategorien reichen, den Rest mach ich dann gerne selber – oder ich schraub gleich meinen Sound zusammen.
@chardt Für die immer selbstähnlichen Nummern in den Charts, welche immer ähnliche Sounds und Rhythmen nutzen ist das natürlich ein Eldorade (hat Filterpad weiter unten schon erwähnt). Dann kann man den Abfall noch kosteneffektiver und schneller produzieren. Für das obligatorische genuschelte »Uh uh bro« am Anfang eines Rap-Songs braucht man dann auch niemanden mehr (eigentlich ja jetzt schon nicht).
»Spaßig« wird es, wenn die KI dann ihren eigenen Müll zu Schlucken bekommt (sie also mit dem Quatsch des Vorgängers trainiert wird).
@Flowwater Du meinst Synplant. Der Synthesizer ist super, Samples reinladen und gucken, was die KI draus macht ist super. Und selbst die Ergebnisse die dem Ursprungs-Sound nicht nahe kommen sind oft sehr interessant.
Microtonic vom selben Entwickler hat ja mit Beatspace auch eine KI Funktion, die automatisch Drumsequencen und Sounds erzeugt, auch echt super.
@ollo Jaaaaa, genau ,., DER ist das! 👍
Bei iZotope ist ja KI schon völlig normaler Konsens. Wobei das Wort KI hier nicht ganz richtig ist, eher haufenweise Algorithmen meiner Meinung nach. Funktioniert aber super! Bedeutet allerdings im umkehrschluss, dass Arbeit von Musikern und Studios immer bedeutungsloser und der Markt mit Klangmüll zugeschüttet wird. Songs ohne Gefühl, Verstand und nur erfolgreich wegen extremen Marketing und die Bevölkerung verlernt die Unterscheidung zwischen guter und schlechter Musik. Kann man jetzt schon dauerhaft täglich beobachten. Paradebeispiel Frau Swift! Was für ein wahnsinns Quatsch an Musik, aber die erfolgreichste auf dem internationalen Markt mit über 1 Mrd. Umsatz. Irre sind auch die schlagerartigen Weihnachtsalben der Frau Fischer. Schöne neue Musikwelt!
So „neu“ ist diese „schöne Musikwelt“ nun ja doch nicht. Gefühlt seit mehreren Jahrzehnten hört die Masse immer in etwas das Gleiche. Gefundenes Fressen für die KI (Kopier Industrie) die sich das süffigste und einfachste rauspickt und es den Leuten vor den Latz knallt. Das funktioniert bei Musik genau so wie beim Essen (Fastfood), Filmen (Blockbuster) oder Sport (Fussball). Falsch ist daran – marketingtechnisch gesehen – nichts, denn am Schluss zählt die Kohle. War immer so, ist jetzt so und wird immer so sein.
Aber man muss da nicht mitmachen, weder mithören, mitessen, mitsehen oder mitspielen :-)
Ich bin selber in der IT-Branche. Das an so ziemlich alles „KI!!!!!“ als Marketing Schlagwort drangeklatscht wird macht mich einfach nur noch zynisch.
Wir sind an einem Punkt angekommen, an dem jeder Algorithmus als KI vermarktet wird. Man kann sich jetzt daher sogar einen „KI“-Reiskocher kaufen – kein verspäteter Aprilscherz. Bei fast alllen Fernsehern wird jetzt auch „AI“-Upscaling vermarketet – dabei ist es einfach nur eine etwas besser optimiertere Version von der Pixelvergrößerung die man selbst in der Kamera meines lange veralteten Iphone 6S finden kann.
Die einzige Musiksoftware bei der KI für mich potentiell vielleicht hilfreich wirkt, ist Izotope Elements. Die einfachste Ebene von einer Master hat „objektiv schlecht“ und „objektiv gut“, das kann auch ein simpler Algorithmus wie ein LLM lösen. (LLM = Kann sich Muster merken*)
Beim Komponieren und Sound Design sehe ich komplett keine Chance – sei es Machine Learning, LLM oder einfacher Algorithmus. Das Problem beginnt schon damit, dass den LLM beigebracht werden muss was „gut“ ist. Wenn z.B. der LLM zum größten Teil mit Top 100 Daten gefüttert wird, ist er komplett nutzlos wenn man Patches für andere Genres braucht. Die Nutzerwünsche sind bei gerade bei sowas zu divers. Wenn ich das optimistisch sehe, würde ich sagen in generell wären vielleicht 12% der generierten Ergebnis für den Nutzer im genauen Moment brauchbar.
*Stark zur Verständlichkeit vereinfacht.
@PossumVla Hab ich ja so gesagt. 😂
@PossumVla Volle Zustimmung. 👍
„Beim Komponieren und Sound Design sehe ich komplett keine Chance – sei es Machine Learning, LLM oder einfacher Algorithmus. Das Problem beginnt schon damit, dass den LLM beigebracht werden muss was „gut“ ist. Wenn z.B. der LLM zum größten Teil mit Top 100 Daten gefüttert wird, ist er komplett nutzlos wenn man Patches für andere Genres braucht. Die Nutzerwünsche sind bei gerade bei sowas zu divers“
Das geht sicherlich mit Nutzerbewertungen als Feedback was gut und passend ist und angabe von Genres, damit auch Ergebnisse Abseits vom Mainstream-Pop passen.
Ich weiß nicht, wie es Euch geht, aber ich kann die Worte KI und AI langsam nicht mehr hören.
Nein, ich habe keine Angst, dass mein Kühlschrank intelligenter wird als ich.
Ich habe nur langsam den Eindruck, dass uns das Thema unter maßlos hohem Energieverbrauch (den die Welt gerade auch nicht brauchen kann) nicht wesentlich weiterbringen wird.
Zum einen hinkt die Qualität in vielen Fällen den Erwartungen deutlich hinterher und ich befürchte, dass diese neue schlechte Qualität, die sich mehr und mehr in viele Bereiche des Alltags einschleicht, irgendwann mal der neue (schlechtere) Standard sein wird.
Dass die Algorithmen im Grunde genommen nichts mit Intelligenz zu tun haben sollte klar sein.
Die Daten sind nicht gefiltert und auf Qualität geprüft, das „Shit in -> Shit out“ Prinzip gilt auch hier.
Am besten daran nachzuvollziehen, dass KI nicht mit KI generiertem Stoff gefüttert werden darf, weil es sich sonst „verheddert“ und selber lahm legt.
Also .. wenn jemand was über „nochn KI Tool“ berichtet, ist es für mich langsam schon ein Grund, mir das nicht mehr anzusehen, weils in der Regel eh Quatsch ist. Der Hype darum nerft langsam.
Ich warte noch darauf, dass es demnächst noch Unterwäsche mit KI und automatischer Verhütungsfunktion gibt oder dass die Schnürsenkel mir den Weg weisen…
In wenigen Jahren wird es Synthesizer und Grooveboxen geben, die von selber auf Basis gesprochener Worte perfekt style-orientierte Stücke incl. Vokals produzieren können.
Dann wird Musik endgültig entwertet.