ANZEIGE
ANZEIGE
ANZEIGE

Feature: Stem Separation, Funktionsweise, Tools & Software

Stem Separation Tools im Check

19. Juli 2024
KI Stem Separation Roboter mit Kopfhörer und Schaltkreisen

Feature: Stem Separation, Funktionsweise, Tools & Software

Stem Separation per künstlicher Intelligenz ist aktuell in aller Munde. Was vor wenigen Jahren noch undenkbar schien, erledigt jetzt eine kleine Web-Applikation, eine Smartphone-App oder die DAW ganz nebenbei. Doch wie funktioniert Stem Separation und welche Tools und welche Software eignet sich dafür? Dieser Artikel gibt dir einen Überblick.

ANZEIGE

Was ist ein Stem?

Ein Stem ist eine Aufnahme eines Instruments oder einer Instrumentengruppe. So ist zum Beispiel ein Schlagzeug-Stem eine Aufnahme aus vielen verschiedenen Mikrofonaufnahmen der einzelnen Schlaginstrumente. Ein Stem ist in der Regel bereits mit EQ, Kompressoren und Effekten versehen. Sehr umfangreiche Projekte mit vielen Spuren werden meistens als Stems exportiert, um zwar Zugriff auf die Mischungsverhältnisse der Instrumentengruppen zueinander zu haben, aber eben nicht mehr Zugriff auf jede Einzelaufnahme eines Instruments. Manchmal besteht auch eine Gesangsspur aus sehr vielen kleinen Schnipseln, die aus vielen Takes zur endgültigen Version zusammengeschnitten wurden. Für die weitere Verarbeitung dieser endgültigen Gesangsfassung wird dann ein Stem erstellt.

Aus mehreren Stems entsteht der finale Mix. Manchmal werden Stems auch für das Mastering angeliefert, wenn der Mastering-Tonmeister diese anfordert. Auf diese Weise kann ein besseres Balancing stattfinden als bei einer Bearbeitung des fertigen Stereomixes.

Auch für Remixer sind Stems sehr wichtig. Für Remixes benötigt der Remixer die wichtigsten Bestandteile eines Songs separiert voneinander. Manchmal nutzen Remixer nur den Gesang, manchmal bestimmte Instrumental-Parts. Wird ein Remix-Auftrag von einem Label erteilt, liefert das Label in der Regel die gewünschten Stems an. Wird ein Remixer eigenständig tätig, remixt einen Song und holt später die Rechte ein, liegt ihm meistens nur das Stereo-Master vor, was die Bearbeitung erschwert.

Stem Separation: Aufgaben und Ziele

Hier kommt nun die Stem Separation ins Spiel. Lagen für einen Remix oder ein Re-Mastering keine Stems vor, wurden verschiedene Bestandteile so gut es eben geht, mit Filtern separiert. Da sich bei einem Mix allerdings viele Instrumente überlagern, funktioniert das nur wenig zufriedenstellend. So haben Remixer zum Beispiel durch das Setzen eines Low-Cut-Filters die tiefen Frequenzanteile einer Aufnahme ausgefiltert, die hauptsächlich vom Bass und dem Schlagzeug belegt werden, um dann einen eigenen Groove unter die Aufnahme zu legen. Das Filtern von Gesangsstimmen war schon immer wesentlich aufwändiger, da die Stimme zwar fast immer im Vordergrund steht, aber der gleiche Frequenzbereich auch von Keyboards und Gitarren sowie Becken genutzt wird. Mit aufwändigen Arbeiten im Spektraleditor mit einem Spektrogramm der Audiodatei hat man versucht, diese einzelnen Frequenzbestandteile zu identifizieren und zu isolieren. Je nach Dichte des Arrangements gelingt das mal besser, mal schlechter. Auch Filterungen des Stereosignals und das Aufsplitten in ein monofones Mittensignal und ein stereofones Seitensignal (MS) gehörten zu den genutzten Tools.

Gerade diese aufwändigen und nervenaufreibenden Bearbeitungen haben den Wunsch aufkommen lassen, diese irgendwie zu automatisieren. Und genau hier kommt künstliche Intelligenz ins Spiel.

Stem Separation per KI

KI Stem Separation Roboterkopf mit Kopfhörer

KI Stem Separation bringt dem Computer das „Hören“ bei

Der Mensch ist in der Lage, sich auf bestimmte Signalanteile eines komplexen Audiosignals zu konzentrieren und dieses zu separieren. Ein typisches Beispiel ist das Verfolgen eines Gesprächs inmitten einer lauten Umgebung. Ein anderes Beispiel ist das Heraushören von Instrumental-Parts, wie es Musiker tagtäglich machen. Das Fokussieren auf einen gewissen Part eines komplexen Mixes lässt diesen aus dem Mix förmlich heraustreten. Dieses Fokussieren und Separieren ist einem Lernprozess unterworfen. So lernt ein Baby schon vor seiner Geburt Geräusche und Stimmen kennen und zu unterscheiden. Im Laufe des Lebens kommen immer weitere Geräusche und Stimmen dazu. Musiker lernen im Rahmen der Gehörbildung, Melodien und Akkordwechsel zu verfolgen und zu notieren. Tontechniker lernen das Heraushören und Bestimmen von Frequenzen oder Frequenzbereichen, um später einen Mix besser beurteilen zu können.

Die Idee ist nun, einen Computer so zu trainieren, dass er diese Aufgabe ebenso wahrnehmen kann und auf Basis des Trainings das „Gehörte“ automatisch in Stems zerlegt. Das spätere Separieren des Audiosignals in Stems kann dann später sogar in Echtzeit stattfinden. Auffällig ist, dass fast alle Tools ähnlich funktionieren: Eine Audiodatei wird geladen und dann in die Bestandteile Gesang und Instrumente (Vocals, Instrumantal) oder alternativ in die vier Stems Gesang, Bass, Drums und andere Instrumente unterteilt (Vocals, Bass, Drums, Other). Das ist auch nicht weiter verwunderlich, denn die meisten Tools basieren auf zwei weit entwickelten Open-Source KI-Modellen für die Stem Separation: Das von Deezer entwickelte Spleeter und Demucs von Meta. Die Software-Entwickler veröffentlichen leider nicht immer, welches dieser Modelle von der eigenen Software verwendet wird. Trotz der Verwendung des gleichen Modells klingen Tools teilweise unterschiedlich, was mit der endgültigen Implementierung und verschiedenen Stellschrauben zu tun hat, an denen die Entwickler noch drehen können.Manche Tools nutzen auch eigene Modelle.

Die meisten Tools arbeiten mit Maskierung. Dabei werden alle Bestandteile, die nicht für den Stem benötigt werden, maskiert, also unhörbar gemacht. Übrig bleibt dann hoffentlich der Teil, den der Nutzer für die weitere Arbeit benötigt. Manche Tools arbeiten jedoch auch mit einer Art Synthese, bei der das Nutzsignal analysiert und anschließend durch Synthese für den Separationsprozess neu zusammengesetzt wird.

ANZEIGE

Tools für Stem Separation

Online, offline, Plug-in oder DAW

Es gibt mittlerweile zahlreiche Tools, die Stem Separation (auch Stem Extraction genannt) anbieten. Manche arbeiten online, manche offline. Es gibt sie als Web-Applikation, als App für das Smartphone, als Software, als Plug-in für die DAW oder sogar fest integriert in den Funktionsumfang einer DAW oder eine DJ Software. Ich möchte euch hier stellvertretend einige dieser Tools vorstellen und in einigen Fällen auch einen Klangvergleich anstellen. So könnt ihr euch gut ein Bild davon machen, ob das entsprechende Tool euren Vorstellungen genügt.

Online – von kostenlos bis kostenpflichtig

Die meisten Anbieter von Online-Tools bieten einen kostenlosen und einen kostenpflichtigen Premium-Zugang. Letzterer unterscheidet sich meistens in der Geschwindigkeit der Berechnung sowie in der maximal möglichen Dateigröße des Quellmaterials.

Lalal.ai

Lalal Ai Stem Separation Ergebnis

Die fertigen Stems in Lalal Ai

Lalal.ai ist ein Online-Tool, das eine Vielzahl verschiedener KI-Prozesse für Audiodateien bietet. Einer davon ist Stem Separation. Lalal.ai arbeitet für Stimmen mittlerweile mit der vierten KI-Modellgeneration Orion. Für Instrumente wird derzeit noch die dritte Generation Phoenix verwendet. Phoenix bietet bis zu 10 Stems an:

Lalal Ai Stem Separation Auswahl von Stems

Mehr Auswahl in Lalal.ai

Orion ist derzeit noch auf das Trennen in einen Vocal Stem und einen Instrumental Stem beschränkt, bietet dafür aber eine herausragende Qualität durch eine Form der Re-Synthese der Stimme. Das besonders auf Stimmen trainierte Orion-Modell analysiert das Quellmaterial und statt nun durch Maskierung das Signal auf die Stimme einzuschränken, erstellt die KI im Prinzip eine neue Version, die dafür frei von den sonst üblichen Bleeds durch andere Signalbestandteile, Phasing oder Artefakten ist. In der Tat ist die Stimmqualität von Lalal.ai herausragend und setzt sich deutlich von vielen anderen Modellen ab.

Lalal Ai Stem Separation mit v4 Orion KI-Modell

Das v4 Orion KI-Modell verspricht bessere Ergebnisse beim Trennen in Vocals und Instrumental

Lalal Ai Stem Separation Preisliste

Preisliste für Lalal Ai

Lalal.ai bietet einen kostenlosen Testzugang, mit dem man sich erst einmal von der Qualität überzeugen kann. Im Anschluss kauft der Nutzer Volumenpakete, die eine bestimmte Anzahl an Audiominuten freischalten. Sind diese Minuten aufgebraucht, muss zunächst ein neues Paket erworben werden. Ausprobieren kannst du Lalal.ai hier:

Fadr

Stem Separation mit KI Fadr Ai

Die fertig separierten Stems in Fadr Ai

Fadr ist ein weiteres Online-Tool zur Stem Separation, steht aber auch als Plug-in für die DAW zur Verfügung. Fadr unterteilt das Signal zunächst einmal in die oben genannten vier Tracks für Vocals, Bass, Drums und Other. Über das Dropdown-Menü „More Stems“ erreichen wir noch zwei Funktionen, um die Drums in Kick, Snare und Other Drums zu unterteilen beziehungsweise die Instrumentalspur in die Instrumente E-Gitarren, Akustikgitarre, Piano, Strings, Holzblasinstrumente und andere. Allerdings stehen diese Möglichkeiten nur zahlenden Nutzern zur Verfügung. Fadr zeigt nach der Analyse außerdem die Akkorde des Songs an.

Eine Besonderheit von Fadr ist der Export von MIDI-Files, die aus den erkannten Spuren generiert werden. Der Nutzer bekommt eine Textdatei mit den Akkorden plus die einzelnen MIDI-Spuren. Leider haben die erkannten MIDI-Noten und auch der Rhythmus recht wenig mit dem zu tun, was im Original zu hören ist.

Die Audioqualität von Fadr geht in Ordnung, kann aber in vielerlei Hinsicht mit der von Lalal.ai und anderen Tools nicht mithalten. Gut arbeiten kann man aber mit dem Instrumental und auch mit der extrahierten Vocal-Spur.

Fadr Ai KI Stem Separation Bezahl-Features

Die zusätzlichen Features der kostenpflichtigen Fadr Version

Mit Fadr+ bekommt der Anwender noch einige zusätzliche Features wie die erwähnten weiteren Stems, WAV Download mit 32 Bit, unbegrenzten Cloud-Speicherplatz und mehr. Die Kosten liegen bei $ 10 im Monat bzw. $ 100 im Jahr.

Fadr kannst du hier ausprobieren:

Vocal Remover

Vocal Remover Ai Stem Separation Ergebnis

Ergebnis mit zwei Spuren in Vocal Remover

Vocal Remover ist ein weiterer Online Stem Separation-Dienst, der kostenlos verfügbar ist. Es stehen verschiedene Tools zur Verfügung, die in einer vertikalen Menüleiste am linken Bildschirmrand verfügbar sind. Remover entfernt die Vocals aus unserem Test-Song. Nach dem Upload des Songs erscheint ein Wartebildschirm:

Vocal Remover Ai Stem Separation Ergebnis

Ergebnis mit zwei Spuren in Vocal Remover

Diesen sieht man selbst bei unserem Test-Song eine geraume Zeit. Das Tool benötigt erheblich länger als die beiden zuvor getesteten Tools Fadr und Lalal.ai. Nach der Berechnung werden zwei Spuren für die Musik und die Vocals angezeigt. Die Tonart und das Tempo werden automatisch erkannt. Für den Download des Ergebnisses stehen die beiden Formate MP3 und WAV zur Auswahl.

Vocal Remover Download-Formate und Spuren

Für den Download der Vocal Remover Stems gibt es verschiedene Optionen

Splitter stellt nach der Trennung des Songs vier Spuren für Music, Vocals, Drums und Bass zur Verfügung. Beim Durchhören der vier Spuren fällt auf, dass Vocal Remover ganz offensichtlich bei der Stem Separation mit dem Maskierungsverfahren arbeitet. Sehr deutlich wird das, wenn man sich die Music-Spur und dann die Bass-Spur getrennt voneinander anhört: Alle hohen Frequenzanteile des Synthesizer-Basses sind noch in der Music-Spur enthalten, während die tiefen Frequenzanteile auf der Bass-Spur zu hören sind. Ganz leise enthält auch die Drums-Spur einige sehr hohe Frequenzen vom Synthesizer-Bass. Das ist nicht verwunderlich, denn die Becken und Percussion-Anteile liegen im gleichen Frequenzbereich.

Vocal Remover Stem Separation

Kann auch mehr Stems: Vocal Remover

Die Qualität der Trennung ist in Ordnung, wenn auch nicht ganz frei von Artefakten und dem erwähnten Übersprechen durch die Maskierungsmethode. Interessant für die Nutzer von Native Instrumentes Traktor: Auch das Stems-Format wird als Download-Format angeboten, das die vier Spuren in einer Datei für die Verwendung mit Traktor zur Verfügung stellt.

MVSEP

MVSEP AI Mitgliedschaft

MVSEP Stem Separation

Das Online-Tool MVSEP besitzt deutlich mehr Optionen für die Konfiguration als die anderen Tools. Sogar das KI-Modell, mit dem die Stereodatei bearbeitet wird, kann hier ausgewählt werden. Der Dienst kann kostenlos genutzt werden, hat dann aber einen gewaltigen Nachteil: die Warteschlange. Hier ist viel Geduld angesagt, insbesondere dann, wenn man die einzelnen Modelle miteinander vergleichen möchte. Immerhin werden in einem kleinen Fenster Informationen zu den einzelnen Modellen und zu ihrer Verwendung angezeigt. Leider lassen sich nicht mehrere Aufträge parallel starten. Ein Umgehen der Warteschlange kostet Geld. Immerhin können Nutzer durch eine kostenlose Anmeldung zumindest eine mittlere Priorität in der Warteschlange erreichen.

Die Trennung der Audiodatei hängt vom gewählten KI-Modell ab. Manche Modelle führen die Standardtrennung in Vocals, Bass, Drums und Other durch, andere trennen nur Musik und Vocals und wieder andere bieten noch mehr Stems an. Ist man registriert, stehen die Formate MP3 (320 kbps), WAV und FLAC (lossless) zur Auswahl. Ohne Registrierung lädt man das Ergebnis im MP3 Format (320 kbps) herunter.

MVSEP AI Kosten

MVSEP AI Kosten

Der kostenpflichtige Dienst funktioniert über Credits, die in Abhängigkeit der Dateigröße verbraucht werden. Zahlt man nicht, ist die Länge der Audiodatei auf 10 Minuten und die Dateigröße auf 100 MB beschränkt. Die Berechnung, wie viele Credits pro Auftrag verbraucht werden, ist kompliziert und hängt vom Modell und der Länge der Aufnahme ab. Nachlesen kann man das hier:

Ohne Credits dauert die Bearbeitung aufgrund der Warteschlange ewig. In meinem Fall waren 107 Aufträge vor mir dran und die Abarbeitung dauerte mehrere Stunden. In einem weiteren Versuch waren es dann nur noch 9 Aufträge vor mir und die Bearbeitung war nach fünf Minuten abgeschlossen. Außerdem kostet die Bearbeitung unter Umständen viel Geld. Es gibt allerdings extrem viele Hörbeispiele unter dem Menüpunkt „Demo“. Die Ensemble-Algorithmen sind sehr beeindruckend. Hier mal ein Beispiel für sehr „schwieriges“ Ausgangsmaterial, das mit dem Ensemble All-In Modell bearbeitet wurde:

MVSEP AI Stem Separation KI-Modelle

MVSEP KI-Modelle

Insbesondere die Spuren „Vocalslead“ und „Drums“ beeindrucken mit ihrer sehr hohen Qualität. Auch die anderen Spuren klingen sehr klar, haben teilweise zwar etwas Übersprechen, sind jedoch frei von Artefakten. Der Track wurde außerdem mit weiteren KI-Modellen bearbeitet. Sehr beeindruckend ist das Modell BS-Roformer für die Trennung in Vocals und Music. Beide Spuren klingen einwandfrei. Die Originaldatei befindet sich übrigens am Ende der Seite.

Offline Tools

Es gibt auch einige Offline-Tools zur Stem Separation. Diese funktionieren ohne Download und berechnen die Stems auf dem lokalen Computer. Manche Tools verfügen über einen Online- und Offline-Modus, sodass der Benutzer wählen kann, wo die Berechnung stattfinden soll.

Splitter Ai

Splitter Ai Stem Separation App

Die App-Version von Splitter Ai

Splitter Ai ist sowohl als Offline App für MacOS und Windows verfügbar als auch als Online-Tool. Die kostenlose Version von Splitter Ai nutzt ein Standard KI-Modell mit fünf Stems (Bass, Drums, Other, Piano, Vocals) mit weniger brauchbaren Ergebnissen. Viele Artefakte und Bleeding gehören hier leider fest dazu. Wer eine bessere Qualität möchte, muss dafür zahlen. Ein Testzugang für drei Tage kostet $ 1 und ist damit durchaus bezahlbar. Ich habe das deshalb ausprobiert und siehe da: Das Ergebnis der Trennung in Vocals und Instrumental mit dem 2 Stem X-Modell klingt einwandfrei.

Splitter Ai Stem Separation zwei Spuren

Separation von Vocals und Instrumental in Splitter Ai

Wer all das offline auf seinem Computer machen möchte, nutzt Splitter Studio. Wer eine leistungsfähige Grafikkarte in seinem Windows PC besitzt oder einen Rechner mit Apple Silicon, freut sich über die schnellere Berechnung auf der GPU. Außerdem kann wahlweise zwischen Online- und Offline-Berechnung gewählt werden.

Splitter Ai Stem Separation mit kostenpflichtigem Modell

Die Separation mit dem kostenpflichtigen Splitter Ai Modell im Vergleich

Splitter Ai GPU Acceleration

Mehr Geschwindigkeit mit GPU Acceleration, z.B. bei Apples M-Prozessoren

StemRoller

Stemroller Ai Stem Separation

Offline Stem Separation mit StemRoller

StemRoller ist ein Offline-Tool für Windows und MacOS. Eigene Songs lassen sich ins Tool importieren, es ist aber auch ein Zugriff auf das Internet möglich. Nach der Eingabe eines Song-Titels erscheinen in einem Auswahlfenster  die gefundenen Songs, die sich dann bearbeiten lassen. Urheberrechtlich ist das sehr bedenklich. StemRoller ist Open-Source und der Source-Code ist für jedermann verfügbar. Als KI-Modell setzt StemRoller auf Metas Demucs Modell. Die Ergebnisse klingen deshalb ähnlich wie die anderer Tools, die auf dieses Modell setzen. StemRoller ist kostenlos und für diejenigen interessant, die entweder keine Online-Tools einsetzen möchten oder als Programmierer selbst ähnliche Tools entwickeln möchten.

StemRoller Interface

Das Interface von StemRoller bietet auch Zugriff auf Songs aus dem Internet – ob das legal ist?

StemRoller ist leicht zu benutzen und nach der Bearbeitung mit dem KI-Modell stehen die fünf Dateien für Bass, Drums, Instrumental, Other und Vocals direkt als WAV-Dateien in einem Ordner auf dem Computer zur Verfügung, leider nur mit 16 Bit und 44,1 kHz. Wer möchte, kann auch im MP3-Format exportieren. Selbst eine Berechnung auf der GPU steht zur Verfügung.

Ultimate Vocal Remover 5

Ultimate Vocal Remover 5 Ui

Kostenlos und umfangreich: Ultimate Vocal Remover 5

Eine weitere Open-Source-Lösung ist Ultimate Vocal Remover 5. Die App steht für Windows, MacOS und Linux zum kostenlosen Download bereit. Ultimate Vocal Remover 5 ist das wohl flexibelste Tool im Verbund und gerade Spezialisten werden diese Software lieben. Es stehen nicht nur von Haus aus mehrere KI-Modelle zur Auswahl, sondern es können auch innerhalb der Software neue Modelle heruntergeladen und installiert werden. Für alle Modelle gibt es zahlreiche Konfigurationsmöglichkeiten, mit denen man sich aber auch auseinandersetzen muss, sollen gute Ergebnisse dabei herauskommen. Immerhin lässt sich das KI-Modell damit aber dem Anwendungszweck entsprechend konfigurieren, sodass es kaum Material geben sollte, das sich mit Ultimate Vocal Remover 5 nicht bearbeiten lässt.

Auch ein Ensemble-Modus, wie ihn MVSEP in der kostenpflichtigen Version bietet, ist enthalten. Der Nutzer wählt die KI-Modelle aus, die für das Ensemble genutzt werden sollen und erhält im Anschluss einerseits die Einzelspuren der jeweiligen Modelle und andererseits die Ensemble-Spur, die aus den Einzelergebnissen errechnet wurde. Die Stems werden je nach Auswahl in der App als WAV, MP3 oder FLAC geschrieben.

Die klanglichen Ergebnisse, die Ultimate Vocal Remover 5 erzielt, sprechen für sich. Gerade Remixer, die auf eine möglichst hohe Qualität der Stems angewiesen sind, sollten sich Ultimate Vocal Remover 5 genauer anschauen. Doch auch Playbacks lassen sich sehr gut mit dem Tool erstellen.

Ultimate Vocal Remover 5 gibt es hier:

DAWs und Audio-Editoren mit Stem Separation

Es gibt mittlerweile einige DAWs und Audio-Editoren, die ihrerseits Stem Separation anbieten. Stellvertretend seien hier genannt:

Logic Pro 11

Logic Pro 11 DAW Update Demo Stem-Extrahierung

Stem-Extrahierung in Logic Pro 11

Die neueste Version von Logic Pro bietet eine One Click Stem Separation in vier Spuren. Viel konfigurieren lässt sich hier nicht, dafür stehen die Spuren sofort innerhalb der DAW zur weiteren Bearbeitung zur Verfügung. Das ist extrem praktisch für Remixer, die somit nicht auf externe Software und einen Import angewiesen sind. Die Qualität der KI Stem Separation ist in Ordnung, bleibt aber hinter einigen Spezialisten zurück. Dennoch hat Apple das KI-Modell gut konfiguriert und für die meisten Anwendungsfälle ist die Qualität mehr als ausreichend. Den ausführlichen Test zu Logic Pro 11 findest du hier.

RipX DAW AI

RipX DAW Pro AI Stems

Nach einigen Minuten liegen die einzelnen Stems vor

RipX gehört zu den ältesten Spezialisten, wenn es um Stem Separation geht. Die Software, die sich neuerdings DAW nennt und den Zusatz AI trägt, ist eine Mischung aus KI Stem Separation und Funktionen ähnlich Melodyne. Wie in Melodyne lassen sich die einzelnen Segmente eines Stems separat vielfältig bearbeiten. Wirkliche DAW-Funktionen, wie man sie von DAWs wie Logic, Cubase, Studio One, ProTools und anderen kennt, finden sich aber nicht. Die ungewöhnliche Benutzeroberfläche macht die Bedienung nicht einfacher. Die Qualität der Stem Separation bleibt mittlerweile hinter anderen Tools deutlich zurück. Einen Test von RipX DAW AI findest du hier.

iZotope RX11

Der Audio-Editor iZotope RX11 bietet weitaus mehr als nur Stem Separation. Dennoch ist eine solche enthalten und bietet eine weitere Möglichkeit, Audiodaten klanglich deutlich aufzuwerten oder die Stems für das Remixing aufzubereiten. IZotope RX11 nur für die Stem Separation zu kaufen, wäre vermutlich Overkill und viel zu teuer. Die Stem Separation ist hier eher eine Zugabe zu den herausragenden weiteren Restaurations- und Bearbeitungs-Tools, die in RX11 enthalten sind. Einen Test zu iZotope RX11 findest du hier.

Bewertung

Die beiden besten Online-Tools sind Lalal.ai und MVSEP. Beide bieten eine hervorragende Qualität und auf Wunsch einen Bezahlmodus, mit dem sich weitere KI-Modelle abrufen lassen oder längere Audio-Files bearbeiten. Lalal.ai ist übrigens das einzige Tool, das es geschafft hat, den Synthesizer-Bass des Songs sauber zu extrahieren. Hut ab!

Bei der Offline-Bearbeitung hat Ultimate Vocal Remover 5 die Nase vor allen anderen Tools weit vorn. Nicht nur stehen alle nur erdenklichen und frei verfügbaren KI-Modelle direkt zur Verfügung oder können innerhalb der App heruntergeladen werden, sondern diese lassen sich sogar noch weiter konfigurieren. Die Ergebnisse sind hervorragend und Musiker, die sich eingehender mit der Konfiguration der einzelnen Modelle beschäftigen möchten, werden die Qualität sogar je nach Ausgangsmaterial noch weiter steigern können.

Bei den DAWs begeistert Logic Pro 11 mit seiner Stem Extraction und der direkten Weiterverarbeitung der Stems, ohne dafür die DAW verlassen zu müssen. Die einzelnen Stems klingen gut.

Die Klangbeispiele  wurden alle mit demselben Song erstellt, sodass man gut vergleichen kann. Wenn ein Tools mehrere Algorithmen zur Auswahl hatte, wurden diese größtenteils auch genutzt.

Schlusswort

In diesem Überblick wurden noch längst nicht alle Tools für die Stem Separation erfasst. Dennoch bietet der Querschnitt einen sehr guten Überblick über das, was heute schon möglich ist. Da viele KI-Modelle frei verfügbar sind, ähneln sich die Ergebnisse vieler Apps, egal ob Online-Tool oder Offline-Tool, sehr. Für welches Tool man sich am Ende entscheidet, hängt in erster Linie vom Verwendungszweck der Stems ab. Geht es zum Beispiel darum, fix ein Playback für das Üben eines Songs zu erstellen, reichen schon einfache kostenlose Tools aus. Sollen die Stems für eine Produktion wie einen Remix genutzt werden, ist man mit Spezialisten besser bedient. Doch auch hier überrascht ausgerechnet ein kostenloses Tool mit seinem großen Funktionsumfang und vor allem mit den Ergebnissen: Ultimate Vocal Remover 5. Nicht nur stehen hier die meisten KI-Modelle zur Auswahl, sondern diese lassen sich auch noch mit diversen Parametern konfigurieren. All das kostenlos, offline und für die drei Plattformen Windows, MacOS und Linux.

ANZEIGE
ANZEIGE
Klangbeispiele
Forum
  1. Profilbild
    Filterpad AHU

    Absolut! Gut recherchiert und erklärt. Ich wartete noch auf iZotope RX, bis es dann im Beitrag unten erschien. Ich brauche diese Funktion noch nicht, aber zeigt ganz deutlich was Musik in naher Zukunft wert sein wird: Nämlich nix! Aber sie wird trotzdem „irgendwie“ in Massen erstellt werden und die jüngeren Leute werden es feiern. Muss man nicht verstehen, aber ist eben so!

    • Profilbild
      Markus Galla RED

      @Filterpad Vielen Dank. iZotope RX ist je nach Material mal mehr und mal weniger gut geeignet. Ich würde es jetzt nicht für diese Funktion anschaffen, aber es ist ein „nice to have“.

      Es ist absolut crazy, was jetzt schon möglich ist und in Zukunft noch auf uns warten wird – im positiven wie im negativen Sinne. Sobald dieser Prozess in Echtzeit möglich ist (und das wird er sein), können damit eine Menge sehr guter Dinge gemacht werden. Man denke nur mal an medizinische Anwendungen (Hörgeräte z. B.). Vom StarTrek Communicator sind wir dann auch nicht mehr weit entfernt. Übersetzungsprozesse werden in Echtzeit stattfinden können (erste Experimente dazu gibt es bereits).

      Im Mastering-Prozess werden dann keine Stems mehr hin- und hergeschickt oder extra erstellt, wenn der Mastering-Ingenieur sie anfordert, sondern stattdessen wird statt einer Multiband-Kompression mit EQing dann der Mix in seine Bestandteile zerlegt und passend gemastert.

      Leider bedeutet das auch, dass es noch mehr Fakes im Internet geben wird, noch mehr nicht genehmigte Remixes und so weiter. Am Ende wird man diese Tools mit einem Content ID-System versehen müssen, um Urheberrechte zu schützen. Das ist dann leider die schlechte Seite von KI und Stems.

    • Profilbild
      MatthiasH

      @Filterpad Vielleicht meinst du nur, dass du es nicht brauchst 😁. Hier mal ein Anwendungsbeispiel aus der Livemusik:
      Unsere Band (funk jazz pop usw) besteht zu ca. 50% aus akustischen (vocals, Bläser, Drums) und 50% elektrischen Quellen (Gitarre, Bass, Piano). Wir sind ein Hobbyprojekt und spielen auf kleinen bis kleinsten Bühnen (Wohnzimmer usw.)
      Wenn ich Liveaufnahmen editiere, klingt es immer genau bis zu dem Moment gut, in dem ich die Vocals hochziehe. Da ist dann soviel Schlagzeug mit drin, dass es mit Noisegate und EQ nicht zu retten ist. Mit Stem Separation bekomme ich die Gesangsspur von jeglichem Crosstalk bereinigt und am Ende einen viel tighteren Mix. Vor einigen Tagen habe ich das Spiel sogar mit einem Streichquartett probiert, das platzbedingt direkt hinter unserem viel zu lauten Drummer saß. Ging auch! Nicht ganz frei von Artefakten, aber trotzdem viel, viel besser als der Sound der rohen Aufnahme.

      Klangbeispiel (disclaimer: ich bin Informatiker und kein Tonmeister ;-)):
      > instagram.com/p/DA1n4Egq-x-/ (https und www bitte selbst voranstellen)

      Vocals habe ich mit Audacity (Intel VINO Plugins) kostenlos separiert, und die Strings mit einem Bezahl-Online-Tool (ein Monat für $20 oder so)

      • Profilbild
        MatthiasH

        @MatthiasH Habe gerade eine Leserstory eingereicht, in der ich die Verwendung von Stem Separation Tools zur Aufbereitung von Live-Musikaufnahmen beschreibe (mit Beispielen). Wen es interessiert, der warte bitte ein paar Tage :-)

  2. Profilbild
    PiaTen

    Vielen Dank für den tollen Artikel. Hat mir das Thema super nahegebracht und erklärt.
    Vielen Dank auch für die umfangreichen Tests und die Einschätzungen dazu. Dass am Ende noch ein auf Linux verfügbares Tool so gut bewertet wird, freut mich noch einmal mehr. Steht schon auf der ToDo-Liste :-)

    • Profilbild
      Markus Galla RED

      @PiaTen Ich selbst habe noch nie mit Linux und Audio gearbeitet. In der Tat musste ich vor kurzem mein erstes Ubuntu für ein Tool aufsetzen. Aber mich freut es auch immer, wenn ich nicht nur Windows/MacOS in den Systemhinweisen lese.

  3. Profilbild
    StromTonWerk AHU

    Ein großes Kompliment für diese extrem aufwendige Arbeit – auch besonders die Beispiele! Das hat mir persönlich bei der aktuellen Entscheidungsfindung wirklich substanziell geholfen.
    Jeder hat ja in diesem Segment mit den Tools so seine persönlichen Präferenzen bzw. Erfahrungen. Meine Erkenntnis (Logic Pro, Ultimate Vocal Remover) dabei ist, dass die Wirkmächtigkeit dieser Tools extrem stark vom Eingangsmaterial (und dessen gezielter Manipulation vor dem eigentlichen Prozess selbst) abhängen können aber nicht müssen – obwohl ja oft offenbar die gleiche oder eine ähnliche KI/Algorithmen im Hintergrund „werkelt“.
    Für mich ist die Qualität und Präzision der Umsetzung allerdings aktuell manchmal nur sehr schwer planbar. Das betrachte ich aber nicht als Problem, sondern sehe das als sportliche Herausforderung. Oft ist das erste Arbeitsresultat dabei verblüffend genial. Andere Sachen wollen sich von den Algorithmen einfach nicht so knacken lassen, wie mir das vorschwebt. Damit kann ich ganz gut leben.

    • Profilbild
      MartinM.

      @StromTonWerk Danke für Deinen Kommentar! Etwas Ähnliches hatte ich schon hier eingetippt, was mir aber von einem plötzlichen Serverproblem wieder gelöscht wurde.
      Erwähnen würde ich noch, dass die Stems generell nicht zu einem Remix taugen sondern nur zur Isolation einzelner Parts oder Samples. Schon die Bearbeitung mit einem EQ verstärkt die Unsauberkeiten und erzeugt Artefakte.
      Recht neu bietet AKAI sein bisheriges „MPC Stems“ auch solo und standalone für zehn Dollar an. Auch zPlane bietet sein Tool „Peel“ inzwischen mit Stem Separation an. Wer soll das alles ausprobieren? Und wozu?

      • Profilbild
        Markus Galla RED

        @MartinM. Das hängt immer vom Tool ab. Manche Tools extrahieren Gesang sehr, sehr sauber. Den kann man dann auch bearbeiten. Andere bekommen das mit den Drums sehr gut hin. Wenn ich Remixer wäre, würde ich maximal die Gesangs-Stems nutzen. Der Rest wird ohnehin meistens nicht genutzt. Für einzelne Samples kann man die Stems nur dann nutzen, wenn das Sample später noch verfremdet oder sehr weit in den Hintergrund gemischt wird. Aber auch da liefern die Tools sehr unterschiedliche Ergebnisse. Wenn man mal sehr aufgeräumte Songs aus den 70ern oder frühen 80ern ausprobiert mit so typischen Rock-Besetzung (Schlagzeug, Bass, Gitarre, Drums), dann kommt man oft zu erstaunlichen Ergebnissen. Bei Songs von The Police wie „Every breath you take“ lassen sich mit etwas Ausprobieren die Spuren sauber voneinander trennen. Das ist halt alles vom Originalmix her sehr aufgeräumt. Bei Wall of Sound Mixes wird man hingegen weniger Glück haben. Aber auch da ist KI unserem Gehör nicht unähnlich. Bei sehr dichten Mixes haben wir auch kaum eine Chance, die Signale beim Hören sauber voneinander getrennt wahrzunehmen. Sobald viele Frequenzen von anderen maskiert werden, ist unser Gehör stark limitiert. Wir interpretieren dann die entstandenen Lücken eher aus dem Zusammenhang heraus. Das fällt dem Computer noch schwer.

      • Profilbild
        Langsuan

        @MartinM. Ich habe es ausprobiert: MPC Desktop ist OK, die Qualität von Standalone in der MPC (Live 2) ist unterirdisch.

        Sind zwei unterscheidliche Algorithmen.

        • Profilbild
          Markus Galla RED

          @Langsuan Echt? Wahnsinn. So vergrault man sich auch die Kunden. Da führen die mittlerweile mehrere Produkte nebeneinander, die sich irgendwie gefühlt 90 Prozent der Features teilen und teils mit einet einzigen Bedienungsanleitung abgehandelt werden, und das ist unterschiedlich? Vielleicht kommt da noch in naher Zukunft ein Update.

          • Profilbild
            Langsuan

            @Markus Galla Das liegt wohl an den begrenzten CPU (und RAM) Kapazitäten in den aktuellen MPCs (sind ja schon älter).

            Mir wäre der Desktop Algorithmus lieber gewesen, dann dauert es halt einfach länger. Oft würden 8 oder 16 Bars schon reichen, da ist der Clip kürzer als im Beispiel von diesem Artikel.

            Den ich auch sehr gut und ausführlich finde! Danke!! Vor allem für die Audiobeispiele, super gemacht!! 🤩

    • Profilbild
      Markus Galla RED

      @StromTonWerk Das stimmt! Alle Tools reagieren unterschiedlich auf das Ausgangsmaterial und liefern sehr verschiedene Ergebnisse. Ich habe absichtlich sehr schwer zu analysierendes Material genommen, wo alles extrem miteinander verwoben ist. Sehr schön hört man das bei dem Synth Bass. Bei einigen Tools klingt es wie unter Wasser, während andere den einigermaßen klar getrennt bekommen. Für Gesang gibt es auch wieder spezielle Tools. Ultimate Vocal Remover ist da mein Favorit, weil das im Prinzip nur ein Frontend für alle möglichen KIs ist und man jederzeit neue herunterladen und nutzen kann.

  4. Profilbild
    Jens Hecht RED

    Mir hat gestern ein Freund gezeigt wie er das mit Virtual DJ macht, war ganz schön erstaunt. Das funktionert besser und vor allem wesentlich schneller als mit RX. Mit den hier aufgelisteten Tools habe ich es noch nicht probiert aber der Ultimate Vocal Remover klingt interessant.

    • Profilbild
      Markus Galla RED

      @Jens Hecht Ja, viele DJ Tools unterstützen das auch. Ebenfalls ein interessantes Anwendungsgebiet, vor allem dann, wenn das in absehbarer Zeit in Echtzeit funktioniert.

  5. Profilbild
    Round Robin AHU

    Vielen Dank für den sehr informativen Bericht und besonders, dass Du für den Bericht sehr viel Arbeit investiert hast. Einfach Top!!!

    Aktuell bin ich der Meinung, dass SERATO Sample die besten Ergebnisse abliefert. Dazu der Cue-Point Workflow mit dem Masterkeyboard ist der Hammer. Man kann auch einen einzelnen Sound von einer separierten Spur chromatisch spielen. Unbedingt mal anschauen.

    https://www.thomann.de/de/serato_sample.htm

    Ansonsten nutze ich diese Funktion in meinem Logic Pro X. Für Remixe eine geniale kostenlose Möglichkeit (wenn man Logic nutzt).

  6. Profilbild
    CDRowell AHU

    Hups! Bin ich falsch gelagert, wenn ich behqaupte, mit Steinbergs Spectralyer 11 kann man gut Stems extrahieren?😅

    Für mein Verständnis wirken die Resultate bei vielen Songs recht ansprechend und clean. Klar, da geht noch einiges, wenn man es mit dme Original vergleicht, jedoch kann doch auch ohne große Bearbeitung der Mix in einzelne STEMS separiert erden…

    Danke für die umfangreiche Info zu den Online-Tools. Macht einiges her, was da auch an DAWs gelistet ist. 😀👍

    • Profilbild
      3chordwonder

      @CDRowell genau.
      Entscheidend ist aber, dass das Ausgangsmaterial keine lumpige mp3 ist. Ich denke, das ist aber bei jeder Anwendung so.
      Ich arbeite auch mit Spectral Layers und bin sehr oft begeistert von den Ergebnissen.

  7. Profilbild
    LeSarrois

    Auch von mir vielen Dank für die gute Übersicht und die geleistete Arbeit. Allerdings würde ich mir ergänzend wünschen, wie sich die MPC Stems im Vergleich schlagen. Als MPC Key 61 User konnte ich mir zuletzt die Stand-Alone importieren und werde mich in der nächsten Zeit mal damit beschäftigen.
    Vielleicht gibt’s ja die Möglichkeit, das noch nachzureichen.

    • Profilbild
      Markus Galla RED

      @LeSarrois Hi,
      hier ging es hauptsächlich um Software. Bei Hardware sind Vergleiche immer schwierig, da dem Autor dann jedes Gerät zur gleichen Zeit zur Verfügung stehen muss. Du könntest dir aber das Stereofile oben herunterladen und es mit deiner Hardware ausprobieren. Gerne kannst du auch einen Leserbeitrag dazu schreiben und dann dort über deine Ergebnisse berichten und den Artikel hier zum Vergleich verlinken. Das gilt auch für diejenigen, die DJ Tools mit Stem-Funktion besitzen. Wir haben das Glück einer lebendigen Community und der Leserbeiträge, die gerne gelesen werden.

  8. Profilbild
    ollo AHU

    Audacity macht das mittlerweile offline wohl auch ziemlich gut, habe ich aber selber bisher noch nicht ausprobiert, weil ich SimpleStems und die Cubase-Version von SpectraLayers habe.

  9. Profilbild
    BaerringerMiniMuhg

    „Ein Stem ist eine Aufnahme eines Instruments oder einer Instrumentengruppe. „Da stimmt nur Zweiteres! Die Aufnahme eines Instruments wird im Export Spur oder Track genannt, nicht Stem. Stem Mastering bezieht sich zum Beispiel immer auf Instrumentengruppen. Lasst uns das begrifflich doch versuchen, sauber zu halten.

    • Profilbild
      Markus Galla RED

      @BaerringerMiniMuhg Hi,
      es kann auch nur ein einzelnes Instrument sein, z. B. ein Gitarren-Stem, bei dem alle Takes, Bearbeitungen und Effekte mit in die Spur gerendert wurden. Auch Dopplungen etc. wären dann in dieser Spur zu finden. Trotzdem ist es dann ein Gitarren-Stem oder ein Vocal-Stem. Ein Stem ist aber KEINE rohe Spur eines Instruments wie bei einem Multitrack. Ein Gitarren-Stem kann also eine bis mehrere Aufnahmen des Instruments Gitarre enthalten inklusive aller Bearbeitungen. Ein Drums-Stem enthält eine Instrumentengruppe (BD, Sn, HH, Toms, Becken) inklusive aller Bearbeitungen usw.

      Die Benennung kann bei verschiedenen DAWs durchaus unterschiedlich sein.

  10. Profilbild
    Notebynote

    Ich kann einfach nicht verstehen, wieso man sich mit solchen Qualitäten zufrieden geben möchte. Selbst die hier angepriesenen Separationen von MVSEP sind grottig. Shit in – Shit out, oder hat sich das in den letzten Jahren geändert? Da haut also ein Remixer eine sehr zweifelhafte Spur in seinen Mix und meint, dass das toll ist? Bekloppte Welt. Wir geben 1000de Euros für Tools aus, damit die Songs gut klingen und dann werden die in einem Rutsch von einer künstlichen „Intelligenz“ so derart zerstört, dass das Ergebnis im allerbesten Falle Lo-Fi ist.

  11. Profilbild
    babaracus0815

    Guten :) Danke für den Bericht. Leider konnte der nur die Hälfte meiner Fragezeichen auflösen… Gerade im Bezug auf die letzten DJ Software Versionen bin ich etwas ratlos… also die Einordnung von Traktor 4 und rekordbox in Bezug auf „Stem sep“. Mit geht es mehr um die Quali des Outputs als Echtzeit inhouse Hokuspokus. Daher die Frage: Kommen die DJ-Dinger an die Online-KI‘s ran?

    Irgendwie verbat ich mehr Zeit. Mit Software Tests anstatt einfach das vengaboys vocal auf herkömmlichen Weg „auszuleihen“ ;)

    Grüße :)

  12. Mehr anzeigen
Kommentar erstellen

Die AMAZONA.de-Kommentarfunktion ist Ihr Forum, um sich persönlich zu den Inhalten der Artikel auszutauschen. Sich daraus ergebende Diskussionen sollten höflich und sachlich geführt werden. Es besteht kein Anspruch auf Veröffentlichung. Wir behalten uns die Löschung von Inhalten vor. Dies gilt insbesondere für Inhalte, die nach unserer Einschätzung gesetzliche Vorschriften oder Rechte Dritter verletzen oder Diffamierungen, Diskriminierungen, Beleidigungen, Hass, Bedrohungen, politische Inhalte oder Werbung enthalten.

Haben Sie eigene Erfahrungen mit einem Produkt gemacht, stellen Sie diese bitte über die Funktion Leser-Story erstellen ein. Für persönliche Nachrichten verwenden Sie bitte die Nachrichtenfunktion im Profil.

ANZEIGE
ANZEIGE
ANZEIGE
ANZEIGE
X
ANZEIGE X