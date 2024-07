Stem Separation Tools im Check

Stem Separation per künstlicher Intelligenz ist aktuell in aller Munde. Was vor wenigen Jahren noch undenkbar schien, erledigt jetzt eine kleine Web-Applikation, eine Smartphone-App oder die DAW ganz nebenbei. Doch wie funktioniert Stem Separation und welche Tools und welche Software eignet sich dafür? Dieser Artikel gibt dir einen Überblick.

ANZEIGE

Was ist ein Stem?

Ein Stem ist eine Aufnahme eines Instruments oder einer Instrumentengruppe. So ist zum Beispiel ein Schlagzeug-Stem eine Aufnahme aus vielen verschiedenen Mikrofonaufnahmen der einzelnen Schlaginstrumente. Ein Stem ist in der Regel bereits mit EQ, Kompressoren und Effekten versehen. Sehr umfangreiche Projekte mit vielen Spuren werden meistens als Stems exportiert, um zwar Zugriff auf die Mischungsverhältnisse der Instrumentengruppen zueinander zu haben, aber eben nicht mehr Zugriff auf jede Einzelaufnahme eines Instruments. Manchmal besteht auch eine Gesangsspur aus sehr vielen kleinen Schnipseln, die aus vielen Takes zur endgültigen Version zusammengeschnitten wurden. Für die weitere Verarbeitung dieser endgültigen Gesangsfassung wird dann ein Stem erstellt.

Aus mehreren Stems entsteht der finale Mix. Manchmal werden Stems auch für das Mastering angeliefert, wenn der Mastering-Tonmeister diese anfordert. Auf diese Weise kann ein besseres Balancing stattfinden als bei einer Bearbeitung des fertigen Stereomixes.

Auch für Remixer sind Stems sehr wichtig. Für Remixes benötigt der Remixer die wichtigsten Bestandteile eines Songs separiert voneinander. Manchmal nutzen Remixer nur den Gesang, manchmal bestimmte Instrumental-Parts. Wird ein Remix-Auftrag von einem Label erteilt, liefert das Label in der Regel die gewünschten Stems an. Wird ein Remixer eigenständig tätig, remixt einen Song und holt später die Rechte ein, liegt ihm meistens nur das Stereo-Master vor, was die Bearbeitung erschwert.

Stem Separation: Aufgaben und Ziele

Hier kommt nun die Stem Separation ins Spiel. Lagen für einen Remix oder ein Re-Mastering keine Stems vor, wurden verschiedene Bestandteile so gut es eben geht, mit Filtern separiert. Da sich bei einem Mix allerdings viele Instrumente überlagern, funktioniert das nur wenig zufriedenstellend. So haben Remixer zum Beispiel durch das Setzen eines Low-Cut-Filters die tiefen Frequenzanteile einer Aufnahme ausgefiltert, die hauptsächlich vom Bass und dem Schlagzeug belegt werden, um dann einen eigenen Groove unter die Aufnahme zu legen. Das Filtern von Gesangsstimmen war schon immer wesentlich aufwändiger, da die Stimme zwar fast immer im Vordergrund steht, aber der gleiche Frequenzbereich auch von Keyboards und Gitarren sowie Becken genutzt wird. Mit aufwändigen Arbeiten im Spektraleditor mit einem Spektrogramm der Audiodatei hat man versucht, diese einzelnen Frequenzbestandteile zu identifizieren und zu isolieren. Je nach Dichte des Arrangements gelingt das mal besser, mal schlechter. Auch Filterungen des Stereosignals und das Aufsplitten in ein monofones Mittensignal und ein stereofones Seitensignal (MS) gehörten zu den genutzten Tools.

Gerade diese aufwändigen und nervenaufreibenden Bearbeitungen haben den Wunsch aufkommen lassen, diese irgendwie zu automatisieren. Und genau hier kommt künstliche Intelligenz ins Spiel.

Stem Separation per KI

Der Mensch ist in der Lage, sich auf bestimmte Signalanteile eines komplexen Audiosignals zu konzentrieren und dieses zu separieren. Ein typisches Beispiel ist das Verfolgen eines Gesprächs inmitten einer lauten Umgebung. Ein anderes Beispiel ist das Heraushören von Instrumental-Parts, wie es Musiker tagtäglich machen. Das Fokussieren auf einen gewissen Part eines komplexen Mixes lässt diesen aus dem Mix förmlich heraustreten. Dieses Fokussieren und Separieren ist einem Lernprozess unterworfen. So lernt ein Baby schon vor seiner Geburt Geräusche und Stimmen kennen und zu unterscheiden. Im Laufe des Lebens kommen immer weitere Geräusche und Stimmen dazu. Musiker lernen im Rahmen der Gehörbildung, Melodien und Akkordwechsel zu verfolgen und zu notieren. Tontechniker lernen das Heraushören und Bestimmen von Frequenzen oder Frequenzbereichen, um später einen Mix besser beurteilen zu können.

Die Idee ist nun, einen Computer so zu trainieren, dass er diese Aufgabe ebenso wahrnehmen kann und auf Basis des Trainings das „Gehörte“ automatisch in Stems zerlegt. Das spätere Separieren des Audiosignals in Stems kann dann später sogar in Echtzeit stattfinden. Auffällig ist, dass fast alle Tools ähnlich funktionieren: Eine Audiodatei wird geladen und dann in die Bestandteile Gesang und Instrumente (Vocals, Instrumantal) oder alternativ in die vier Stems Gesang, Bass, Drums und andere Instrumente unterteilt (Vocals, Bass, Drums, Other). Das ist auch nicht weiter verwunderlich, denn die meisten Tools basieren auf zwei weit entwickelten Open-Source KI-Modellen für die Stem Separation: Das von Deezer entwickelte Spleeter und Demucs von Meta. Die Software-Entwickler veröffentlichen leider nicht immer, welches dieser Modelle von der eigenen Software verwendet wird. Trotz der Verwendung des gleichen Modells klingen Tools teilweise unterschiedlich, was mit der endgültigen Implementierung und verschiedenen Stellschrauben zu tun hat, an denen die Entwickler noch drehen können.Manche Tools nutzen auch eigene Modelle.

Die meisten Tools arbeiten mit Maskierung. Dabei werden alle Bestandteile, die nicht für den Stem benötigt werden, maskiert, also unhörbar gemacht. Übrig bleibt dann hoffentlich der Teil, den der Nutzer für die weitere Arbeit benötigt. Manche Tools arbeiten jedoch auch mit einer Art Synthese, bei der das Nutzsignal analysiert und anschließend durch Synthese für den Separationsprozess neu zusammengesetzt wird.

ANZEIGE

Online, offline, Plug-in oder DAW

Es gibt mittlerweile zahlreiche Tools, die Stem Separation (auch Stem Extraction genannt) anbieten. Manche arbeiten online, manche offline. Es gibt sie als Web-Applikation, als App für das Smartphone, als Software, als Plug-in für die DAW oder sogar fest integriert in den Funktionsumfang einer DAW oder eine DJ Software. Ich möchte euch hier stellvertretend einige dieser Tools vorstellen und in einigen Fällen auch einen Klangvergleich anstellen. So könnt ihr euch gut ein Bild davon machen, ob das entsprechende Tool euren Vorstellungen genügt.

Online – von kostenlos bis kostenpflichtig

Die meisten Anbieter von Online-Tools bieten einen kostenlosen und einen kostenpflichtigen Premium-Zugang. Letzterer unterscheidet sich meistens in der Geschwindigkeit der Berechnung sowie in der maximal möglichen Dateigröße des Quellmaterials.

Lalal.ai

Lalal.ai ist ein Online-Tool, das eine Vielzahl verschiedener KI-Prozesse für Audiodateien bietet. Einer davon ist Stem Separation. Lalal.ai arbeitet für Stimmen mittlerweile mit der vierten KI-Modellgeneration Orion. Für Instrumente wird derzeit noch die dritte Generation Phoenix verwendet. Phoenix bietet bis zu 10 Stems an:

Orion ist derzeit noch auf das Trennen in einen Vocal Stem und einen Instrumental Stem beschränkt, bietet dafür aber eine herausragende Qualität durch eine Form der Re-Synthese der Stimme. Das besonders auf Stimmen trainierte Orion-Modell analysiert das Quellmaterial und statt nun durch Maskierung das Signal auf die Stimme einzuschränken, erstellt die KI im Prinzip eine neue Version, die dafür frei von den sonst üblichen Bleeds durch andere Signalbestandteile, Phasing oder Artefakten ist. In der Tat ist die Stimmqualität von Lalal.ai herausragend und setzt sich deutlich von vielen anderen Modellen ab.

Lalal.ai bietet einen kostenlosen Testzugang, mit dem man sich erst einmal von der Qualität überzeugen kann. Im Anschluss kauft der Nutzer Volumenpakete, die eine bestimmte Anzahl an Audiominuten freischalten. Sind diese Minuten aufgebraucht, muss zunächst ein neues Paket erworben werden. Ausprobieren kannst du Lalal.ai hier:

Fadr

Fadr ist ein weiteres Online-Tool zur Stem Separation, steht aber auch als Plug-in für die DAW zur Verfügung. Fadr unterteilt das Signal zunächst einmal in die oben genannten vier Tracks für Vocals, Bass, Drums und Other. Über das Dropdown-Menü „More Stems“ erreichen wir noch zwei Funktionen, um die Drums in Kick, Snare und Other Drums zu unterteilen beziehungsweise die Instrumentalspur in die Instrumente E-Gitarren, Akustikgitarre, Piano, Strings, Holzblasinstrumente und andere. Allerdings stehen diese Möglichkeiten nur zahlenden Nutzern zur Verfügung. Fadr zeigt nach der Analyse außerdem die Akkorde des Songs an.

Eine Besonderheit von Fadr ist der Export von MIDI-Files, die aus den erkannten Spuren generiert werden. Der Nutzer bekommt eine Textdatei mit den Akkorden plus die einzelnen MIDI-Spuren. Leider haben die erkannten MIDI-Noten und auch der Rhythmus recht wenig mit dem zu tun, was im Original zu hören ist.

Die Audioqualität von Fadr geht in Ordnung, kann aber in vielerlei Hinsicht mit der von Lalal.ai und anderen Tools nicht mithalten. Gut arbeiten kann man aber mit dem Instrumental und auch mit der extrahierten Vocal-Spur.

Mit Fadr+ bekommt der Anwender noch einige zusätzliche Features wie die erwähnten weiteren Stems, WAV Download mit 32 Bit, unbegrenzten Cloud-Speicherplatz und mehr. Die Kosten liegen bei $ 10 im Monat bzw. $ 100 im Jahr.

Fadr kannst du hier ausprobieren:

Vocal Remover

Vocal Remover ist ein weiterer Online Stem Separation-Dienst, der kostenlos verfügbar ist. Es stehen verschiedene Tools zur Verfügung, die in einer vertikalen Menüleiste am linken Bildschirmrand verfügbar sind. Remover entfernt die Vocals aus unserem Test-Song. Nach dem Upload des Songs erscheint ein Wartebildschirm:

Diesen sieht man selbst bei unserem Test-Song eine geraume Zeit. Das Tool benötigt erheblich länger als die beiden zuvor getesteten Tools Fadr und Lalal.ai. Nach der Berechnung werden zwei Spuren für die Musik und die Vocals angezeigt. Die Tonart und das Tempo werden automatisch erkannt. Für den Download des Ergebnisses stehen die beiden Formate MP3 und WAV zur Auswahl.

Splitter stellt nach der Trennung des Songs vier Spuren für Music, Vocals, Drums und Bass zur Verfügung. Beim Durchhören der vier Spuren fällt auf, dass Vocal Remover ganz offensichtlich bei der Stem Separation mit dem Maskierungsverfahren arbeitet. Sehr deutlich wird das, wenn man sich die Music-Spur und dann die Bass-Spur getrennt voneinander anhört: Alle hohen Frequenzanteile des Synthesizer-Basses sind noch in der Music-Spur enthalten, während die tiefen Frequenzanteile auf der Bass-Spur zu hören sind. Ganz leise enthält auch die Drums-Spur einige sehr hohe Frequenzen vom Synthesizer-Bass. Das ist nicht verwunderlich, denn die Becken und Percussion-Anteile liegen im gleichen Frequenzbereich.

Die Qualität der Trennung ist in Ordnung, wenn auch nicht ganz frei von Artefakten und dem erwähnten Übersprechen durch die Maskierungsmethode. Interessant für die Nutzer von Native Instrumentes Traktor: Auch das Stems-Format wird als Download-Format angeboten, das die vier Spuren in einer Datei für die Verwendung mit Traktor zur Verfügung stellt.

MVSEP

Das Online-Tool MVSEP besitzt deutlich mehr Optionen für die Konfiguration als die anderen Tools. Sogar das KI-Modell, mit dem die Stereodatei bearbeitet wird, kann hier ausgewählt werden. Der Dienst kann kostenlos genutzt werden, hat dann aber einen gewaltigen Nachteil: die Warteschlange. Hier ist viel Geduld angesagt, insbesondere dann, wenn man die einzelnen Modelle miteinander vergleichen möchte. Immerhin werden in einem kleinen Fenster Informationen zu den einzelnen Modellen und zu ihrer Verwendung angezeigt. Leider lassen sich nicht mehrere Aufträge parallel starten. Ein Umgehen der Warteschlange kostet Geld. Immerhin können Nutzer durch eine kostenlose Anmeldung zumindest eine mittlere Priorität in der Warteschlange erreichen.

Die Trennung der Audiodatei hängt vom gewählten KI-Modell ab. Manche Modelle führen die Standardtrennung in Vocals, Bass, Drums und Other durch, andere trennen nur Musik und Vocals und wieder andere bieten noch mehr Stems an. Ist man registriert, stehen die Formate MP3 (320 kbps), WAV und FLAC (lossless) zur Auswahl. Ohne Registrierung lädt man das Ergebnis im MP3 Format (320 kbps) herunter.

Der kostenpflichtige Dienst funktioniert über Credits, die in Abhängigkeit der Dateigröße verbraucht werden. Zahlt man nicht, ist die Länge der Audiodatei auf 10 Minuten und die Dateigröße auf 100 MB beschränkt. Die Berechnung, wie viele Credits pro Auftrag verbraucht werden, ist kompliziert und hängt vom Modell und der Länge der Aufnahme ab. Nachlesen kann man das hier:

Ohne Credits dauert die Bearbeitung aufgrund der Warteschlange ewig. In meinem Fall waren 107 Aufträge vor mir dran und die Abarbeitung dauerte mehrere Stunden. In einem weiteren Versuch waren es dann nur noch 9 Aufträge vor mir und die Bearbeitung war nach fünf Minuten abgeschlossen. Außerdem kostet die Bearbeitung unter Umständen viel Geld. Es gibt allerdings extrem viele Hörbeispiele unter dem Menüpunkt „Demo“. Die Ensemble-Algorithmen sind sehr beeindruckend. Hier mal ein Beispiel für sehr „schwieriges“ Ausgangsmaterial, das mit dem Ensemble All-In Modell bearbeitet wurde:

Insbesondere die Spuren „Vocalslead“ und „Drums“ beeindrucken mit ihrer sehr hohen Qualität. Auch die anderen Spuren klingen sehr klar, haben teilweise zwar etwas Übersprechen, sind jedoch frei von Artefakten. Der Track wurde außerdem mit weiteren KI-Modellen bearbeitet. Sehr beeindruckend ist das Modell BS-Roformer für die Trennung in Vocals und Music. Beide Spuren klingen einwandfrei. Die Originaldatei befindet sich übrigens am Ende der Seite.

Es gibt auch einige Offline-Tools zur Stem Separation. Diese funktionieren ohne Download und berechnen die Stems auf dem lokalen Computer. Manche Tools verfügen über einen Online- und Offline-Modus, sodass der Benutzer wählen kann, wo die Berechnung stattfinden soll.

Splitter Ai

Splitter Ai ist sowohl als Offline App für MacOS und Windows verfügbar als auch als Online-Tool. Die kostenlose Version von Splitter Ai nutzt ein Standard KI-Modell mit fünf Stems (Bass, Drums, Other, Piano, Vocals) mit weniger brauchbaren Ergebnissen. Viele Artefakte und Bleeding gehören hier leider fest dazu. Wer eine bessere Qualität möchte, muss dafür zahlen. Ein Testzugang für drei Tage kostet $ 1 und ist damit durchaus bezahlbar. Ich habe das deshalb ausprobiert und siehe da: Das Ergebnis der Trennung in Vocals und Instrumental mit dem 2 Stem X-Modell klingt einwandfrei.

Wer all das offline auf seinem Computer machen möchte, nutzt Splitter Studio. Wer eine leistungsfähige Grafikkarte in seinem Windows PC besitzt oder einen Rechner mit Apple Silicon, freut sich über die schnellere Berechnung auf der GPU. Außerdem kann wahlweise zwischen Online- und Offline-Berechnung gewählt werden.

StemRoller

StemRoller ist ein Offline-Tool für Windows und MacOS. Eigene Songs lassen sich ins Tool importieren, es ist aber auch ein Zugriff auf das Internet möglich. Nach der Eingabe eines Song-Titels erscheinen in einem Auswahlfenster die gefundenen Songs, die sich dann bearbeiten lassen. Urheberrechtlich ist das sehr bedenklich. StemRoller ist Open-Source und der Source-Code ist für jedermann verfügbar. Als KI-Modell setzt StemRoller auf Metas Demucs Modell. Die Ergebnisse klingen deshalb ähnlich wie die anderer Tools, die auf dieses Modell setzen. StemRoller ist kostenlos und für diejenigen interessant, die entweder keine Online-Tools einsetzen möchten oder als Programmierer selbst ähnliche Tools entwickeln möchten.

StemRoller ist leicht zu benutzen und nach der Bearbeitung mit dem KI-Modell stehen die fünf Dateien für Bass, Drums, Instrumental, Other und Vocals direkt als WAV-Dateien in einem Ordner auf dem Computer zur Verfügung, leider nur mit 16 Bit und 44,1 kHz. Wer möchte, kann auch im MP3-Format exportieren. Selbst eine Berechnung auf der GPU steht zur Verfügung.

Ultimate Vocal Remover 5

Eine weitere Open-Source-Lösung ist Ultimate Vocal Remover 5. Die App steht für Windows, MacOS und Linux zum kostenlosen Download bereit. Ultimate Vocal Remover 5 ist das wohl flexibelste Tool im Verbund und gerade Spezialisten werden diese Software lieben. Es stehen nicht nur von Haus aus mehrere KI-Modelle zur Auswahl, sondern es können auch innerhalb der Software neue Modelle heruntergeladen und installiert werden. Für alle Modelle gibt es zahlreiche Konfigurationsmöglichkeiten, mit denen man sich aber auch auseinandersetzen muss, sollen gute Ergebnisse dabei herauskommen. Immerhin lässt sich das KI-Modell damit aber dem Anwendungszweck entsprechend konfigurieren, sodass es kaum Material geben sollte, das sich mit Ultimate Vocal Remover 5 nicht bearbeiten lässt.

Auch ein Ensemble-Modus, wie ihn MVSEP in der kostenpflichtigen Version bietet, ist enthalten. Der Nutzer wählt die KI-Modelle aus, die für das Ensemble genutzt werden sollen und erhält im Anschluss einerseits die Einzelspuren der jeweiligen Modelle und andererseits die Ensemble-Spur, die aus den Einzelergebnissen errechnet wurde. Die Stems werden je nach Auswahl in der App als WAV, MP3 oder FLAC geschrieben.

Die klanglichen Ergebnisse, die Ultimate Vocal Remover 5 erzielt, sprechen für sich. Gerade Remixer, die auf eine möglichst hohe Qualität der Stems angewiesen sind, sollten sich Ultimate Vocal Remover 5 genauer anschauen. Doch auch Playbacks lassen sich sehr gut mit dem Tool erstellen.

Ultimate Vocal Remover 5 gibt es hier:

DAWs und Audio-Editoren mit Stem Separation

Es gibt mittlerweile einige DAWs und Audio-Editoren, die ihrerseits Stem Separation anbieten. Stellvertretend seien hier genannt:

Logic Pro 11

Die neueste Version von Logic Pro bietet eine One Click Stem Separation in vier Spuren. Viel konfigurieren lässt sich hier nicht, dafür stehen die Spuren sofort innerhalb der DAW zur weiteren Bearbeitung zur Verfügung. Das ist extrem praktisch für Remixer, die somit nicht auf externe Software und einen Import angewiesen sind. Die Qualität der KI Stem Separation ist in Ordnung, bleibt aber hinter einigen Spezialisten zurück. Dennoch hat Apple das KI-Modell gut konfiguriert und für die meisten Anwendungsfälle ist die Qualität mehr als ausreichend. Den ausführlichen Test zu Logic Pro 11 findest du hier.

RipX DAW AI

RipX gehört zu den ältesten Spezialisten, wenn es um Stem Separation geht. Die Software, die sich neuerdings DAW nennt und den Zusatz AI trägt, ist eine Mischung aus KI Stem Separation und Funktionen ähnlich Melodyne. Wie in Melodyne lassen sich die einzelnen Segmente eines Stems separat vielfältig bearbeiten. Wirkliche DAW-Funktionen, wie man sie von DAWs wie Logic, Cubase, Studio One, ProTools und anderen kennt, finden sich aber nicht. Die ungewöhnliche Benutzeroberfläche macht die Bedienung nicht einfacher. Die Qualität der Stem Separation bleibt mittlerweile hinter anderen Tools deutlich zurück. Einen Test von RipX DAW AI findest du hier.

iZotope RX11

Der Audio-Editor iZotope RX11 bietet weitaus mehr als nur Stem Separation. Dennoch ist eine solche enthalten und bietet eine weitere Möglichkeit, Audiodaten klanglich deutlich aufzuwerten oder die Stems für das Remixing aufzubereiten. IZotope RX11 nur für die Stem Separation zu kaufen, wäre vermutlich Overkill und viel zu teuer. Die Stem Separation ist hier eher eine Zugabe zu den herausragenden weiteren Restaurations- und Bearbeitungs-Tools, die in RX11 enthalten sind. Einen Test zu iZotope RX11 findest du hier.

Bewertung

Die beiden besten Online-Tools sind Lalal.ai und MVSEP. Beide bieten eine hervorragende Qualität und auf Wunsch einen Bezahlmodus, mit dem sich weitere KI-Modelle abrufen lassen oder längere Audio-Files bearbeiten. Lalal.ai ist übrigens das einzige Tool, das es geschafft hat, den Synthesizer-Bass des Songs sauber zu extrahieren. Hut ab!

Bei der Offline-Bearbeitung hat Ultimate Vocal Remover 5 die Nase vor allen anderen Tools weit vorn. Nicht nur stehen alle nur erdenklichen und frei verfügbaren KI-Modelle direkt zur Verfügung oder können innerhalb der App heruntergeladen werden, sondern diese lassen sich sogar noch weiter konfigurieren. Die Ergebnisse sind hervorragend und Musiker, die sich eingehender mit der Konfiguration der einzelnen Modelle beschäftigen möchten, werden die Qualität sogar je nach Ausgangsmaterial noch weiter steigern können.

Bei den DAWs begeistert Logic Pro 11 mit seiner Stem Extraction und der direkten Weiterverarbeitung der Stems, ohne dafür die DAW verlassen zu müssen. Die einzelnen Stems klingen gut.

Die Klangbeispiele wurden alle mit demselben Song erstellt, sodass man gut vergleichen kann. Wenn ein Tools mehrere Algorithmen zur Auswahl hatte, wurden diese größtenteils auch genutzt.

Schlusswort

In diesem Überblick wurden noch längst nicht alle Tools für die Stem Separation erfasst. Dennoch bietet der Querschnitt einen sehr guten Überblick über das, was heute schon möglich ist. Da viele KI-Modelle frei verfügbar sind, ähneln sich die Ergebnisse vieler Apps, egal ob Online-Tool oder Offline-Tool, sehr. Für welches Tool man sich am Ende entscheidet, hängt in erster Linie vom Verwendungszweck der Stems ab. Geht es zum Beispiel darum, fix ein Playback für das Üben eines Songs zu erstellen, reichen schon einfache kostenlose Tools aus. Sollen die Stems für eine Produktion wie einen Remix genutzt werden, ist man mit Spezialisten besser bedient. Doch auch hier überrascht ausgerechnet ein kostenloses Tool mit seinem großen Funktionsumfang und vor allem mit den Ergebnissen: Ultimate Vocal Remover 5. Nicht nur stehen hier die meisten KI-Modelle zur Auswahl, sondern diese lassen sich auch noch mit diversen Parametern konfigurieren. All das kostenlos, offline und für die drei Plattformen Windows, MacOS und Linux.