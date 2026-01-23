Kreatives Vocal-Tool für Produzenten

Vor gut zwei Jahren hatte Sonarworks aus dem lettischen Riga das KI-Vocal-Tool SoundID VoiceAI gestartet. Anfangs ausschließlich cloudbasiert, kann man es inzwischen auch offline nutzen. Vor Kurzem wurde SoundID VoiceAI um eine Freemium-Version und ein weiteres Voice-Expansion-Pack namens K-POP erweitert. Schauen wir mal, was Sonarworks SoundID VoiceAI inzwischen alles kann, aber auch, wie es sich im Vergleich zur neueren, recht aktuellen Konkurrenz ReSing von IK Multimedia schlägt.

Kurz & knapp Was ist es? Sonarworks SoundID VoiceAI ist ein DAW-Plug-in zur KI-gestützten Transformation von Gesangs- und Sprachaufnahmen in professionelle Stimmen und Instrumente. Große Auswahl: Bereits das Basispaket bietet zahlreiche Stimmen und Instrumente, die optional durch mehrere Voice-Expansion-Packs erweitert werden können.

Bereits das Basispaket bietet zahlreiche Stimmen und Instrumente, die optional durch mehrere Voice-Expansion-Packs erweitert werden können. Klang & Praxis: Dynamik und Phrasierung bleiben erhalten, die Ergebnisse klingen überzeugend und lassen sich flexibel für Gesang, Chöre und Instrumente einsetzen.

Dynamik und Phrasierung bleiben erhalten, die Ergebnisse klingen überzeugend und lassen sich flexibel für Gesang, Chöre und Instrumente einsetzen. Workflow: Das Capture-basierte Arbeiten in der DAW ist funktional, aber weniger komfortabel als ARA-gestützte Lösungen.

Das Capture-basierte Arbeiten in der DAW ist funktional, aber weniger komfortabel als ARA-gestützte Lösungen. Features: Unisono-Modus, Auto-Transpose und Cleanup-Funktion erhöhen den Praxisnutzen deutlich.

Unisono-Modus, Auto-Transpose und Cleanup-Funktion erhöhen den Praxisnutzen deutlich. Preis-Leistung: Umfangreich, leicht zu bedienen und im Vergleich zur Konkurrenz sehr fair bepreist.

Das ist SoundID VoiceAI

SoundID Voice AI ist ein Plug-in (VST3, AU, AAX), das bestehende Gesangs- oder Sprachaufnahmen mit KI-Unterstützung in die professioneller Sänger und Sängerinnen, aber auch in Instrumente transformiert. Dabei bleiben Dynamik und Phrasierung der Vorlage erhalten, es ändert sich „nur“ der Klangcharakter.

Eine Standalone-Version wie zum Beispiel bei ReSing von IK Multimedia gibt es hier nicht. „Mit SoundID VoiceAI können Sie Hintergrundgesang erstellen, Spuren aus einer einzelnen Stimme verdoppeln, Demos aufnehmen und Ihre Produktion mit lizenzfreien Sprach- und Instrumenten-Presets vereinfachen“, beschreibt Hersteller Sonarworks selbst sein Produkt.

Sonarworks SoundID VoiceAI läuft auf dem Mac (macOS 11 Big Sur, 12 Monterey, 13 Ventura, 14 Sonoma, 15 Sequoia) und unter Windows 10 oder 11. Außerdem wird eine DAW benötigt, die die oben genannten Plug-in-Formate unterstützt.

Welche Stimmen und Instrumente sind enthalten?

Das Basis-Pack von Sonarworks SoundID VoiceAI umfasst 13 Frauen- und 17 Männerstimmen, darunter auch drei Kinderstimmen, zwei Senioren und zwei Teens – plus eine Talkbox und 21 Instrumente. Letztere kommen vornehmlich aus den Bereichen Bass und Drums, aber auch ein paar Bläser, Streicher und eine Mundorgel (Jaw Harp) sind mit dabei.

In den Kurzsteckbriefen zu den Sängern/Sängerinnen fehlen Hinweise auf die Muttersprache – gehen wir also mal davon aus, dass diese alle englischsprachig sind. Allerdings klappt es auch mit anderen Sprachen wie Deutsch eigentlich problemlos, wie sich im Test gezeigt hat (dazu später mehr).

Statt einer Stimmlage (Sopran, Tenor etc.) oder einer Tone-Range bekommen wir hier „nur“ einen „Best input pitch“, was ich nicht ganz so übersichtlich finde. Sopran, Alt oder Tenor sind eingängiger als „E4“. Über den Preview-Button kann man sich aber auch einen ersten Höreindruck verschaffen.

Hier ein Überblick über das Basispaket mit den offiziellen Sound-Demos:

Die Expansion-Packs (Pop, Rock, Kids, K-Pop) enthalten jeweils fünf weitere Männer- und Frauenstimmen, also insgesamt noch einmal 40 Voice-Modelle. Bei den Pop-Voices herrschen die Adjektive „Warm“ und „Clear“ vor, eine gelungene Erweiterung zu den Pop-Stimmen im Basis-Pack. Im Rock-Pack sind die Stimmen schon um einiges druckvoller, vor allem die Männerstimmen sind schön kantig und rau. Interessant sind aber auch die sehr variantenreichen Kinderstimmen. Da ist vom sehr jungen Michael Jackson bis hin zur On-The-Goodhip-Lollipop-Shirley Temple alles möglich.

Mit den neuen K-Pop-Voices schließlich richtet sich Sonarworks nicht nur an den fernöstlichen Markt. K-Pop ist ja schon länger auch bei uns mit seiner Mischung aus Hip-Hop, R&B und koreanischen Elementen sehr beliebt. Bands und Boygroups wie BTS (Bangtan Sonyeondan) werden auch in der westlichen Hemisphäre gern gehört, der BTS-Song „Dynamite“ kommt bei YouTube inzwischen auf über zwei Milliarden Aufrufe. Die im K-Pop-Pack angebotenen Stimmen passen da gut rein und haben den speziellen „Korean Touch“. Damit kann man also auch gut die eigene Produktion etwas aufpeppen.

Hier die offiziellen Sounddemos zu den vier Erweiterungs-Packs:

Insgesamt bietet Sonarworks mit den Factory-Sounds und den Zusatz-Packs ein sehr umfangreiches, interessantes Klangpaket an, das mit seinem Facettenreichtum in viele Ecken des Gesangs leuchtet. Was mir noch fehlt, sind einige ausgebildete Stimmen für den klassischen Gesang – Stichworte „Koloratursopran“ oder „Heldentenor“. Aber kommt Zeit, kommt Expansion-Pack.

Was kostet Sonarworks SoundID VoiceAI?

Sonarworks bietet grundsätzlich zwei Möglichkeiten an, VoiceAI zu nutzen: Den Perpetual Mode und den Pay-as-you-go-mode. Beim Perpetual Mode hat man wiederum drei Wahlmöglichkeiten: Wer es erst einmal ausprobieren möchte, wählt das kleine Freemium-Modell, das seit Ende letzten Jahres angeboten wird. Das enthält vier Stimmen und vier Instrumente und kann uneingeschränkt und zeitlich unbegrenzt (eben „perpetual“) auf dem eigenen PC genutzt werden.

Die One-Time-Payment Perpetual license kostet einmalig 99,- Euro und umfasst 50 Voice- und Instrument-Presets. Die Packs „Rock Voices“, „Kids Voices“, „Pop Voices“ und das neue “K-Pop Voces” sind nicht dabei und müssten für je 29,- Euro nachgekauft werden. Die nächste Ausbaustufe ist die Perpetual license & Voice packs bundle für – ebenfalls einmalig – 169,- Euro. Hier fehlt nur das „K-Pop Voices“-Pack, das muss extra erworben werden.

Beim Pay-as-you-go-mode hingegen finden alle Berechnungen in der Cloud auf den Sonarworks-Servern statt. Hier muss man sich Audio-Processing-Zeit in Form von Tokens kaufen, die es in drei „Packungsgrößen“ gibt:

72.000 Tokens (120 Minuten) – 19,99 Euro

180.000 Tokens (300 Minuten) – 39,99 Euro

360.000 Tokens (600 Minuten) – 69,99 Euro

Wer nachrechnet, der stellt fest, dass es also keinen Bonus gibt, wenn man ein größeres Paket kauft – eine Stunde kostet in jedem Angebot 36.000 Token (600 Token pro Minute). Auch hier sind die drei Packs Rock, Kids und Pop enthalten, das K-Pop-Pack aber nicht.

Im Trial-Modus lässt sich all das auch für sieben Tage erst einmal testen. Der umfasst dann alle Presets (90+ Voices und Instrumente) plus 9.000 Tokens für das Cloud Processing und kann zudem in der Zeit auch offline auf dem eigenen PC genutzt werden. Ein Mix aus allen Modellen also.

Wie funktioniert die Bearbeitung von SoundID VoiceAI?

Die Bearbeitung der Voice-Files erfolgt – mangels Standalone-Funktion – immer in der DAW. Sonarworks SoundID VoiceAI wird dazu als Effekt auf die betreffende Soundspur mit der Vokalaufnahme gelegt. Um die in das Plug-in einzulesen, betätige ich den Record-Button in VoiceAI und den Play-Button in der DAW, „Capture-Verfahren“ wird das genannt. Habe ich mehrere Abschnitte auf einem Track, muss ich für jeden eine neue SoundID VoiceAI-Instanz aufmachen, auch wenn ich für alle Einzelteile dieselben Parameter und dasselbe Voice-Modell nutze. Beim ARA-Support (wie bei ReSing) hingegen habe ich das ausgewählte Audio ganz ohne Capture direkt im Plug-in. ARA war mal bei SoundID VoiceAI im Gespräch und soll wohl irgendwann noch kommen, ist bisher aber nicht offiziell angekündigt.

Ist der gewünschte Abschnitt „eingelesen“, wird er per Klick auf „Start Processing“ in das ganz am Anfang ausgewählte Stimm-Modell umgewandelt. Bevor ich das mache, habe ich noch einige Möglichkeiten, das Material zu verändern. So kann ich es transponieren – theoretisch sogar von -48 bis +48 Halbtonschritten. Was aber in der Praxis eher weniger empfehlenswert ist, bei einer Oktave macht man besser Schluss. Alternativ stellt man die Transpose-Funktion auf „Auto“ und überlässt VoiceAI die Entscheidung. Das Plug-in ermittelt dann den optimalen Transponierungswert aus dem aufgenommen Audiomaterial und dem gewählten Voice-Modell. Was oft, aber nicht immer passt.

Ist die Stimmaufnahme – zum Beispiel wegen Hintergrundgeräuschen – nicht ganz sauber, lassen sich die mit der Funktion „Captured Voice Cleanup“ herausfiltern, um die Sprachverständlichkeit zu erhöhen und Artefakte zu minimieren, was ganz ordentlich funktioniert. Besser ist aber in jedem Fall natürlich, gleich eine gute Aufnahme abzuliefern, denn Wunderdinge sollte man hier natürlich nicht erwarten.

Ein recht gelungenes Feature ist der „Unisono-Modus“, mit dem ich aus der Originalstimme bis zu acht weitere Stimmen erzeugen kann. Vorab muss ich da die gewünschte Zahl der Stimmen angeben sowie die Pitch-Variation (von 0 – 100). Nach dem Processing lässt sich dann in Echtzeit auch die Timing-Variation (0 – 100) abändern, um unseren Background-Chor weniger gleichförmig und menschlicher erscheinen zu lassen. Auch die Verteilung der Stimmen im Stereobild (Width von 0 – 100) kann ich da festlegen.

Damit lässt sich der Vocal-Track in einem Song schön anfetten, ohne einen Chor im Studio zu haben. Man muss aber sehr aufpassen, dass sich da dann keine Flanger-Effekte einstellen, wenn Stimmenzahl, Pitch und Timing nicht stimmen. Besser ist da ein Chor aus mehreren Voice-Modellen. Da muss man das Vocal-Audio eben auf mehrere Tracks kopieren und mehrfach mit unterschiedlichen Voice-Modellen umwandeln. Ist mehr Arbeit, klingt aber auch besser.

Ist das Processing abgeschlossen, kann ich mir das Ergebnis in der DAW anhören. Gefällt es mir nicht oder will ich noch etwas ändern, kann ich den Audio-Processing-Vorgang mit anderen Parametern jederzeit neu anstoßen. Über den „AI Voice“-Button lassen sich auch A/B-Vergleiche mit dem unbehandelten Material ziehen. Was sich aber nicht mehr ändern lässt, ist die Position der Vocal-Phrase auf dem Track. Ist die einmal „gecaptured“, behält sie ihren Standort bei, auch wenn man den Clip in der DAW verschiebt, weil der vielleicht woanders besser passt. Der taucht dann zwar optisch auf der neuen Position auf, klingt aber weiterhin auf der alten. Das ist anfangs irritierend, bis man dann (zufällig) auf den Hinweis dazu im Online-Handbuch stößt. („The positioning of the AI replacement audio will depend on the captured audio region timestamps. Don’t change the audio content position on the track after capturing.”)

Und noch ein wichtiger Hinweis: Transformiert man ein und dieselbe Phrase mehrfach, erhält man nie absolut identische Resultate. Das läge an der „kreativen Natur der AI-Modelle in SoundID VoiceAI“, so Sonarworks.

Auf in die Praxis: So klingt Sonarworks SoundID VoiceAI

Um die Klangqualitäten und den praktischen Nutzen zu testen, habe ich einige kleine, einfache Tracks ohne größeren künstlerischen Anspruch zusammengebaut. Die Bearbeitungszeit für ein Vokal-Sample ist von dessen Komplexität und der Zahl der verwendeten Unisono-Stimmen abhängig. Bei einem einfachen, 9-Sekünder kam ich im Test auf 7 Sekunden bei einer Stimme, bei acht Unisono-Stimmen waren es schon knapp 50 Sekunden. Die Prozessorauslastung lag im Peak bei etwa 50 %. (AMD Ryzen 7 9700X 8-Core Processor (3,80 GHz), 96 GB RAM).

Beginnen wir mal mit einer reinen Vokalaufnahme (weshalb das Ding auch den Arbeitstitel „Manhattan“ (Transfer) hat): Daa-Dab-Chor, Solo-Stimme, etwas Aaa-Haa im Hintergrund, Drums, Bass und ein Soloinstrument ebenfalls schnell mal eben als Stimme aufgenommen. Was sich dann erst einmal so anhört: Komplett überladen, weil alles mit derselben Stimme im selben schmalen Stimmraum ohne Abmischung daherkommt:

Zuerst mal nehme ich mir den eingesungenen Bass vor:

Den wandele ich mit dem Instrumenten-Modell „Upright Bass“ um, was dann so klingt:

Jetzt die Drums. Hier das stimmliche Original:

Und hier nach der Behandlung mit dem Instrumenten-Modell „Acoustic Drums 2“

Meinen „Gesang“ mit dem improvisierten Text …

… tausche ich gegen eine Kinderstimme Marke Cornelia Froboess / Shirley Temple aus. Die – wie ich finde – dann richtig gut klingt:

Beim Dah-Dabb-Chor tausche ich meine Stimme gegen vier männliche Voice-Modelle aus. Was aber stimmlich dann keinen so großen Unterschied macht. Hier Original und „Fälschung“:

Dafür aber klingt der „Fill-In-Background-Chor“ besser, wenn statt meinen Stimmen …

… jetzt drei Sängerinnen am Mikro stehen.

Zum Abschluss noch ein kleines genuscheltes Instrumental-Solo …

… das sich doch recht gut für eine Posaune eignet. Die klingt dann so.

So, und jetzt setzen wir mal alles zusammen. In der Kürze der Zeit nichts für die Charts, aber deutlich besser als das Ausgangs-File. Und wenn man da jetzt noch etwas bastelt (und etwas besser singt), kann man da sicherlich auch mehr herausholen. Aber das grundsätzliche Prinzip sollte klar sein.

Apropos „besser singen“: Cubase hat ja seit der Version 15 ebenfalls mit Omnivocal eine AI-Stimme am Start. Die überführt aber nicht wie SoundID VoiceAI Audiofiles in Profi-Stimmen. Stattdessen werden eingespielte Melodien, die auch mit Texten versehen können, von einer männlichen oder weiblichen Stimme synthetisiert bzw. gesungen. Eine Art Rebranding von Yamahas Vocaloid VX Beta (Steinberg gehört ja mittlerweile zu Yamaha, die die erste Version von Vocaloid bereits 2004 herausgebracht hatten).

Könnte man das nicht mit Hilfe von SoundID VoiceAI noch etwas aufmöbeln? Probieren wir es mal aus. Hier ein paar Takte eben kurz gebastelt mit dem NeoSoul-Setting von Cubase, darüber eine Melodie mit Omnivocal und einem Omnivocal-Background-Chor. Der Text klingt stellenweise nach simlish, aber um den geht es ja zum Glück nicht:

Mit SoundID VoiceAI können wir da etwas mehr Abwechslung reinbringen. Was ganz praktisch ist, da die aktuelle Beta von Omnivocal lediglich zwei Stimmen anbietet und auch recht synthetisch klingt.

Bisher waren sämtliche Gesangstexte in Englisch. Aber kann VoiceAI auch Deutsch? In der Beschreibung zu den Voice-Modellen findet sich kein Hinweis darauf. Auch fehlt hier (wieder wie bei ReSing) das gelegentliche Attribut „Narrator“, also „Erzähler“. Klären wir also doch gleich mal in einem Aufwasch, ob SoundID VoiceAI auch deutsche Texte sprechen kann. Das wäre ja auch für „Content Creators“ eine nützliche Sache.

Hier zwei Sätze aus unseren News zum Flame Mäander M, die ich mal eben eingelesen habe:

Und hier drei Versionen mit SoundID VoiceAI. Ein englischer Akzent ist hier so gut wie gar nicht zu hören.

Zum Schluss noch einige offizielle Sound-Demos von Sonarworks selbst, die eine kurze Phrase in neun Voice-Modelle überführt haben und auch auf der SoundID VoiceAI – Produktseite nachgehört werden können.

Hier ist die Ausgangsphrase:

Und hier sind einige Voice-Modelle mit derselben Phrase.

Ihr seht (oder besser: hört): Mit einer professionellen Vorlage und größerem Aufwand ist da noch einiges mehr rauszuholen.

Sonarworks SoundID Voice AI im Vergleich mit IK Multimedia ReSing

ReSing von IK Multimedia war Ende letzten Jahres erschienen und ist damit das New Kid in AI-Town. Die haben natürlich die (ältere) Konkurrenz analysiert und einige zusätzliche Features mit eingebaut, um sich von den alten Platzhirschen abzuheben. Dazu gehören vor allem das Modell-Mixing (zwei Voice-Modelle können in einem Durchgang gemischt werden), das Erstellen eigener Voice-Modelle und der Import von RVC-Modellen. Von denen es im Netz zigtausende gibt, die allerdings qualitativ oft auch recht bescheiden sind und oft in Konflikt mit dem Urheberrecht stehen.

Außerdem habe ich bei ReSing vor der Transformation noch die Möglichkeit, einige Parameter wie Character, Accent und Dynamic zu verändern und Effekte hinzuzufügen, und so das Voice-Model etwas anzupassen. Und schließlich gibt es ReSing auch als Standalone-Version, die ohne DAW funktioniert. All das hat Sonarworks SoundID VoiceAI (aktuell) nicht zu bieten, erklärt aber, dass das „Own Voice Feature“ noch nicht erhältlich sei („… such a feature is not available yet“). Auch der ARA-Support ist bei SoundID VoiceAI zwar gerüchteweise schon mal im Gespräch gewesen, aber derzeit (noch) nicht implementiert. Da könnte also noch was kommen.

Dafür kann SoundID VoiceAI aber schon mal beim Umfang und beim Preis punkten. Während die Basisversion von ReSing mit 10 Voices und 10 Instrumenten 149,- Euro kostet, bekomme ich VoiceAI mit 30 Voices und 17 Instrumenten schon für 99,- Euro oder mit drei zusätzlichen Voice-Packs mit noch einmal 30 Voice-Modellen für 169,- Euro. Mit dann insgesamt 60 Voices (bzw. 70, nimmt man K-POP noch hinzu) ist man gut aufgestellt. Bei ReSing kostet die große Version (ReSing MAX mit je 25 Stimmen und Instrumenten) 229,- Euro, Zusatz-Packs gibt es aktuell(noch) keine.

Wenn die DAW die ARA-Schnittstelle unterstützt, hat ReSing beim Workflow leichte Vorteile, weil das Plug-in ohne Capturen direkten Zugriff auf die Audiodatei hat. Ist die DAW aber nicht ARA-tauglich, muss man bei ReSing den umständlichen Umweg über den Systembrowser nehmen. Das Reprocessing in der DAW ist bei VoiceAI einfacher – bzw. überhaupt erst möglich. Weitere Pluspunkte für SoundID VoiceAI sind der Unisono-Modus, die Auto-Transpose-Funktion und die Cleanup-Funktion vor dem Processing, um die Zahl der Artefakte zu minimieren.