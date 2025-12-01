Mit Künstlicher Intelligenz zur Profi-Stimme

Die KI hält immer mehr Einzug in die Musikproduktion, ob es uns nun gefällt oder nicht. So auch in der Bearbeitung von Vocals, wobei sich hier bislang fast alles noch Web/Cloud-basiert abspielt (siehe Kapitel „Übersicht“). Nun ist mit IK Multimedia ReSing ein weiteres Vocal Production Tool erschienen, das sowohl Standalone als auch als Plug-in einsetzbar ist und alle Berechnungen ohne Umwege über eine Cloud direkt auf dem PC durchführt. Damit lassen sich Gesangstimmen „transformieren, formen und neu interpretieren“, beschreibt es der Hersteller. Was das genau heißt und wie das Ganze funktioniert, will ich versuchen, in diesem Artikel zu klären.

Kurz & knapp Was ist es? Ein KI-basiertes Vocal-Production-Tool, das Stimmen umformt, modelliert und als Plug-in oder Standalone einsetzbar ist. Lokale Verarbeitung: ReSing arbeitet vollständig ohne Cloud, schnell und direkt auf dem Rechner.

ReSing arbeitet vollständig ohne Cloud, schnell und direkt auf dem Rechner. Stimmen & Instrumente: 25 Vocal- und 25 Instrumenten-Modelle bieten viele kreative Einsatzmöglichkeiten.

25 Vocal- und 25 Instrumenten-Modelle bieten viele kreative Einsatzmöglichkeiten. Modell-Mixing: Zwei Modelle lassen sich kombinieren, wodurch neue Klangfarben entstehen.

Zwei Modelle lassen sich kombinieren, wodurch neue Klangfarben entstehen. Eigene Modelle: Mit dem Modeler können individuelle Stimmen erstellt werden, außerdem ist der Import von Stimmen im RVC-Format möglich.

Was ist IK Multimedia ReSing?

Mit IK Multimedia ReSing kann ich eine aufgezeichnete Gesangsspur auf meinem Rechner ohne Umweg über eine Cloud o.ä. in Intonation und Tonhöhe auf ein anderes, vorgefertigtes Stimm-Modell professioneller Sänger/innen oder auf ein Instrument übertragen. Heißt: Meine Gesangdarbietung erklingt mit einer anderen Stimme oder als Instrument, wird entsprechend geklont und verändert. Dazu muss ich zuvor etwas eingesungen oder eingespielt haben.

Die drei Versionen von IK Multimedia ReSing

IK Multimedia ReSing gibt es aktuell in zwei Versionen, die sich in Anzahl der Stimmen und Instrumente, der Anzahl der im ReSing Modeler erzeugbaren Modelle und der Anzahl der importierbaren RVC/ReSing-Modelle unterscheiden. Eine Free-Version mit zwei Stimmen und zwei Instrumenten ist angekündigt.

ReSing Free wird nichts kosten (und soll demnächst veröffentlicht werden). Die mittlere Version „ReSing“ ist derzeit zum Einführungspreis von 105,- Euro erhältlich, und die große ReSing MAX kostet 175,- Euro (ebenfalls Einführungspreis)

Um IK Multimedia ReSing und seine Features besser einordnen zu können, hier mal eine kleine Übersicht über einige andere AI-Vocal-Production Tools.

Im Sommer 2024 ist das Plug-in SoundID Voice AI von Sonarworks erschienen, das wie euch hier kurz vorgestellt hatten. Dieses funktioniert ähnlich wie ReSing: e

Ein Gesangs-Audiofile in der DAW wird entweder lokal oder in der Cloud in eine professionelle Stimmvorlage oder ein Instrument umgewandelt. Rund 50 Voice- und Instrument-Models sind mit dabei, jeweils zehn weitere sind in zwei Add-ons (Rock und Kids, 29,- Euro) enthalten.

Eine dauerhafte Lizenz für das lokale Audio-Processing kostet 99,- Euro. Wer lieber Cloud-basiert rechnen lässt, muss Audio-Minuten kaufen (120 Min = 20,- Euro, 300 Min = 40,- Euro, 600 Min = 70,- Euro).

Dreamtonics Vocoflex hatten wir im August 2024 im Test. Das AI-Tool von Dreamtonics aus Tokio gibt es sowohl Standalone als auch als Plug-in. Das Besondere an Vocoflex ist, dass es auch in Echtzeit funktioniert – wenn auch mit recht großer Latenz. Als Vorlage dienen Voice-Samples oder eines der 40 Stimm-Modelle, es lassen sich aber auch AI-Stimmen über ein X/Y-Pad generieren (199,- Euro).

Webbasierte Tools:

Audimee – 22 Models, Preise von 12,- bis 50,- Euro monatlich, nur Abo)

– 22 Models, Preise von 12,- bis 50,- Euro monatlich, nur Abo) TopMedi AI Voice Cloning – Bietet auch die Erstellung eigener Models an. Schwerpunkt Sprecher, inklusive Übersetzung in 40 Sprachen. 13,- bis 33,- Euro monatlich (nur Abo)

– Bietet auch die Erstellung eigener Models an. Schwerpunkt Sprecher, inklusive Übersetzung in 40 Sprachen. 13,- bis 33,- Euro monatlich (nur Abo) Lalals Voice Cloning – Verwandelt Audio-Vorlagen in Promi-Gesang. Von Lady Gaga über Frank Sinatra bis Taylor Swift, Ed Sheeran oder Donald Trump ist alles dabei. Rechtlich sehr dünnes Eis. 12,- bis 50,- Euro monatlich (nur Abo)

– Verwandelt Audio-Vorlagen in Promi-Gesang. Von Lady Gaga über Frank Sinatra bis Taylor Swift, Ed Sheeran oder Donald Trump ist alles dabei. Rechtlich sehr dünnes Eis. 12,- bis 50,- Euro monatlich (nur Abo) Musicfy – Bietet neben der Umwandlung von Vocals in Instrumente auch die KI-generierte Erstellung kompletter Songs. 9,- bis 70,- Euro monatlich (nur Abo)

– Bietet neben der Umwandlung von Vocals in Instrumente auch die KI-generierte Erstellung kompletter Songs. 9,- bis 70,- Euro monatlich (nur Abo) Vocalist.ai – Umwandlung eigener Vocal-Audios in „World Class Singers & Rappers in seconds”. 5,- bis 12,- Euro monatlich (maximal 300 Download-Minuten, nur Abo)

– Umwandlung eigener Vocal-Audios in „World Class Singers & Rappers in seconds”. 5,- bis 12,- Euro monatlich (maximal 300 Download-Minuten, nur Abo) Elf.tech – Verwandelt Gesangsaufnahmen in die Stimme der kanadischen Sängerin Grimes.

– Verwandelt Gesangsaufnahmen in die Stimme der kanadischen Sängerin Grimes. Kits AI – Voice Clone und Voice Changer mit 168 Models aus allen Musik-Styles von Male Rock bis Female Tropical Bloom. 10 bis 60 Euro monatlich, nur Abo.

Die Benutzeroberfläche von IK Multimedia ReSing

Die Benutzeroberfläche von IK Multimedia ReSing ist frei skalierbar. Groß und mittig prangt ein Foto des aktuell verwendeten Voice- bzw. Instrumenten-Modells samt Namen im GUI. Die kann ich entweder direkt über ein Pulldown-Menü auswählen oder auf das Library-Panel umschalten. Dort finden sich dann weitere Infos wie Timbre, Stimmumfang oder geeignetes Genre. Auch kann ich dort die Suche filtern, die Stimme vorhören oder weitere Modelle installieren.

Links und rechts davon sind die kreisförmigen Model Parameters angebracht. Im Character-Ring lässt sich die „Klangpersönlichkeit“ des Modells anpassen. Dafür gibt es fünf Voreinstellungen: Mellow (weich), Smooth (geschmeidig), Energetic (energiegeladen), Lively (lebendig) und Balanced (ausgewogen). Das sind, wie gesagt, Presets, weiter verändern kann ich da nichts. Außen herum befindet sich der Transpose-Ring. Hier kann ich in Halbtonschritten die Tonhöhe um bis zu einer Oktave verschieben.

Die Character-Presets ändern den Klang zwar nicht dramatisch, sind aber je nach Stimme schon hörbar:

Der Accent-Kreis gibt die Möglichkeit, entweder die Eigenarten von Artikulation und Modulation (den „Aussprachestil“) des Modells oder der Klangquelle mehr zu betonen (Model/Source) oder sich für einen ausgewogenen Mix zu entscheiden. Schöner wäre hier eine stufenlose Regelmöglichkeit statt der drei einfachen Presets gewesen, aber vielleicht stehen dem ja technische Barrieren im Weg.

Nur zwei Presets bietet der Dynamic-Kreis, nämlich „Source“ und „Flat“. Hier wird die Lautstärke und die Ausdrucksintensität festgelegt. „Flat“ gleicht die Dynamik der Darbietung etwas aus und sorgt so für eine ausgeglichenere Wiedergabe, unabhängig von den Variationen im Eingangssignal. „Source“ hingegen bewahrt dessen Dynamik und überträgt sie 1:1 auf die bearbeitete Stimme.

Die bis hier genannten Schritte müssen vor einer Umwandlung getätigt werden. Im Preview, wo nur die ersten Sekunden berechnet werden, kann man anschließend nachbessern. Nach dem finalen Processing muss man das Ausgangsfile aber neu laden (weil das durch das Ergebnis im Player ersetzt wird) und die Verarbeitung noch einmal starten. Das geschieht in der Fußzeile des Fensters.

Während also Dynamic, Accent und Character mit in das Ergebnis eingerechnet werden, werden die Effects in Echtzeit oben draufgesetzt. Was bedeutet, dass die nicht mit abgespeichert, sondern eben „nur“ gehört werden können. Zu den Effekten gehören die „Dynamics“ mit Compressor, Gate und De-Esser und ein Reverb (mit Reglern für Amount, Size, Plate/Chamber und zusätzlichem Doubler oder Chorus Anteil). Hier erfolgen alle Eingaben stufenlos, genau wie beim „Contour“-Regler, den ich entweder in Richtung Body (low) oder Air (high) verschieben kann. Nieder- und Hochfrequenzanteile gleichzeitig anzuheben ist aber nicht möglich. Sämtliche hier genannten Einstellungen lassen sich auch speichern und wieder abrufen.

IK Multimedia ReSing in der DAW

ReSing lässt sich nicht nur Standalone, sondern auch in der DAW als Plug-in einsetzen. Und hier lautet die entscheidenden Frage: ARA oder nicht ARA.

ARA (= Audio Random Access) wurde von Celemony Software und Presonus entwickelt und ist eine Erweiterung von Audio-Schnittstellen wie VST oder AU, die den Austausch zusätzlicher Informationen zwischen DAW und Audio-Plug-ins ermöglicht.

Bei DAWs, die ARA unterstützen, können Audioclips direkt in der Spur bearbeitet werden, in die ReSing eingefügt ist. Allerdings nicht in Echtzeit, sondern ebenfalls über den Process-Button in ReSing.

Ist die DAW nicht ARA-fähig, muss die Audiodatei erst – wie in der Standalone-Version – aus dem System-Browser-Menü geladen und dann auf die Audiospur gezogen werden, was etwas umständlicher ist.

Ethik: Urheberrecht und Sänger/innen-Rechte

IK Multimedia legt Wert auf die Feststellung, dass „alle Sängerinnen und Sänger klare, transparente Vereinbarungen unterzeichnet haben, die die Vergütung und den Schutz ihrer Beiträge gewährleisten“. Nichts werde ohne deren Zustimmung genutzt. Auch werden niemals urheberrechtlich geschützte Songs oder Samples verwendet. So sei sichergestellt, dass die mit ReSing erstellten Produktionen frei von versteckten Urheberrechten sind. „ReSing wurde von Anfang an zum Schutz von Künstlern und Nutzern konzipiert“, so der Hersteller.

IK Multimedia ReSing in der Praxis: Gesangs-Models

In IK Multimedia ReSing Max sind 10 männliche Modelle (fünf Tenöre, ein Bariton, vier Bässe), 14 weibliche (zehn Sopran, vier Mezzo-Sopran, kein Alt) und ein Streifenhörnchen mit dabei (Sopran – wirklich wahr). Letzteres wird „Childlike, Cinematic“ beschrieben – zumindest das „kindlich“ würde ich aber verneinen.

Sprachlich sind sie auf Englisch festgelegt, Camila und Gabriela eignen sich aber auch für spanische Texte. Die Stimmen decken ein breites Spektrum ab und sind vielseitig einsetzbar. Zwei von ihnen (Clara und John) sind auch explizit als „Narrator“, also „Erzähler“ ausgewiesen. IK Multimedia hat einen „Session-Marktplatz“ angekündigt, über den sich neue Partner-Stimmmodelle auf Zeit (bis zu einem Monat) buchen lassen können sollen. Oder man importiert einfach kostenlose RVC-Modelle (siehe nächsten Abschnitt).

In einigen YouTube-Shorts lässt der Hersteller die Sänger und Sängerinnen ihre Stimmkraft beweisen. Wie zum Beispiel in diesem hier:

Schön, aber wie sieht es aus, wenn man selbst die in meinem Fall weniger professionelle Vorlage liefert? Hier einige schnellen Versuche von mir, die ich ohne großen Aufwand produziert habe (gesangliche Unzulänglichkeiten bitte ich mir nachzusehen).

Starten wir mal ohne Musikbegleitung. Mein Original (der Hall in den Aufnahmen kam nachträglich drauf):

Und hier umgesetzt mit einigen Stimmen von ReSing:

Und hier das Ganze als Song (Musik meist aus Versatzstücken zusammengestoppelt, Text von KI), mit unterschiedlichen Stimmen. Wie gesagt, schnell umgesetzt, das geht natürlich auch wesentlich besser (und nicht ganz so schräg). Aber für einen Eindruck soll es reichen.

Auch wenn deutsche Texte eigentlich nicht unterstützt werden, klingen diese trotzdem schon ganz ok – wie diese Neuinterpretation eines Kinderliedes zeigt:

Und weil sicher alle auf das Streifenhörnchen warten. Hier ist es.

Man kann IK Multimedia ReSing aber auch für Hintergrund-Lala einsetzen:

Die Rechenzeit für eine Umformung hält sich in erstaunlich geringen Grenzen. Einzelne Phrasen sind in wenigen Sekunden durch, was aber natürlich auch von der vorhandenen Hardware abhängt.

Die CPU-Belastung lag bei mir in der kurzzeitigen Spitze bei ca. 60 % (AMD Ryzen 7 9700X 8-Core Processor).

RVC-Model-Import

In IK Multimedia ReSing lassen sich auch RVC-Modelle Importieren (das RVC-Format ist das gängige Community-Format für Voice-Models). Zahlreiche Websites wie z. B. „voice-models“ oder „rvc-models“ bieten die zu Tausenden an, zum Teil sogar kostenlos.

Wobei man da aber beim Download recht vorsichtig sein sollte: Zum einen weiß man nie, was man sonst noch so mitbekommt, zum anderen werden teilweise auch hemmungslos bekannte (Promi-) Stimmen angeboten, was den Einsatz außerhalb der eigenen vier Wände aus urheberrechtlichen Gründen verbietet.

In der Standardversion können zehn RVC-Modelle importiert werden, in der MAX-Version on IK Multimedia ReSing ist die Anzahl nicht limitiert.

Sprachaufnahmen mit ReSing

IK Multimedia ReSing eignet sich auch dazu, Sprachaufnahmen zu basteln. Allerdings sind alle mitgelieferten Stimmen wie schon erwähnt ja „english natives“, so dass bei der Übertragung deutscher Texte immer auch ein englischer Akzent zu hören ist. Das klingt dann ein wenig wie damals bei Bill Ramsay oder Chris „Mister Pumpernickel“ Howland (die Älteren erinnern sich). Hier das deutsche Original von mir – ein Satz aus einer unserer News:

Und hier zwei Modellversionen (männlich/weiblich) von Sängern.

Mit den beiden ausgewiesenen Erzählerstimmen klingt das schon besser.

Auf Englisch fühlen die sich aber doch wohler. Hier die beiden offizielle Beispiele dafür.

IK Multimedia ReSing in der Praxis: Instrumenten-Models

Neben den Stimmen sind auch 25 Instrumente mit dabei. Die Bandbreite reicht von Blasinstrumenten (Alt/Tenor/Bariton-Sax, Trompete, French Horn, Flöte) über verschiedene Gitarren und Bässe bis hin zu Violine, Synthesizern und Percussion-Instrumenten.

Ich gebe zu, dass ich damit anfangs nicht viel anfangen konnte. Wenn ich einen Violinen- oder eine Gitarren-Sound brauche, nutze ich einen aus meinen vielen Librarys. Wozu also sollte ich einen Sound oder gar meine Stimme zu einem Instrument umformen wollen?

Die Antwort fand ich beim Herumprobieren: Weil es Spaß macht und weil sich dabei durchaus ungewöhnliche Ergebnisse erzielen lassen, was besonders bei den Percussion-Instrumenten sogar ganz nützlich sein kann. Hier ist ein kleiner rhythmischer Vocal-Track:

Und das ist daraus entstanden:

Mit etwas mehr Sorgfalt bei Timing und Intonation lässt sich das durchaus in einem Song nutzen. Weiter geht’s zur Abteilung Bass. Original:

Und Fälschung:

Oder in Richtung TB303. Voice-Vorlage:

Und das Instrumentenmodell:

Oder auch etwas funkiger:

Und gerade Blasinstrumente können hier von einem natürlichen, lebendigeren Ansatz profitieren.

So auch die Tuba (eigentlich ein um eine Oktave nach unten gestimmtes French-Horn):

Wenn man im Original noch die Töne trifft oder mit Melodyne nacharbeitet, könnte das sogar richtig gut werden. Die Violine dagegen nicht. Es sei denn, das Ziel ist es, einen widerwillig übenden 7-Jährigen darzustellen.

Der sich hier an einer Querflöte versucht:

Kann man denn auch instrumentale Audios umwandeln? Habe ich natürlich gleich ausprobiert. Hier als Beispiel eine einfache Synthesizer-Melodie:

Umgeformt als Sax und Violine:

Nun ja. Und in Gesang umgewandelt ist das auch nicht besser.

Aber – das ist ja nun auch nicht der beabsichtigte Anwendungszweck von IK Multimedia ReSing. Aber ausprobieren musste ich es trotzdem mal.

Aus zwei mach eins: Model A und Model B

Eine weitere Besonderheit von IK Multimedia ReSing ist, dass ich einen zweiten Model-Slot mit einem weiteren Stimm-Modell belegen und dann zwischen den beiden überblenden und damit mischen kann. Das potenziert die Auswahl an möglichen Klangfarben, die sich oft erstaunlich weit von ihren beiden Originalen entfernen.

Das Ganze geschieht ganz simpel über die zwei Schieberegler „Timbre“ und „Accent“. Je nachdem, ob ich die mehr in Richtung A oder in Richtung B bewege, werden die Klangeigenschaften des betreffenden Slots stärker betont.

Das klingt dann so:

100 % Naomi:

100 % Spencer:

50 % Naomi, 50 % Spencer

Dabei ist es aber leider nicht möglich, jedem der beiden Slots getrennte Vorgaben über die Kreisregler zu machen. Lasse ich beispielsweise Spencer „Lively“ singen, gilt das auch für Naomi. Und transponiere ich Naomi eine Quinte hoch, muss auch Spencer folgen.

Ich bin ein Model …

Wem die mitgelieferten Modelle nicht ausreichen, kann sich auch eigene erstellen, und zwar mit dem mitgelieferten „ReSing Modeler“. Das ist auch praktisch, wenn es z. B. der Säner, die Sängerin der Band mal nicht ins Studio schafft: Einfach eine Modell-Konserve von ihr anlegen, den Drummer singen lassen und das dann in das Modell der Sängerin morphen. Oder man ist selbst Sänger/in und baut sich ein Stimm-Model, das man anschließend vermieten kann.

Um ein neues Model zu schaffen, muss ich zuerst einige Vorgaben machen. Voice oder Instrument? Welchen Style soll das Modell haben? (Natural, Falsetto, Opera, Growl, Scream, Breath, Narrator). Welche Klangfarbe – lieber Warm und Bright, oder doch eher Smoky-Nasal? Welches Register von Bass bis Sopran, welcher Tonumfang und welches Genre? Gerade da fällt die Wahl schwer, stehen doch 37 unterschiedliche von Pop über Oper bis Lo-Fi zur Wahl.

Bei der Sprache dagegen ist die Wahl schon leichter: Englisch, Spanisch, Italienisch, Französisch, Portugiesisch plus einige (fern)östliche Sprachen bis hin zu Hindi und Mandarin sollen angeblich funktionieren – aber kein Deutsch. Dann noch dem Kind einen Namen, ein Foto und einige Tags mit auf den Weg geben und es kann losgehen.

Nun muss der Modeler mit Vorlagen gefüttert werden. Dafür benötigt er mindestens 15 Minuten gesungene, gesprochene oder musizierte Audiodaten in dem Stil, den ich klonen möchte. Das darf nur einstimmiger Input sein, keine Harmonien und auch nur in einer Sprache. Auch sollte man möglichst seinen gesamten Stimmumfang und alle zur Verfügung stehenden Phoneme nutzen. Eine Viertelstunde Laalaaa laaa wird also nicht viel bringen. Klar ist, dass auch die Aufnahme und das eingesetzte Equipment möglichst hochwertig sein sollten und auch frei von Störgeräuschen („Mama, mach den Staubsauger aus, ich modelliere hier gerade!“).

Ist man mit all dem fertig, speichert man die Mono-Datei mit 16 Bit und 44,1/48 kHz (losless) im .wav, .aif oder .flac-Format ab, legt die gewünschte Qualität fest (Low, Mid, High, Highest) – was sich dann in der Berechnungszeit niederschlägt – und startet die Generierung. Das Ergebnis landet automatisch in der ReSing-Bibliothek. Die neu geschaffenen Modelle können aber nachträglich nicht mehr verändert werden. Bei Änderungswünschen hilft nur ein neues Training.

Maximal 25 sind möglich in der ReSing Max-Version, deren zehn sind es in der Standardversion. Wer mehr will, muss sich das „Unlimited Model Generation Add-on for ReSing“ kaufen, das die Limitierung aufhebt (199,99 Euro, Einführungspreis 149,99 Euro).