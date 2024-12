Vocals selbst designen

Das Erstellen von Musikinstrumenten, zu denen letztlich auch die menschliche Stimme zählt, gehört für mich zu den interessantesten neuen Forschungsfeldern im Rahmen der Auseinandersetzung mit künstlicher Intelligenz. Dreamtonics Synthesizer V aus Japan ist hierbei ein besonders interessantes Tool, mit dem Vocals erschaffen werden können.

ANZEIGE

Was kann Dreamtonics Synthesizer V?

Synthesizer V kann realistisch klingende Stimmen erzeugen, indem man Noten einzeichnet, Text eingibt oder beides selbst einsingt. Dabei sind tiefgehende Edits möglich, um das Ergebnis zu verbessern. Synthesizer V arbeitet mit sogenannter Concatenative Synthesis und Artificial Neural Networks, um Quellsounds zu analysieren und laufend zu verbessern. Auch Yamahas Vocaloid Software benutzt diese Technik, deren Entwicklungsbeginn ich vage auf etwa das Jahr 2000 zurückdatiere.Man kann kostenlos mit einer Free-Version arbeiten, aber auch eine Pro Version sowie weitere Stimmen mit verschiedenen Charakteristiken dazu kaufen. Die gleiche Firma bietet ergänzend und im Bundle mit Synthesizer V das Programm Vocoflex an, um darüber hinaus selbst Stimmmodelle zu erzeugen und Vocals (inklusive beliebiger Gesangsaufnahmen) nachgelagert zu bearbeiten. Dieses wurde bereits hier auf AMAZONA.de getestet.

Synthesizer V agiert sowohl Standalone als Software-Instrument als auch als Plug-in, zusätzlich gibt es ein ARA (2) Effekt-Plug-in mit verschiedene Ausführungen, Anbindung in unterschiedlichen Formaten und auf verschiedenen Plattformen. Im komplett synchronisierten ARA-Modus ändert sich der Workflow gegenüber der Standalone-Version leicht. Darauf weist das gute und ausführliche, aber nur online und nicht als PDF bereitstehende Manual hin. Im Test konnte ich mit den Stimmen Kevin, Ritchy, Natalie und Mai arbeiten, nur Mai ist kostenlos dabei.

Vorgeschichte und Weiterentwicklung

Ich habe Synthesizer V schon vor etwa eineinhalb Jahren entdeckt und damals auch schon einem Test unterzogen. Mir gefällt es, nach legalen Möglichkeiten von KI zu suchen, die mir als Musiker und Sounddesigner Eingriffsmöglichkeiten geben, um das Ergebnis individuell zu gestalten. Die Firma Dreamtonics vermittelt für mich einen seriösen Eindruck. Anfragen werden präzise, höflich und auch ein wenig förmlich beantwortet. Zudem hat es seitdem eine Reihe von Verbesserungen in Form von Updates sowohl für Synthesizer V als auch für Voices ohne kostenpflichtige Upgrade-Pflichten gegeben. Man kann also von einer guten Produktpflege sprechen. In Synthesizer V wurden zuletzt eine verbesserte ARA2-Integration, Voice-to-MIDI Optionen, Spanisch als neue Sprache, eine AAX-Version und eine optimierte Anbindung an FL Studio (mit FL Studio Link) integriert. Auch durch Analysen von User-Einstellungen werden Synthesizer und die Voice-Models im Hintergrund hier wie dort laufend verbessert. Ob man bereit ist, entsprechende Daten zu senden, lässt sich in Synthesizer V einstellen. Zum Testzeitpunkt und nach einer längeren Nutzungspause konnte ich für all meine vier Voice-Models Updates herunterladen.

Wie arbeitet man mit Synthesizer V?

Ihr könnt auf mehreren Spuren Vocals erzeugen, indem ihr zunächst eine Stimme auswählt, Noten mit Werkzeugen einzeichnet, Text auf verschiedene Weise eingebt oder die zu singende Phrase selbst einsingt. Das Ergebnis lässt sich im Detail justieren und bringt überraschend überzeugende Resultate, wobei ein wenig Künstlichkeit heute in moderneren Genres ja fast schon zu den Hörgewohnheiten gehört. Mir standen im Test die Stimmen Kevin, Ricky (Rap), Mai und Natalie zur Verfügung.

Wie funktioniert das? In meinem ersten Versuchen habe ich zunächst eine Stimme ausgewählt, dann Noten wie bei einer Pianorolle eingezeichnet, Text in die Noten herein geschrieben und sie dann an entsprechende Takt- und Tonhöhenpositionen verschoben. Text wird bei Bedarf an die Länge der Note angepasst. Man arbeitet grundsätzlich ähnlich wie in einem typischem Pianorollen-DAW-Editor.

Alt + Copy & Drag funktioniert allerdings nicht, Selektion + Cmd/ Strg + C bzw. V zum Kopieren und Einfügen klappt. Ich fühle mich hier ein wenig, als müsste ich eine DAW neu lernen. Das ist insofern gut, als der Hersteller an die Details gedacht und sie meist sinnvoll untergebracht hat. Die Bedienung ist aber auch ein wenig anspruchsvoll. So kann z.B. eine Note mit gehaltener Shift-Taste transponiert werden, ohne zu verrutschen. Aber Vorsicht, das klappt nur, wenn in einem sehr klein dargestellten Flip-Menü kein Snap-Wert zum Einrasten eingestellt ist. Soll eine Wort über zwei Noten gesungen werden, setzt man in die zweite Note ein „+“-Zeichen, um dem Programm dies mitzuteilen. In eine weitere Note lässt sich auch ein „-„-Zeichen einfügen, um etwa einzelne Vokale über mehrere Noten zu verlängern. Das „+“ Zeichen kann darauf folgen, um das Ende des Worts zu markieren.

Damit der Text passend positioniert wird, kann es sinnvoll sein, eine Note der gleichen Tonhöhe in zwei Teile zu zerschneiden. Synthesizer V hilft auch, indem es Lücken aufzeigt und entfernt. Mit der Silbe „br“ lassen sich Atempausen einbauen, auch Buchstabenbetonungen lassen sich ändern. Um Lyrics schneller einzugeben, kann man alles selektieren, dann Cmd/Strg + L drücken und die Funktion „Insert Lyrics“ nutzen. Hierbei ist die korrekte Eingabeform oder Syntax bezüglich der +/- Zeichen und der Eingabe von Leerzeichen zu beachten, durch welche die Zuweisung von Noten erfolgt.

Audio importieren oder einsingen

Es gibt, wie angedeutet, aber auch die Möglichkeit, eine Audiodatei einzusingen oder ein Audiofile zu importieren, um daraus MIDI-Noten zu erzeugen, die die Synthese-Engine ansteuern. Via Rechtsklick auf ein importiertes Audiofile (Synthesizer V bietet Konvertierung von MP3 zu WAV automatisch an) gelangt man an die Option „Extract Notes from Audio“. Dabei lässt sich unter anderem die Empfindlichkeit höher einstellen, um Aufnahmen mit viel Bewegung richtig zu erkennen.

ANZEIGE

Die Funktion kann dabei optional nicht nur Noten, sondern auch Text erkennen, wenngleich bezüglich der Syntax hier meist Nachbearbeitungen nötig sind oder manuelle Eingaben besser funktionieren und es noch keine deutsche Version gibt. Kleine Timing-Fehler lassen sich auch durch Selektion aller Noten und Anwendung der Funktion „Smart Quantization“ im Kontext ausbügeln.

Nachfolgend habe ich eine via Headset eingesungene Phrase „Ich singe für Amazona“ mit „Extract Notes from Audio“ bearbeitet. Zuerst hört ihr die Originalaufnahme. Im zweiten Beispiel sind die erkannten Sinustöne zu hören, es muss noch eine Stimme ausgewählt werden. Im dritten Beispiel hat die weibliche AI Mai naturgemäß etwas Probleme mit dem tiefsten Ton. Da „Deutsch“ keine integrierte Sprache ist, kommt auch beim eingegebenen Text teilweise nichts sinnvolles heraus. In Beispiel 4 kommt AI Kevin besser klar, statt „für“ habe ich „feur“ in die Texteingabe geschrieben.

Synthesizer V: Weitere Settings und Beispiele

Andere Bereiche mit Parametern oder das Arrangement lassen sich ein- und ausblenden. Es gibt viele Einstellmöglichkeiten: Pro Note sind z.B. Loudness, Tension, Breathiness, Gender, Tone Shift justierbar. Gender beeinflusst die Formanten. Eine Umschaltung auf Rap verändert den Charakter; das klappt aber natürlich nicht bei langgezogenen Inhalten, sondern eher bei kurzen Noten. Es ist möglich, Vocals durch Nutzung der Vocal Mode Einstellung und Presets kräftiger, sanfter oder emotionaler singen zu lassen. Dabei hängt es von der ausgewählten Stimme ab, welche Parameter zur Verfügung stehen. Diese lassen sich auch unten im Parameter Panel anzeigen bzw. automatisieren.

Hier weitere Beispiele, diesmal mit englischem Text. Zunächst singt die integrierte „Mai“ Stimme, danach „Mai „im Soft-Preset, dann zweimal „Mai“ in verschiedenen Tonhöhen mit Hilfe duplizierter Spuren, dann Rapper Ritchy, anschließend Rapper Ritchy im Singing-Mode und zum Schluss Natalie mit editierten, langezogenen Noten – und einmal auf Spanisch. Jede Stimme kann in jeder der vorhandenen Sprachen Englisch, Spanisch, Japanisch und Chinesisch (Mandarin und Kantonesisch) singen. Versuche mit spanisch überzeugten mich manchmal, aber nicht immer.

Durch Klicken auf die drei Striche oben im Fenster („Add Parameter Panel“) kann man eine Art Automationsansicht für Parameter einfügen. Dabei lassen sich dieselben Parameter wie oben genannt in einem „Parameter Panel“ genannten Editor automatisieren. Hier sind auch Kurven von Pitchverläufen editierbar.

Chöre, Doublings und AI Retakes

Es ist auch möglich, durch Duplizieren von Spuren Chöre zu erstellen. Für einfaches Voice-Doubling reicht es, einen Alternativ-Take („AI Retake“, via ALT/Option T) mit Voices, die diese Funktion unterstützen, zu generieren. Es ist wie so oft, wenn es um den Vergleich von elektronischer und akustischer Musik geht: Während einerseits versucht wird, Ungenauigkeiten aus akustischen Aufnahmen zu beseitigen (z.B. mit VocAlign), ist es im Rahmen der künstlichen Erstellung oder Reproduktion eher die Aufgabe, Ungenauigkeiten ins Material hereinzubringen, damit es für unsere Ohren authentisch, vertraut und nicht zu langweilig oder glattgebügelt klingt.

Nachfolgend wurde in Beispiel 1 Kevin einfach dupliziert, in Beispiel 2 hat eine der zwei Spuren einen AI Retake bekommen, so dass es besser nach Doubling klingt. Beispiel 3 macht dann einen Chor aus duplizierten Stimmen mit verschobenen Noten und Pan-Settings:

Vocoflex, Alternativen und Sonstiges

Ergänzend dazu lässt sich, wie angedeutet, das Programm Vocoflex von Dreamtonics nutzen, um Stimmen in die Richtung der Charakteristik einer anderen Stimme zu bringen. Das ist sogar live in Echtzeit möglich. Auf diese Weise kann ich auch meinen eigenen Gesang verbessern und/oder Synthesizer V und Vocoflex kombiniert einsetzen. Vocoflex und Synthesizer V lassen sich hierfür auch als Bundle kaufen. Wie funktioniert die kombinierte Anwendung? Die Bearbeitung in Vocoflex erfolgt typischerweise nach bzw. hinter Synthesizer V. So könnte Synthesizer V als Instrument und Vocoflex als Effekt eingebunden werden.

KI-Nutzung erfolgt im kommerziellen Bereich oft eher vorsichtig bis gar nicht, doch ein erfolgreicher Produzent verriet mir zuletzt, dass sich das Einsingen eigener Vocals mit anschließender Verformung zu einer anderen Stimme zur gängigen Praxis etabliert hat. Das geht etwa via lalals.ai und Audimee mit wenigen Klicks. Synthesizer V und Vocoflex sind eine Alternative. In der Praxis hat man evtl. paar befreundete Vocal-Künstler*innen in der Nähe, die das Vorbild singen können. Es werden aber ja immer wieder ganz andere Gesangscharaktere gesucht. Dann hilft es, Stimmmodelle auf Eingesungenes anwenden zu können. Das geht schon in Synthesizer V. Dort gibt es aber nur eine beschränkte Anzahl von Stimmen, die meist noch dazu gekauft werden müssen. Vocoflex erlaubt eine Verfremdung auf Basis eines Vorbilds. In einem XY Koordinatensystem erscheinen Punkte, um Charakteristiken abzubilden. Wie viel mehr Technik genau hinter der relativ einfachen XY Darstellung steckt, darüber lässt sich nur spekulieren. Ganz neu erfunden wird das Rad hier natürlich auch nicht, schließlich gab es auch vorher schon Vocoder oder Harmonizer. Mit ein wenig Geduld kann man hier aber an interessante Ergebnisse kommen und in der Kombination ergänzen sich beide Programme aus meiner Sicht sehr gut.

Im folgenden Beispiel singe ich einmal unsauber und über ein internes Laptopmicro ein, daraus macht Synthesizer V die zwei Fragmente von Kevin und Ritchy – wie schon oben gehört. Diese beiden Fragmente laufen dann beide zuerst durch ein Vocoflex Preset, das aus der ersten, eher schlechten Laptop-Mic-Aufnahme – und danach durch eines, das aus der oben zu hörenden „Originalaufnahme“ mit Headset entstanden ist. Kevin und Ritchy klingen dann also wieder etwas nach mir.

Ein Detail ist mir bei genauerem Hinsehen noch aufgefallen: In Bezug auf Urheberrecht ist zu beachten, dass in der ansonsten benutzerfreundlichen Lizenzvereinbarung mit Dreamtonics noch steht, dass keine Sample CDs mit den Ergebnissen hergestellt werden und Ergebnisse auch nicht zum Füttern anderer KI-Tools verwendet werden sollen, auch wenn ich nicht ganz sicher bin, wie sie das meinen. Letzteres fände ich schade, denn beim Studium all der neuen KI-Tools kommt mir des Öfteren in den Sinn, dass eine übergreifende, kombinierte Nutzung mehrerer KI-Tools mitunter interessante und innovative Möglichkeiten eröffnen würde.

Hier habe ich noch kleine ergänzende Videos begleitend zum Test gemacht (einmal deutsch, einmal englisch):

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden. Mehr Informationen Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren