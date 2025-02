Made of Plastic - it's fantastic

Mit Vocs AI haben wir einen weiteren Vertreter von Online-Apps im Test, die sich DNN (Deep Neutral Networks) im musikalischen Kontext zu Nutze machen. Die App wendet sich an Musiker und Produzenten, denen gerade die richtigen Vocals fehlen. Mit Vocs AI können Nutzer theoretisch selber singen und die Online-App verwandelt den Gesang dann stimmlich in einen der 24 virtuellen AI-Artists. Es gibt auch Voice-Over-AIs, weitere Modelle sind geplant.

ANZEIGE

Vocs AI Installation

Da es sich um eine Online-App handelt, wird lediglich ein aktueller Browser benötigt und eine Registrierung auf der Website von vocs.ai. Alternativ kann auch ein vorhandenes Google-Konto zum Einloggen genutzt werden. Danach wird noch eine Bestätigung über E-Mail benötigt und Vocs AI steht zur Verfügung (natürlich erst nach ein paar obligatorischen Marketingfragen).

Hier ist mir nur aufgefallen, dass ich beim zweiten Einloggen Probleme hatte, den Einlog-Button zu treffen – was nicht an müden Augen lag, sondern einem Problem mit dem Website-Interface. Nach mehreren Versuchen verwandelte sich das Halt-Schild dann aber in den ersehnten Klick-Finger und es konnte losgehen.

Künstliche Intelligenz: Preismodell von Vocs AI

Unnötig zu erwähnen, dass Vocs AI ausschließlich in einem Abo zu erwerben ist. Das hat tatsächlich Vor- und Nachteile. So brauche ich nicht einen hohen Anschaffungspreis zu zahlen, wenn ich den Service nur ein oder zwei Mal nutzen will. Außerdem gibt es hier eine Schnuppermitgliedschaft, bei der die Qualität und Anzahl der Downloads begrenzt sind.

Insgesamt wird wieder auf ein Credit-System gesetzt und ein Credit wird erst dann verbraucht, nachdem eine Konvertierung heruntergeladen wurde. Bevor dieser Vorgang abgeschlossen wird, ist es möglich, das Ergebnis in Ruhe vorzuhören. Meiner Meinung nach eine faire Sache.

Was ich auch fair finde, ist die Tatsache, dass für den Free-Plan keine Angabe von Bezahlmitteln vorgenommen werden muss. Möchte ich allerdings die 7-Tage-Trials der höheren Stufen ausprobieren, kann ich das nur nach Eingabe von Kreditkarten- oder Bankinformationen. Persönlich hätte ich lieber, dass nach der Testzeit das Abo einfach wieder auf den Free-Plan zurückgeschaltet wird und ich erst dann sensible Daten angeben muss, wenn ich wirklich eine Kaufabsicht habe.

Die Pläne von Vocs AI unterscheiden sich im Umfang des Zugriffs auf die AI-Voices. Außerdem gibt es für die Abos eine bessere Klangqualität der Ergebnisse. Ein gewichtiger Unterschied ist dazu die Upload-Größe. Grundsätzlich können WAV- und MP3-Dateien hochgeladen werden. Im Free-Plan ist bei 2 MB Schluss, so dass man hier quasi gezwungen ist, auf MP3 auszuweichen

ANZEIGE

Ab dem Studio-Plan stehen dazu noch Instrumental-Tracks und Tausende Audio-Loops zur Verfügung, alles Royalty-free. Im Endeffekt ist damit also eine komplette Produktion möglich.

Weiterhin bietet der Business-Plan die Funktion, eigene KI-Stimmen zu trainieren, was vor allem für Podcaster nützlich sein kann, die nicht genug von ihrer eigenen Stimme bekommen können oder mal eine Pause brauchen.

Die künstlichen Stimmen von Vocs AI

Es gibt insgesamt

24 Gesangsmodelle,

7 Voiceover-Modelle,

1 Podcaster-Modell und

1 Character-Modell.

Im Free-Plan gibt es Zugang zu zwei Gesangsstimmen und einer Voice-Over Stimme. Die AI-Voices sind dabei mit Genre-Labels versehen (Pop, R&B, EMO, Rapper, HipHop, Rock und Country), um anzuzeigen, für welchen Bereich diese optimiert wurden. Die Ähnlichkeiten zu bestimmten Künstlern des echten Lebens liegen auf der Hand.

Ich weiß nicht, wie es euch geht, aber diese geballte Ladung an AI-generierten „Künstler“-Fotos wirken auf mich unheimlich und schicken mich tief ins Uncanny Valley. Vielleicht ist es das Wissen, dass die ganzen „AI-Künstler“ aus Tausenden Versatzstücken echter Menschen „gefrankensteint“ sind. Vielleicht liegt es aber auch nur an fehlenden Fingern und deformierten Händen.

Meine erste Erkundung bei den Klangbeispielen unter den Stimmen von Vocs AI lässt mich aber etwas verwundert ob der Ähnlichkeit verschiedener Modelle zurück.

Nutzung von Vocs AI

Zum Test habe ich vier verschiedene Gesangslinien von zwei verschiedenen Sängern und zwei verschiedenen Sängerinnen genommen, um sie zu KI-fizieren. In der Seitenleiste, die mit vielen „upcoming“ Features gespickt ist, ist das Interessanteste wohl Text-to-Speech, um in Zukunft von Null aus Vocals aufbauen zu können.

Nun klicke ich auf den „Convert Vocals“-Button. Hier kann ich die Dateien hochladen. Dazu habe ich die Stimmen teilweise ein wenig bearbeitet und die Seite gibt einige gute Ratschläge, wie ein optimales Ergebnis gelingt.

Aufnahmen, die mehrstimmig und mit Hintergrundgeräuschen daherkommen, eignen sich schlecht, da die KI von Vocs AI versucht, alles als Stimme zu interpretieren. Empfohlen wird zudem eine leichte Kompression und EQ-ing sowie eine nicht zu starke Pitch-Correction – es sei denn, das ist der Stil, der gewünscht ist.

Auch De-Essing sollte vorgenommen werden und vor allem die Lautstärke sollte in Ordnung sein, denn es werden sogar genaue Pegel angegeben. Bei meinen Versuchen habe ich aber im Prinzip mit Aufnahmen „Direkt vom Mic“, die lediglich normalisiert waren, schon gute Ergebnisse erzielen können.

Folgende KI-Stimmen stehen im Free-Plan zur Verfügung.

Das Interface ist extrem simpel. Es wird eine Datei hochgeladen, die als Wellenform dargestellt wird. Leider kann ich nach dem Upload nicht mehr den Dateinamen sehen, sondern muss zur Vergewisserung immer die Audiodatei vorhören. Ein Klick auf „Convert“ erzeugt dann in Sekunden das AI-Pendant. Hier nun meine Ergebnisse.

Wie in den Tipps beschrieben, ist das Ergebnis besser, je näher die Ausgangsstimme am Modell von Vocs AI ist. Allerdings versucht die KI auch das Ergebnis an die generelle Stimmqualität anzupassen, gut zu hören bei den beiden Beispielen mit Jemma und Gaby. Beim AI-Artist Joy habe ich kurz gedacht, sie wurde mit der Stimme von Jemma trainiert, da das Ergebnis sehr ähnlich war.

Die Stimme wird zwar im Sinne von Kompression und EQ-ing schön glattgebügelt, erstaunlich finde ich jedoch, wie genau die Nuancen des Originals mit einbezogen werden. Das heißt aber, das Intonationsprobleme (wie in den Beispielen) auch erhalten bleiben. Vocs AI macht also aus einer mäßigen Aufnahme keine Star-Performance.

Apropos trainieren. Wie es scheint, nutzt Vocs AI ausschließlich Trainingsmaterial, für das die Firma auch tatsächliche Sänger bezahlt hat. Das erklärt eventuell auch die Ähnlichkeit verschiedener Modelle, die sich wirklich nur in Nuancen unterscheiden; wenn es nämlich nicht wirklich 24 Sänger gab, sondern einige Sänger einfach mehrere Stile eingesungen haben.

Nichts hindert einen daran, eine weibliche Stimme mit einer männlichen KI-Stimme zu versehen, wobei das andersherum nicht so gute Ergebnisse erzeugt. Bitte beachtet, dass der Free-Plan nur „Good Quality“ ermöglicht. Deswegen klingen die erzeugten Stimmen etwas bröselig.

Die Voiceover-Kls sind eher für gelesene Artikel oder Hörbücher und Videovertonung gedacht. Da mir hier ein Beispiel fehlte, habe ich es einfach frech von einer andern KI erzeugen lassen (www.naturalreaders.com) – O schöne neue Welt, die solche Leute hat!

Gut zu hören, wie das Modell reagiert, wo das Original eine Lautstärkespitze hat. Die Stimme „bricht“ förmlich. Es bleibt insgesamt aber natürlich und hört sich nach einer typischen Laryngalisierung an.

Mal sehen, wie der gute alte Richard, der ja eigentlich auf Voiceover spezialisiert ist, singen kann.

Das funktioniert also auch. Es klingt ein wenig unenthusiastischer, kann aber durchaus seine Einsatzmöglichkeiten finden.

Was ist denn jetzt mal mit einem Drum-Loop und viel Delay? Oder einer Synth-Linie?

Ich bin ehrlich, diese Anwendungsweise finde ich deutlich interessanter als das Konvertieren von Stimmen. Hier ist es einfach spannend zu erkunden, was die KI von Vocs AI als Stimme erkennt und entsprechend in phonetische Äußerungen konvertiert.

Noch wilder wird es mit der Eingabe von dystopischen Klangwelten.

Hier bleibt dann eine mehr oder weniger zufällige Aneinanderreihung von Phonemen übrig, die mit viel Delay und Hall vielleicht als unheimliche Horror-Atmo nutzbar ist.