Made of Plastic - it's fantastic
Mit Vocs AI haben wir einen weiteren Vertreter von Online-Apps im Test, die sich DNN (Deep Neutral Networks) im musikalischen Kontext zu Nutze machen. Die App wendet sich an Musiker und Produzenten, denen gerade die richtigen Vocals fehlen. Mit Vocs AI können Nutzer theoretisch selber singen und die Online-App verwandelt den Gesang dann stimmlich in einen der 24 virtuellen AI-Artists. Es gibt auch Voice-Over-AIs, weitere Modelle sind geplant.
Inhaltsverzeichnis
Vocs AI Installation
Da es sich um eine Online-App handelt, wird lediglich ein aktueller Browser benötigt und eine Registrierung auf der Website von vocs.ai. Alternativ kann auch ein vorhandenes Google-Konto zum Einloggen genutzt werden. Danach wird noch eine Bestätigung über E-Mail benötigt und Vocs AI steht zur Verfügung (natürlich erst nach ein paar obligatorischen Marketingfragen).
Hier ist mir nur aufgefallen, dass ich beim zweiten Einloggen Probleme hatte, den Einlog-Button zu treffen – was nicht an müden Augen lag, sondern einem Problem mit dem Website-Interface. Nach mehreren Versuchen verwandelte sich das Halt-Schild dann aber in den ersehnten Klick-Finger und es konnte losgehen.
Künstliche Intelligenz: Preismodell von Vocs AI
Unnötig zu erwähnen, dass Vocs AI ausschließlich in einem Abo zu erwerben ist. Das hat tatsächlich Vor- und Nachteile. So brauche ich nicht einen hohen Anschaffungspreis zu zahlen, wenn ich den Service nur ein oder zwei Mal nutzen will. Außerdem gibt es hier eine Schnuppermitgliedschaft, bei der die Qualität und Anzahl der Downloads begrenzt sind.
Insgesamt wird wieder auf ein Credit-System gesetzt und ein Credit wird erst dann verbraucht, nachdem eine Konvertierung heruntergeladen wurde. Bevor dieser Vorgang abgeschlossen wird, ist es möglich, das Ergebnis in Ruhe vorzuhören. Meiner Meinung nach eine faire Sache.
Was ich auch fair finde, ist die Tatsache, dass für den Free-Plan keine Angabe von Bezahlmitteln vorgenommen werden muss. Möchte ich allerdings die 7-Tage-Trials der höheren Stufen ausprobieren, kann ich das nur nach Eingabe von Kreditkarten- oder Bankinformationen. Persönlich hätte ich lieber, dass nach der Testzeit das Abo einfach wieder auf den Free-Plan zurückgeschaltet wird und ich erst dann sensible Daten angeben muss, wenn ich wirklich eine Kaufabsicht habe.
Die Pläne von Vocs AI unterscheiden sich im Umfang des Zugriffs auf die AI-Voices. Außerdem gibt es für die Abos eine bessere Klangqualität der Ergebnisse. Ein gewichtiger Unterschied ist dazu die Upload-Größe. Grundsätzlich können WAV- und MP3-Dateien hochgeladen werden. Im Free-Plan ist bei 2 MB Schluss, so dass man hier quasi gezwungen ist, auf MP3 auszuweichen
Ab dem Studio-Plan stehen dazu noch Instrumental-Tracks und Tausende Audio-Loops zur Verfügung, alles Royalty-free. Im Endeffekt ist damit also eine komplette Produktion möglich.
Weiterhin bietet der Business-Plan die Funktion, eigene KI-Stimmen zu trainieren, was vor allem für Podcaster nützlich sein kann, die nicht genug von ihrer eigenen Stimme bekommen können oder mal eine Pause brauchen.
Die künstlichen Stimmen von Vocs AI
Es gibt insgesamt
- 24 Gesangsmodelle,
- 7 Voiceover-Modelle,
- 1 Podcaster-Modell und
- 1 Character-Modell.
Im Free-Plan gibt es Zugang zu zwei Gesangsstimmen und einer Voice-Over Stimme. Die AI-Voices sind dabei mit Genre-Labels versehen (Pop, R&B, EMO, Rapper, HipHop, Rock und Country), um anzuzeigen, für welchen Bereich diese optimiert wurden. Die Ähnlichkeiten zu bestimmten Künstlern des echten Lebens liegen auf der Hand.
Ich weiß nicht, wie es euch geht, aber diese geballte Ladung an AI-generierten „Künstler“-Fotos wirken auf mich unheimlich und schicken mich tief ins Uncanny Valley. Vielleicht ist es das Wissen, dass die ganzen „AI-Künstler“ aus Tausenden Versatzstücken echter Menschen „gefrankensteint“ sind. Vielleicht liegt es aber auch nur an fehlenden Fingern und deformierten Händen.
Meine erste Erkundung bei den Klangbeispielen unter den Stimmen von Vocs AI lässt mich aber etwas verwundert ob der Ähnlichkeit verschiedener Modelle zurück.
Nutzung von Vocs AI
Zum Test habe ich vier verschiedene Gesangslinien von zwei verschiedenen Sängern und zwei verschiedenen Sängerinnen genommen, um sie zu KI-fizieren. In der Seitenleiste, die mit vielen „upcoming“ Features gespickt ist, ist das Interessanteste wohl Text-to-Speech, um in Zukunft von Null aus Vocals aufbauen zu können.
Nun klicke ich auf den „Convert Vocals“-Button. Hier kann ich die Dateien hochladen. Dazu habe ich die Stimmen teilweise ein wenig bearbeitet und die Seite gibt einige gute Ratschläge, wie ein optimales Ergebnis gelingt.
Aufnahmen, die mehrstimmig und mit Hintergrundgeräuschen daherkommen, eignen sich schlecht, da die KI von Vocs AI versucht, alles als Stimme zu interpretieren. Empfohlen wird zudem eine leichte Kompression und EQ-ing sowie eine nicht zu starke Pitch-Correction – es sei denn, das ist der Stil, der gewünscht ist.
Auch De-Essing sollte vorgenommen werden und vor allem die Lautstärke sollte in Ordnung sein, denn es werden sogar genaue Pegel angegeben. Bei meinen Versuchen habe ich aber im Prinzip mit Aufnahmen „Direkt vom Mic“, die lediglich normalisiert waren, schon gute Ergebnisse erzielen können.
Folgende KI-Stimmen stehen im Free-Plan zur Verfügung.
Das Interface ist extrem simpel. Es wird eine Datei hochgeladen, die als Wellenform dargestellt wird. Leider kann ich nach dem Upload nicht mehr den Dateinamen sehen, sondern muss zur Vergewisserung immer die Audiodatei vorhören. Ein Klick auf „Convert“ erzeugt dann in Sekunden das AI-Pendant. Hier nun meine Ergebnisse.
Wie in den Tipps beschrieben, ist das Ergebnis besser, je näher die Ausgangsstimme am Modell von Vocs AI ist. Allerdings versucht die KI auch das Ergebnis an die generelle Stimmqualität anzupassen, gut zu hören bei den beiden Beispielen mit Jemma und Gaby. Beim AI-Artist Joy habe ich kurz gedacht, sie wurde mit der Stimme von Jemma trainiert, da das Ergebnis sehr ähnlich war.
Die Stimme wird zwar im Sinne von Kompression und EQ-ing schön glattgebügelt, erstaunlich finde ich jedoch, wie genau die Nuancen des Originals mit einbezogen werden. Das heißt aber, das Intonationsprobleme (wie in den Beispielen) auch erhalten bleiben. Vocs AI macht also aus einer mäßigen Aufnahme keine Star-Performance.
Apropos trainieren. Wie es scheint, nutzt Vocs AI ausschließlich Trainingsmaterial, für das die Firma auch tatsächliche Sänger bezahlt hat. Das erklärt eventuell auch die Ähnlichkeit verschiedener Modelle, die sich wirklich nur in Nuancen unterscheiden; wenn es nämlich nicht wirklich 24 Sänger gab, sondern einige Sänger einfach mehrere Stile eingesungen haben.
Nichts hindert einen daran, eine weibliche Stimme mit einer männlichen KI-Stimme zu versehen, wobei das andersherum nicht so gute Ergebnisse erzeugt. Bitte beachtet, dass der Free-Plan nur „Good Quality“ ermöglicht. Deswegen klingen die erzeugten Stimmen etwas bröselig.
Die Voiceover-Kls sind eher für gelesene Artikel oder Hörbücher und Videovertonung gedacht. Da mir hier ein Beispiel fehlte, habe ich es einfach frech von einer andern KI erzeugen lassen (www.naturalreaders.com) – O schöne neue Welt, die solche Leute hat!
Gut zu hören, wie das Modell reagiert, wo das Original eine Lautstärkespitze hat. Die Stimme „bricht“ förmlich. Es bleibt insgesamt aber natürlich und hört sich nach einer typischen Laryngalisierung an.
Mal sehen, wie der gute alte Richard, der ja eigentlich auf Voiceover spezialisiert ist, singen kann.
Das funktioniert also auch. Es klingt ein wenig unenthusiastischer, kann aber durchaus seine Einsatzmöglichkeiten finden.
Was ist denn jetzt mal mit einem Drum-Loop und viel Delay? Oder einer Synth-Linie?
Ich bin ehrlich, diese Anwendungsweise finde ich deutlich interessanter als das Konvertieren von Stimmen. Hier ist es einfach spannend zu erkunden, was die KI von Vocs AI als Stimme erkennt und entsprechend in phonetische Äußerungen konvertiert.
Noch wilder wird es mit der Eingabe von dystopischen Klangwelten.
Hier bleibt dann eine mehr oder weniger zufällige Aneinanderreihung von Phonemen übrig, die mit viel Delay und Hall vielleicht als unheimliche Horror-Atmo nutzbar ist.
Aus technischer Sicht absolut faszinierend. Aber … hmm … Augen zu und zuhören … hmm! Die Frage, die sich mir sofort stellt, ist: Warum soll ich »Joy AI« nehmen, wenn ich solche echten Stimmen wir »Jemma« und »Gaby« zur Verfügung habe? »Jensen James AI« entspricht vielleicht dem Massengeschmack … aber, ey … NOCH MEHR gleichförmig klingender Kram (ich kann’s nicht mehr hören)? Auch hier hätte ich die Stimme von »Graham« genommen.
Ich weiß nicht, ich weiß nicht … für mich wird damit noch mehr in der Musik abgetötet, als es bisher schon der Fall war. Und so meine ganz privat persönliche völlig subjektive Meinung (ja, ich weiß, ist nicht ausschlaggebend): Das ist doch alles kein Gesang mehr. Das sind irgend welche hervor gepressten Laute. Morten Harket, Richard Page, Lou Gramm, natürlich Michael Jackson und der unsterbliche ultra-obergeile Freddy Mercury (so mal querbeet aus dem Ärmel geschüttelt) … DAS sind alles Sänger und Gesangskünstler. Aber diese Stimmen aus der KI … ich weiß nicht, ich weiß nicht.
@Flowwater „Aber diese Stimmen aus der KI … ich weiß nicht, ich weiß nicht.“
Doch, du weißt – und du hast Recht! 🙂
@lookandlisten Ich gebe einen winzigen kleinen Einblick, warum ich Gesang geil finde, und warum mich diese KI-Stimmen abtörnen:
Ich bin ein großer großer Fan von »a-ha« und damit nicht nur der Kompositionen, sondern auch der engelsgleichen Stimme von Morten Harket. Als ich die Balladen-Version von »Take On Me« in ihrem MTV-Unplugged-Konzert gehört habe … echt, kein Scheiß … ich hatte Tränen in den Augen. So eine geile gefühlvolle Stimme (und mit der normalen Version kannst Du mich inzwischen jagen).
Ich bin eher weniger Fan zum Beispiel von »Queen«. Aber den Film »Bohemian Rhapsody« habe ich natürlich im Kino und später auf BluRay gesehen (inzwischen ein paar mal). Und dann habe ich mir die Originalszene auf YouTube angesehen, wie Freddy Mercury bei »Life Aid« vor der Menge steht und a cappella »Yeeeehooo« singt (und das Publikum es ihm natürlich nachtut). Alter … ist das geil!
Ich habe Studio-Szene von Michael Jackson gesehen, wie er Nummern einsingt … und wie präzise der war. Ich habe selber wochenlang »Broken Wings« (Mr. Mister) und »Waiting for a girl like you« (Foreigner) einstudiert (ist schon was her) … und ich weiß, wie (sorry) ultra-kack-super-scheißeschwer das ist.
Wenn ein Sänger das kann, das geübt hat, die Stimme hat und performt … das (!) ist (!) geil (!)! Ausrufezeichen(!)!
KI lässt mich völlig kalt.
@Flowwater Super Beispiele – A-ha´s Hunting high and low ist für mich in allen Belangen großes Kino. Für mich der Heilige-Gral-Maßstab ist Yolanda Adams Performance 2002:
https://www.youtube.com/watch?v=TPJ5kqjEQlc
Ab Minute 2:50, wer den Song oder Arrangement nicht erträgt…
Oder Bonos One 2001 Live at Slane Castle…
„Perfection is best, when it is born with those little imperfections“
Vlt. ist unsere Generation auch eine der letzten, die das überhaupt noch hören kann.
Dreamtonics reicht bestenfalls für Scribbles oder TikTok-Reels. DT ist schon besser aber noch weit von durchschnittlich entfernt.
Dieser Moment, wenn du das erste Mal eine Sängerin vor dem Mic hast, die perfekt intoniert, jeden Ton auch über 3 oder 4 Oktaven halten kann. Aber im Real-Life Kunstdesign studiert und damit glücklich ist.
Davon sind zig-tausende da draußen, die Bock drauf haben, Musik zu machen – auch für kleines oder gar kein Geld.
Weil es einfach geil ist, mit Menschen zu arbeiten.
@lookandlisten 💗🙂👍+1
@Flowwater Ich kann mir zumindest ein Szenario vorstellen: Als Inspirationsgenerator für Instrumenaltracks für die ich eine Gesangslinie brauche. Auch wenn das Ergebnis im Besten Fall im Uncanny Valley grast, würde es mir reichen die als Vorlage für einen Auftrag an Sängerinnen.
Aber so etwas gibt es anscheinend noch nicht.
@HOLODECK Sven Das stimmt … da habe ich nicht dran gedacht. Das man quasie als »Nicht-Sänger« der KI den Gesangspart erst einmal vorsingt (zwangsläufig dann mit allen Peinlichkeiten und Schrägen und leider zu Bruch gegangenen Weingläsern usw.), wie man es selber haben wollen würde, die KI macht dann eine Version auf »nicht schräg« draus … und das wiederum gibt man einem echten Gesangskünstler, der sich daran zumindest schon mal ganz gut orientieren kann. Ja, stimmt, das wäre sogar eine echt gute Anwendung! 🙂👍
Also mal ehrlich – an den AI Stimmen ist nichts, aber auch rein gar nichts gut. Wenn ich 10 Person nach meiner Wahl auf der Straße, Kneipe ansprechen darf, finde ich mindestens 2, die auf Anhieb besser klingen als das.
Intonation unterirdisch, Autotune auf Daft Punk Niveau und trotzdem andauernd neben dem Ton.
Selbst wenn ich 1000 EUR im Monat bekäme, würde ich nichts davon unter meinem Namen veröffentlichen, selbst wenn meine Arbeit pro bono wäre.
Alle, die mit Ihrer Gesangsstimme können die nächsten 10 Jahre entspannen. Aktuell wird die AI-Leistung fast monatlich schlechter (was irgendwie auch zu erwarten war).
@lookandlisten Daher gibt es ja Dreamtonics!😇
@lookandlisten Die Sache ist die, dass die hochgeladen Samples genau diese imperfektionen hatten. VocAI übersetzt eben auch die Fehler. VocAi bügelt also nichts automatisch glatt.
Vielen Dank für den interessanten Artikel!
Verstehe ich das richtig: VocAI kann aktuell nur hochgeladene Tracks verarbeiten und Texte nachsprechen? Und nur auf Englisch? Ich kann also nur mit Hilfe einer schon einigermaßen gelungenen Gesangsaufnahme ein verändertes Abbild dieser Aufnahme erhalten? Dann könnte ich so etwas nur zum Generieren von Dub- oder Backing-Vocals gebrauchen.
Nun sind Vocal Stems, die ich mit Software extrahiert habe, immer wieder unsauber, voller Artefakte und wegbrechender Höhen. Würden solche Stems mit VocAI convertiert sauber klingen? Dann gäbe es wenigstens einen guten Anwendungsbereich.
@MartinM. VocAI kann versucht ALLES im hochgeladenen Track als Stimme zu interpretieren. Daher auch das Beispiel 15: Vocs AI – Jensen James AI, Drum Loop. Hier hatte ich einen Drum-Loop hochgeladen.
TLDR; Unsaubere Tracks bleiben unsabauer.
finde ai scheisse.
sorry .
keiner denkt mehr nach.
nur noch Chat gpt für jeden blödsinn..
und Musik auch.
traurig.
@Numitron Naja, wie KI da draußen irgendwen beeinflusst, ist ja erst mal egal. Wichtig ist doch, dass sie dir als Musikschaffendem nichts wegnimmt. Und das macht sie ja auch nicht. Dass durch sie noch mehr Einheitsbrei („Massengeschmack“, wie es Flowwater bereits angesprochen hat) auf den Markt gelangen dürfte, merken wir womöglich nicht mal. Nebenbei: Das sinnstiftende Ziel eines Konsumenten, „echte Musikperlen“ für sich zu entdecken, war schon Dekaden vorher da und fällt durch KI auch nicht plötzlich weg. Für uns Musikerinnen und Musiker ändert sich aber im Schaffensprozess null (außer vielleicht beim Einsatz von gewissen klangformenden Plugins, wobei ich da Stand heute noch eher praktische Hilfsmittel anstatt „Intelligenz“ erkennen kann). Also: Make more music (mit Betonung auf „make“, nicht einfach „more“ 🤗).
@Olaf Strassen hoffentlich!
aber ich denke mir, hier werden auch Arbeitsplätze verschwinden.
@Numitron Recheneinheiten sollten den Menschen nur etwas geben, da stimme ich zu. 😜
So einiges was uns Menschen einfällt, ist schon ziemlich ausfallend! Besonders, wenn sie sich entbehrlich machen. Da hoffe ich auch, dass Mensch im besonderem Maße kreativ bleibt, um den gewünschten Platz durch unsere Individualität besonders zu schützen.😁
Es gibt einiges, was nachträglich reguliert wird, um Menschen motiviert zu lassen… z.B. Bemühungen zur Abrechnung bei Spotify, Apple und Co.😩
Da hilft nur: bleib aktiv und bleib begabt…😅
@Numitron Stimmt, ist leider zu befürchten.
P.S.: Du bist wohl auch ein Nachtmensch, wie? 😄
Danke für den interessanten Einblick! Werde ich definitiv mal testen.
Vielen Dank für den Artikel und die Beispiele. Ich bin sicher es wird KünstlerInnen geben, denen dazu etwas interessantes einfällt. Und wahrscheinlich wird es etwas sein, an das niemand bei der Erstellung dieser Software je gedacht hat. Siehe etwa Jennifer Walshe, die in ihrer „A Late Anthology of Early Music“ mit ihrem eigenen Stimmmodell improvisiert und so interessante hybride Stimmqualitäten findet. Holly Herndon hat mit ihrem Album „Proto“ so etwas auch schon für die Popmusik versucht. Ich bin da optimistisch.
Wer nicht singen kann solls einfach lassen…
Ui, die Soundbeispiele klingen wahrlich „suboptimal“… Wer nutzt sowas freiwillig…