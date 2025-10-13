Audimee - Vocals mit KI produzieren

Audimee ist eine neue Plattform, die verspricht, Vocals und mehr mit Hilfe künstlicher Intelligenz erzeugen zu können. Was das genau bedeutet, schauen wir uns hier im Test an. Viel Spaß bei unserem Test von Audimee, Vocals mit KI produzieren.

Kurz & knapp Vielseitige Funktionen : Audimee bietet Vocal-Konvertierung, Harmonisierung, Pitch-Editing und sogar Instrumenten-Modelle.

: Audimee bietet Vocal-Konvertierung, Harmonisierung, Pitch-Editing und sogar Instrumenten-Modelle. Große Auswahl : Über 160 Voice Models stehen bereit, alle royalty-free und genrebasiert.

: Über stehen bereit, alle und genrebasiert. Gute Klangqualität : Die Ergebnisse klingen meist überzeugend, besonders bei gutem Ausgangsmaterial.

: Die Ergebnisse klingen meist überzeugend, besonders bei gutem Ausgangsmaterial. Einsteigerfreundlich : Übersichtliche Oberfläche mit Einführungsvideos und hilfreichen Presets.

: Übersichtliche Oberfläche mit Einführungsvideos und hilfreichen Presets. Nur eingeschränkt kostenlos: Die Free-Version bietet weniger Voices, keine kommerzielle Nutzung und begrenzte Features.

Einführung: Vocals ersetzen und Audimee

Vor über einem Jahr begegnete ich einem (Werbe-) Musikproduzenten, der mir erstmals von seiner erfolgreichen Musikproduktions-Praxis im Umgang mit KI und Vocals berichtete. Er nimmt Vocals mit einer festen Kooperationspartnerin auf, wandelt diese dann oft auf einer KI-Plattform in eine andere Gesangsstimme mit einer vom Kunden gewünschten Vocalist-Ästhetik um. Für derlei Operationen wurde ich zuletzt oft mit Videos über die Audimee-Plattform konfrontiert, die ich hier nun teste.

Was kann man mit Audimee machen?

Im zentralen „Convert Vocals“-Bereich, den man nach Klick auf „Convert“ rechts oben findet, geht es darum, bereits bereitstehende Audimee Voice-Models (royalty-free) zu verwenden, um Gesang von einer anderen Stimme singen zu lassen. Außerdem lassen sich Vocals unter „Isolate Vocals“ aus Aufnahmen freistellen. Der Bereich „Make Harmonies“ erlaubt zudem das Harmonisieren einer Aufnahme.

Es ist auch möglich, unter „Mixed voices“ eigene Voice-Modelle aus zwei gemischten Modellen oder unter „My voices“-Modelle aus selbst aufgenommenen Stimmen zu erzeugen (siehe unten).

Überraschenderweise wird dabei auch vorgeschlagen, Models anderer Instrumente, z. B. Gitarre oder Percussions, zu generieren. Schließlich bietet Audimee auch noch Optionen bzw. dedizierte Bereiche zum Harmonisieren von Stimmen.

Die Website ist weitgehend übersichtlich und praxisnah aufgebaut, auf allen genannten Seiten findet man jeweils ein Einführungsvideo.

Die Stimmen von Audimee kann man auch ohne vorherigen Upload in einem passenden musikalischen Kontext Probe hören. Sie entsprechen meist eher einem Genre als einer Person. Die Auswahl unter „Select Voice“ ist groß, ich habe über 160 Voice Models gezählt. Die Stimmen sind allesamt royalty-free.

Ergebnisse sind laut Audimee kommerziell nutzbar. Das gilt auch dann, wenn man später auf die nicht-kommerzielle Variante wechselt. Darauf weist die Audimee-Website hin und man muss keinen Namen von Audimee angeben bzw. kann beliebige Aliase verwenden (Stand zum Zeitpunkt meiner Recherche, ohne Gewähr, Link hier).

Zusätzlich gibt es in der Sektion „Instruments“ auch 15 Modelle von Instrumenten, z. B. Duduk, Trombone, Saxophone, Electric Guitar, Trumpet, Cello, Dance Strings, Violin, Acoustic Guitar und mehr.

Im Free-Modell von Audimee stehen nicht alle, sondern nur einige royalty-free Voices und monatliche Konvertierungsminuten zur Verfügung. Man kann auf den Pitch Editor, 15 Instrumente, Vocal Isolator und MP3-Downloads zurückgreifen. Die kommerzielle Nutzung ist hier nicht erlaubt.

Die Starter- und Pro-Versionen beinhalten mehr Konvertierungen, Custom Voice Model Slot(s) und alle royalty-free Voices. Downloads erfolgen nun in 24 Bit, Konvertierungen lassen sich speichern und der Harmony Maker kommt noch obendrauf. Mit diesem lassen sich aus Audioaufnahmen leicht mehrstimmige Vocal-Ensembles generieren. Die Details sind freilich immer wieder Änderungen unterworfen, den Link zur entsprechenden Seite findet ihr hier:

Praxis: Vocals mit neuer Audimee-Stimme singen lassen

Es gibt eine „Create Vocals“-Page, der der zentrale Punkt der Audimee-Website ist. Oben rechts kann man sich aussuchen, welches Stimmmodell man für neue Vocals nutzen möchte. Auf der linken Seite lassen sich in einem Input-Bereich eigene Gesangsaufnahmen hochladen, z. B. via Drag & Drop. Es ist auch möglich, über den Browser direkt Vocals aufzunehmen. Wichtig ist, dass die Aufnahme ohne Effekte und in Mono vorliegt.

Settings vor der Konvertierung

Bevor man die Aufnahme in eine der Voices konvertiert, muss man einige Einstellungen beachten, z. B Pitch Shift/Tonhöhenveränderung. Dies ist eventuell notwendig, wenn männlicher Gesang in eine weibliche Stimme umgewandelt werden soll. Es wird z. B. in einem Einführungsvideo vorgeschlagen, eine Transposition von zwölf Halbtönen einzustellen, wenn eine männliche Stimme in eine weibliche umgewandelt wird. Dieser Tipp ist freilich zu allgemein. Wie gut es klingt und was eingestellt werden muss, hängt natürlich davon ab, wie die jeweilige Quell- und Zielstimme klingen, wie hoch sie liegen usw.

Für Audimee Zielstimmen wird ein optimaler Tonhöhenbereich angegeben, etwa A#2 – F4 für die tiefere männliche Stimme Clifton.

Eine zweite Einstellung nennt sich „Conversion Strength“. Hier geht es darum, wie viel von der Charakteristik und Artikulation des Originalmaterials von der neuen Stimme übernommen wird. Dabei gibt es eine Warnung, dass es bei hohen Werten evtl. mehr Artefakte gibt und niedrigere Werte insbesondere dann beibehalten werden sollen, wenn das Original nicht in englischer Sprache vorliegt. In der Praxis überzeugten mich meist, aber nicht immer, die Ergebnisse niedrigerer Einstellungen.

Schließlich gibt es als dritte Einstellmöglichkeit noch eine „Isolate Main Vocals“-Funktion, mit der man die Vocals freistellen kann, falls Hintergrundgeräusche oder andere Instrumente zu hören sind. Das entspricht auch der „Isolate Vocals“ Page. Die Ergebnisse klangen im Test recht gut, Artefakte auf der Stimme hielten sich in Grenzen, ab und zu war noch etwas vom Rest zu hören.

Nun lässt sich eine Stimme auswählen. Auch wenn meine erste Suche nach der Kategorie „Reggae“ in den Tags nicht von Erfolg gekrönt war, fand ich immerhin 39 Voices mit den Tags Hip Hop und Afrobeat. Mit „Clifton“ ist dann doch auch ein Sänger dabei, der auch mit „Reggae“ getaggt ist.

Es gibt in einem Bereich „Edit Pitch“ die Möglichkeit, Tonhöhen zu korrigieren. Dieser ist nur sichtbar, wenn nicht mehr als eine Audiodatei hochgeladen wurde. Hier gibt es sowohl eine Option Quick-Tuning für schnelle Korrekturen als auch einen detaillierteren Pitch-Editor.

Die Bedienung von letzterem ähnelt Melodyne. Beide Tools scheinen auch kombiniert zu funktionieren, denn im Editor kann man die Noten schnell auf eine eingestellte Tonart bringen. Ein Doppelklick auf eine Taste der Pianorolle bewirkt optional ein Einrasten auf einer einzigen Tonhöhe, was beim Harmonisieren hilft. Die Ergebnisse erklangen im Test stets schon mit der zuvor ausgewählten Voice-Model Stimme. Alternativ kann man selbst bei Bedarf eine Korrektur vorab in Melodyne vornehmen.

Nach der Konvertierung

Ein Klick auf Convert erzeugt eine neue Datei, das dauert nur ein paar Sekunden. Nach der Konvertierung findet man ein neues Audio-File in der Output-Sektion. Das Datum, die Uhrzeit, der Name der ausgewählten Stimme und gemachte Einstellungen lassen sich auch später noch ablesen.

Die letzten 15 Konvertierungen bleiben in der History gespeichert. Man kann jede aber auch sofort herunterladen, erhält dabei in allen kostenpflichtigen Abos eine WAV-Datei in 24-Bit-Auflösung und in der kostenlosen Version immerhin noch ein MP3-File. Zusätzlich lassen sich Resultate, mit einem Herzchen markiert, in einer Library speichern.

Will man andere Einstellungen ausprobieren, drückt man nach Änderungen erneut auf Convert. So kann man bequem weitere Varianten ausprobieren. Die zuvor hochgeladene(n) Audio-Dateie(n) bleiben erst mal verfügbar, sind es mehrere, dann werden via Convert stets gleich mehrere neue Dateien erstellt.

Der Charakter des Originals ist wichtig

Natürlich werden die Ergebnisse umso besser, je höherwertig die zuvor hochgeladenen Aufnahme ist. Deren Charakter schlägt hier stark auf das Ergebnis durch. An dieser Stelle möchte ich anmerken: Die vielleicht etwas banalen, aber hoffentlich gut nachvollziehbaren Klangergebnisse hier müssen mit Material auskommen, das frei von Ansprüchen Dritter ist und außerhalb dieses Tests nicht mehr verwendet wird. Dabei habe ich sowohl deutsche als auch englische Aufnahmen vertont. Dass der Charakter beibehalten wird, bedeutet angenehmerweise, dass es auch gut möglich ist, deutsche Vorlagen zu nutzen! Tonhöhenkorrektur habe ich hier nicht vorgenommen. Weitere Klangbeispiele sind unten im Video zu finden.

Mixed Voices, Custom Voice Models und Instruments erzeugen

Mixed Voices erlauben das Erstellen eines neuen Voice-Models als Mix aus zwei bis vier anderen Modellen. Diese Option steht sogar in der Free Version dreimal bereit. Kein Mensch kann alle möglicherweise doch referenzierten Sänger und Sängerinnen kennen und mit einem Mixed Model bewegt man sich vielleicht auf sichererem Terrain.

Custom-Voice-Models, also selbst erstellte Voice-Model-Stimmen, gibt es nur in den kostenpflichtigen Versionen. Zum Erstellen öffnen wir den Bereich My Voices. Zu sehen ist ein Hinweis, dass man ein eigenes Voice-Model mit ca. 10-20 Minuten an Aufnahmen erzeugen kann. Es gibt einen Voice-Creation-Guide für weitere Details. Das Material soll möglichst vielseitig sein und das Spektrum der Stimme abbilden.

Es wird vorgeschlagen, hochgeladene Dateien etwas zu optimieren. So sollen Nebengeräusche entfernt werden und kleine EQ-Verbesserungen oder Pitch-Korrekturen sind gewünscht. Das gilt auch für De-Essing und leichte Kompression.

Man kann aber auch Modelle von Instrumenten erschaffen, z. B. Percussion-Instrumente. Auch dann sollen analog dazu möglichst viele verschiedene Spielweisen oder Variationen der zu modellierenden Quelle hochgeladen werden. Die Dateien müssen ebenfalls als Mono 16-Bit-WAV hochgeladen werden. Danach dauert es etwa 30 Minuten, bis das Modell zur Verfügung steht. Alternativ greift man auf bestehende Instrumente zurück, die im folgenden Beispiel aus einer einfachen E-Piano Einspielung entstanden. Hier konkurriert Audimee in der Praxis mit einer Sample-Library, allerdings muss man rendern.

Isolate Vocals und Harmonies

Zudem gibt es (das ist heute schon fast Standard) Optionen, um Vocals von Hintergrundmaterial zu isolieren oder Harmonien zu generieren.

Spezieller ist folgendes Feature: In der Harmonies-Sektion können wir bis zu fünf Harmonien generieren. Hier findet man auch bereits Presets wie z.B. „Dreamy-Indie-Stack“ oder „Warm Afrobeat Layers“.

Interessant ist, dass jede Stimme von einem eigenen Sänger oder einer Sängerin bzw. Voice-Model generiert werden kann. Manchmal ist es sinnvoll, das Ausgangsmaterial vorher zu glätten. Mit dem Editor oder im Drone-Mode kann z. B. alles auf eine Note gelegt werden, um leichter gut klingende mehrstimmige Akkorde hinzubekommen.

Audimee: Konkurrenz

Einem ähnlichen Zweck kann auch die Dreamtonics Synthesizer V Software dienen, die ich hier und hier getestet habe. In Dreamtonics Synthesizer V ist die Auswahl der Voice-Modelle kleiner, dafür kann man Gesungenes manchmal besser editieren oder erstellen bzw. gar einfach auf der Basis von eingetipptem Text singen lassen. In der Praxis kann ein kombinierter Einsatz mehrerer Tools sinnvoll sein – z. B. Synthesizer V und Audimee zusammen.

Lalal.ai bietet Minutenpakete und Voice-Models ohne Abo an. Die Stärke scheint hier besonders beim Erstellen eigener Voice-Models zu liegen. Vocal-Isolation und Stem-Separation gibt es ebenfalls, allerdings fand ich auf Anhieb nicht so viele Justageoptionen wie bei Audimee.

Die Audimee Klangqualität fand ich im Großen und Ganzen gut. Es gibt auch noch eine Enterprise-Version mit angeblich besserem Sound, die man anfragen kann.

Hier noch ein begleitendes Video mit weiteren Klangbeispielen: