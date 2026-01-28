Apples Sprachsynthese kreativ erschlossen

Mit dem Cem Olcay Speaking Of Witch Sprachsynthesizer haben wir dieses Mal einen Exoten unter den iOS Apps unter die Lupe genommen, der darüber hinaus auch auf aktueller Mac-Hardware lauffähig ist. Was leistet der günstige Sprachsynthesizer?

Kurz & knapp Was ist es? Cem Olcay Speaking of Witch ist eine Sprachsynthese-App für iOS und macOS, die den systeminternen AVSpeechSynthesizer musikalisch nutzbar macht. Kreatives Tool: Sprachphrasen lassen sich direkt eintippen, synthetisieren und musikalisch einsetzen – ganz ohne KI.

Sprachphrasen lassen sich direkt eintippen, synthetisieren und musikalisch einsetzen – ganz ohne KI. Leicht zugänglich: Nutzt Apples AVSpeechSynthesizer mit vielen Stimmen und Sprachen inklusive Feineinstellungen.

Nutzt Apples AVSpeechSynthesizer mit vielen Stimmen und Sprachen inklusive Feineinstellungen. Stärken & Schwächen: MIDI-fähig mit Multi-Out, aber ohne Sample-Export, Kopierfunktion oder Phrasenbibliothek.

MIDI-fähig mit Multi-Out, aber ohne Sample-Export, Kopierfunktion oder Phrasenbibliothek. Günstiger Spaß: Für 6,99 Euro bietet die App einen charmanten Einstieg in kreative Sprachspielereien.

Cem Olcay Speaking of Witch Sprachsynthesizer

Cem Olcay Speaking of Witch ist ein Sprachsynthesizer, der die Apple-Sprachsynthese nutzt, um Sprachphrasen auf musikalische Weise einzusetzen. Außerdem gibt es 1000 Stilpunkte für den Namen. Die App ist als Universalkauf für iOS und macOS zum Preis von 6,99 Euro im Apple App Store erhältlich und steht sowohl als Standalone-Version als auch als AUv3 zur Verfügung. Es sei darauf hingewiesen, dass derzeit nur eine Handvoll Hosts auf dem Mac AUv3-Plug-ins unterstützt.

Apropos

Noch ein kurzer Ausflug zur Begrifflichkeit: „Witch/Hexe“ ist ein Begriff, der jahrhundertelang zur Diffamierung (und Schlimmerem) von Frauen verwendet wurde. Erst in jüngerer Zeit haben feministische und spirituelle Bewegungen begonnen, den Begriff wieder positiv zu besetzen. Auch die Rollenspielszene dürfte erheblich dazu beigetragen haben, dass „Hexe“ heute wieder vor allem als weibliches Pendant zu „Magier“ bzw. im Sinne von „Eingeweihte(r)/Weise(r)“ verstanden wird. Ob gut oder schlecht, hängt dabei von der jeweiligen Person ab – wie bei Köchen.

Um wieder auf den Punkt zu kommen: Cem Olcay Speaking of Witch dürfte dazu beitragen, diese positive Konnotation weiterzutragen – auch wenn hier lediglich ein Wortspiel mit „which“ zugrunde liegt („speaking of which“ = „da wir gerade davon sprechen“/„apropos“). Die Idee hinter der App ist so simpel wie genial und es wundert, dass darauf nicht schon früher jemand gekommen ist. Aber das ist wahrscheinlich wieder so eine Sache, die einem wie die Warze auf der Nase sitzt.

Während IK Multimedia ReSing mit komplexen, rechenintensiven KI-Modellen klotzt (die ausnahmsweise nicht nur lokal, sondern auch ethisch sind), bedient sich Speaking of Witch der Apple-Systemfunktion AVSpeechSynthesizer. Diese ist in macOS und iOS als Bedienungshilfe integriert, wird aber von den meisten kaum genutzt. Oft übersehen wird dabei auch, dass diese Funktion über diverse Feineinstellungen verfügt – die jedoch in den regulären Text-zu-Sprache-Funktionen nur sehr umständlich zugänglich sind, von einer möglichen Live-Anwendung ganz zu schweigen.

Ich will Speaking of Witch nicht als Ersatz für ReSing anpreisen, das wäre dann doch stark übertrieben, aber die App haucht der Apple-Sprachsynthese neues Leben jenseits der Bedienhilfe ein.

Aufbau

Ganz im MPC-Stil stehen 16 Pads zur Verfügung, die mit Sprachsamples bestückt werden können. Der Text wird einfach im Prompt eingegeben und das Stimmenmodell ausgewählt – inklusive praktischer Suchfunktion und Favoriten-Tagging. Die Phrase wird anschließend augenblicklich synthetisiert.

Da es sich um eine Systemfunktion handelt, stehen sämtliche Apple-Stimmenmodelle zur Verfügung. Laut Internet sind das 55 Sprachen – von Australisch über Japanisch bis Taiwanesisch – plus verschiedene Stimmenvarianten.

Dabei ist zu beachten, dass die Stimmen in unterschiedlichen Qualitätsstufen vorliegen, die zunächst heruntergeladen werden müssen. Pro Enhanced- oder Premium-Stimme können das locker 400 MB sein – da kommen schnell einige Gigabyte zusammen. Auf iOS werden die Stimmen unter Einstellungen → Bedienungshilfen → Gesprochene Inhalte → Stimmen verwaltet.

Allerdings gibt es bislang noch eine Einschränkung in der App: Die Premium- und Enhanced-Versionen laufen derzeit (Stand: Version 1.4) nicht in der AUv3-Instanz. Die Pads bleiben einfach leer – nur die Standardversionen werden gerendert.

Es wird empfohlen, pro Pad nur etwa 1 bis 20 Wörter zu verwenden. Für musikalische Zwecke ergibt jedoch mehr als zwei Wörter pro Pad ohnehin wenig Sinn, da dies z. B. die Synchronisation zu einem Rhythmus deutlich erschwert. Wer es ganz genau nehmen will, dem sei sogar das Herunterbrechen auf Silben empfohlen.

MIDI

Mit nur 16 Pads lassen sich allerdings kaum ausführliche Lyrics umsetzen – es sei denn, man hält es wie Iggy Pop (seine Devise: maximal 20 Wörter pro Song) oder nutzt mehrere Instanzen.

Genau das ist auch die Intention der App, denn jedes Pad liegt auf einem eigenen MIDI-Kanal. Cem Olcay Speaking of Witch verfügt über virtuelle MIDI-Ports, d. h. jede AUv3-Instanz wird über ihren eigenen MIDI-Port angesteuert. In diesem Modus kann außerdem jedes Pad tonal über die gesamte MIDI-Klaviatur gespielt werden.

Es gibt aber auch einen Modus für den Betrieb mit nur einem MIDI-Kanal. In diesem Fall liegen die 16 Pads auf den Tasten ab MIDI-Note 60 (C2) aufwärts und können daher nicht mehr tonal gespielt werden.

Jedes Pad verfügt zudem über neun Parameter, die per MIDI moduliert werden können:

Sprachgeschwindigkeit, Tonhöhe, Panorama, Aufholverstärkung, MIDI-Kanal, Audiobus, Pad-Farbe, Abspielmodus sowie Sample-Start- und -Stopposition.

Die Modulation des MIDI-Kanals bezieht sich ausschließlich auf das Ansprechen der Pads, nicht jedoch auf deren Parameter. Diese lassen sich über einen fest einzustellenden Kanal steuern.

Der Gedanke dahinter ist, zwischen Phrasen wechseln und beispielsweise die Notenfolge eines anderen Pads kurzzeitig übernehmen zu können.

Da Cem Olcay Speaking of Witch ein Multi-Audio-Out-AUv3 ist, bietet es acht Audioausgangsbusse. Diese können in der Host-Software auf verschiedene Kanäle geroutet werden, um dort z. B. mit unterschiedlichen Effekten versehen zu werden.

Beispielsweise lässt sich Pad 3 kurzfristig auf Bus 5 mit einem Delay legen und danach auf Bus 8 mit einem kräftigen Verzerrer weiterverarbeiten – kein Problem. Die Audiobusse sind dabei unabhängig von den zugewiesenen MIDI-Kanälen.

Pitch & Amp-Hüllkurven

Tonhöhen- und Lautstärkehüllkurven können nicht moduliert werden, denn sie bieten Multi-Breakpoint-Hüllkurven mit beliebig vielen Hüllkurvenpunkten. Neben dem Speed-Parameter sind dies die wichtigsten Einstellungen für Klang und Ausdrucksvarianz der Sprachsynthese.

Wird z. B. die Tonhöhe am Ende einer Phrase angehoben, entsteht der Eindruck einer Frage. Wenn hingegen die Lautstärke am Ende nicht abnimmt, wirkt die Sprache aggressiver – und so weiter.

Leider gibt es keine separaten Pad-Presets: Es kann jeweils nur der gesamte Patch gespeichert werden. Gerade weil man in einen Sprachschnipsel recht viel Arbeit investieren kann, wäre eine Phrasen-Bibliothek wünschenswert. Aktuell können nicht einmal Pads intern kopiert werden, um z. B. eine Variation einer Phrase zu erstellen – man muss stets von vorne beginnen.

Leider bietet die App keinen eigenen Sample-Export – die Phrasen werden jedes Mal neu synthetisiert.

Dafür gibt es in den Einstellungen zur Stimmauswahl eine praktische Option, mit der sich alle Pads mit der aktuell ausgewählten Stimme resynthetisieren lassen. So lässt sich ein komplettes Set leicht austauschen.

Ob dies letztlich einfacher ist, als Phrasen selbst aufzunehmen und anschließend z. B. mit Melodyne zu bearbeiten, ist Geschmackssache. Speaking of Witch hat aber definitiv den Vorteil schneller nachträglicher Anpassungen – insbesondere, wenn man eine komplette Phrase ersetzen möchte. Eintippen geht eben immer noch schneller als neu aufnehmen.

Die Apple-Sprachsynthese hat natürlich gewisse Grenzen: So können beispielsweise keine Vokale gehalten werden und eine Tonhöhenveränderung von mehr als einer Oktave nach oben oder unten klingt kaum noch realistisch. Dennoch eröffnet sich gerade für Phrasen, Hooks und Adlibs ein weites Einsatzfeld.

Der Browser entspricht der Standardversion, wie sie in allen Cem-Olcay-Apps zu finden ist. Da hier keine großen Datenmengen anfallen, funktioniert auch die automatische Synchronisation der Presets zwischen Apple-Geräten erfreulich schnell.

Klangbeispiele: Die Phrasen sind unbearbeitet und nicht geschnitten. Es wurden lediglich Hall und Delay hinzugefügt, Peak bei -6 dBFS.