Apples Sprachsynthese kreativ erschlossen
Mit dem Cem Olcay Speaking Of Witch Sprachsynthesizer haben wir dieses Mal einen Exoten unter den iOS Apps unter die Lupe genommen, der darüber hinaus auch auf M-Serie Macs lauffähig ist. Was leistet der günstige Sprachsynthesizer?
- Kreatives Tool: Sprachphrasen lassen sich direkt eintippen, synthetisieren und musikalisch einsetzen – ganz ohne KI.
- Leicht zugänglich: Nutzt Apples AVSpeechSynthesizer mit vielen Stimmen und Sprachen inklusive Feineinstellungen.
- Stärken & Schwächen: MIDI-fähig mit Multi-Out, aber ohne Sample-Export, Kopierfunktion oder Phrasenbibliothek.
- Günstiger Spaß: Für 6,99 Euro bietet die App einen charmanten Einstieg in kreative Sprachspielereien.
Inhaltsverzeichnis
Cem Olcay Speaking of Witch Sprachsynthesizer
Cem Olcay Speaking of Witch ist ein Sprachsynthesizer, der die Apple-Sprachsynthese nutzt, um Sprachphrasen auf musikalische Weise einzusetzen. Außerdem gibt es 1000 Stilpunkte für den Namen. Die App ist als Universalkauf für iOS und macOS (M-Serie) zum Preis von 6,99 Euro im Apple App Store erhältlich und steht sowohl als Standalone-Version als auch als AUv3 zur Verfügung. Es sei darauf hingewiesen, dass derzeit nur eine Handvoll Hosts auf dem Mac AUv3-Plug-ins unterstützt.
Apropos
Noch ein kurzer Ausflug zur Begrifflichkeit: „Witch/Hexe“ ist ein Begriff, der jahrhundertelang zur Diffamierung (und Schlimmerem) von Frauen verwendet wurde. Erst in jüngerer Zeit haben feministische und spirituelle Bewegungen begonnen, den Begriff wieder positiv zu besetzen. Auch die Rollenspielszene dürfte erheblich dazu beigetragen haben, dass „Hexe“ heute wieder vor allem als weibliches Pendant zu „Magier“ bzw. im Sinne von „Eingeweihte(r)/Weise(r)“ verstanden wird. Ob gut oder schlecht, hängt dabei von der jeweiligen Person ab – wie bei Köchen.
Um wieder auf den Punkt zu kommen: Cem Olcay Speaking of Witch dürfte dazu beitragen, diese positive Konnotation weiterzutragen – auch wenn hier lediglich ein Wortspiel mit „which“ zugrunde liegt („speaking of which“ = „da wir gerade davon sprechen“/„apropos“). Die Idee hinter der App ist so simpel wie genial und es wundert, dass darauf nicht schon früher jemand gekommen ist. Aber das ist wahrscheinlich wieder so eine Sache, die einem wie die Warze auf der Nase sitzt.
Während IK Multimedia ReSing mit komplexen, rechenintensiven KI-Modellen klotzt (die ausnahmsweise nicht nur lokal, sondern auch ethisch sind), bedient sich Speaking of Witch der Apple-Systemfunktion AVSpeechSynthesizer. Diese ist in macOS und iOS als Bedienungshilfe integriert, wird aber von den meisten kaum genutzt. Oft übersehen wird dabei auch, dass diese Funktion über diverse Feineinstellungen verfügt – die jedoch in den regulären Text-zu-Sprache-Funktionen nur sehr umständlich zugänglich sind, von einer möglichen Live-Anwendung ganz zu schweigen.
Ich will Speaking of Witch nicht als Ersatz für ReSing anpreisen, das wäre dann doch stark übertrieben, aber die App haucht der Apple-Sprachsynthese neues Leben jenseits der Bedienhilfe ein.
Aufbau
Ganz im MPC-Stil stehen 16 Pads zur Verfügung, die mit Sprachsamples bestückt werden können. Der Text wird einfach im Prompt eingegeben und das Stimmenmodell ausgewählt – inklusive praktischer Suchfunktion und Favoriten-Tagging. Die Phrase wird anschließend augenblicklich synthetisiert.
Da es sich um eine Systemfunktion handelt, stehen sämtliche Apple-Stimmenmodelle zur Verfügung. Laut Internet sind das 55 Sprachen – von Australisch über Japanisch bis Taiwanesisch – plus verschiedene Stimmenvarianten.
Dabei ist zu beachten, dass die Stimmen in unterschiedlichen Qualitätsstufen vorliegen, die zunächst heruntergeladen werden müssen. Pro Enhanced- oder Premium-Stimme können das locker 400 MB sein – da kommen schnell einige Gigabyte zusammen. Auf iOS werden die Stimmen unter Einstellungen → Bedienungshilfen → Gesprochene Inhalte → Stimmen verwaltet.
Allerdings gibt es bislang noch eine Einschränkung in der App: Die Premium- und Enhanced-Versionen laufen derzeit (Stand: Version 1.4) nicht in der AUv3-Instanz. Die Pads bleiben einfach leer – nur die Standardversionen werden gerendert.
Es wird empfohlen, pro Pad nur etwa 1 bis 20 Wörter zu verwenden. Für musikalische Zwecke ergibt jedoch mehr als zwei Wörter pro Pad ohnehin wenig Sinn, da dies z. B. die Synchronisation zu einem Rhythmus deutlich erschwert. Wer es ganz genau nehmen will, dem sei sogar das Herunterbrechen auf Silben empfohlen.
MIDI
Mit nur 16 Pads lassen sich allerdings kaum ausführliche Lyrics umsetzen – es sei denn, man hält es wie Iggy Pop (seine Devise: maximal 20 Wörter pro Song) oder nutzt mehrere Instanzen.
Genau das ist auch die Intention der App, denn jedes Pad liegt auf einem eigenen MIDI-Kanal. Cem Olcay Speaking of Witch verfügt über virtuelle MIDI-Ports, d. h. jede AUv3-Instanz wird über ihren eigenen MIDI-Port angesteuert. In diesem Modus kann außerdem jedes Pad tonal über die gesamte MIDI-Klaviatur gespielt werden.
Es gibt aber auch einen Modus für den Betrieb mit nur einem MIDI-Kanal. In diesem Fall liegen die 16 Pads auf den Tasten ab MIDI-Note 60 (C2) aufwärts und können daher nicht mehr tonal gespielt werden.
Jedes Pad verfügt zudem über neun Parameter, die per MIDI moduliert werden können:
Sprachgeschwindigkeit, Tonhöhe, Panorama, Aufholverstärkung, MIDI-Kanal, Audiobus, Pad-Farbe, Abspielmodus sowie Sample-Start- und -Stopposition.
Die Modulation des MIDI-Kanals bezieht sich ausschließlich auf das Ansprechen der Pads, nicht jedoch auf deren Parameter. Diese lassen sich über einen fest einzustellenden Kanal steuern.
Der Gedanke dahinter ist, zwischen Phrasen wechseln und beispielsweise die Notenfolge eines anderen Pads kurzzeitig übernehmen zu können.
Da Cem Olcay Speaking of Witch ein Multi-Audio-Out-AUv3 ist, bietet es acht Audioausgangsbusse. Diese können in der Host-Software auf verschiedene Kanäle geroutet werden, um dort z. B. mit unterschiedlichen Effekten versehen zu werden.
Beispielsweise lässt sich Pad 3 kurzfristig auf Bus 5 mit einem Delay legen und danach auf Bus 8 mit einem kräftigen Verzerrer weiterverarbeiten – kein Problem. Die Audiobusse sind dabei unabhängig von den zugewiesenen MIDI-Kanälen.
Pitch & Amp-Hüllkurven
Tonhöhen- und Lautstärkehüllkurven können nicht moduliert werden, denn sie bieten Multi-Breakpoint-Hüllkurven mit beliebig vielen Hüllkurvenpunkten. Neben dem Speed-Parameter sind dies die wichtigsten Einstellungen für Klang und Ausdrucksvarianz der Sprachsynthese.
Wird z. B. die Tonhöhe am Ende einer Phrase angehoben, entsteht der Eindruck einer Frage. Wenn hingegen die Lautstärke am Ende nicht abnimmt, wirkt die Sprache aggressiver – und so weiter.
Leider gibt es keine separaten Pad-Presets: Es kann jeweils nur der gesamte Patch gespeichert werden. Gerade weil man in einen Sprachschnipsel recht viel Arbeit investieren kann, wäre eine Phrasen-Bibliothek wünschenswert. Aktuell können nicht einmal Pads intern kopiert werden, um z. B. eine Variation einer Phrase zu erstellen – man muss stets von vorne beginnen.
Leider bietet die App keinen eigenen Sample-Export – die Phrasen werden jedes Mal neu synthetisiert.
Dafür gibt es in den Einstellungen zur Stimmauswahl eine praktische Option, mit der sich alle Pads mit der aktuell ausgewählten Stimme resynthetisieren lassen. So lässt sich ein komplettes Set leicht austauschen.
Ob dies letztlich einfacher ist, als Phrasen selbst aufzunehmen und anschließend z. B. mit Melodyne zu bearbeiten, ist Geschmackssache. Speaking of Witch hat aber definitiv den Vorteil schneller nachträglicher Anpassungen – insbesondere, wenn man eine komplette Phrase ersetzen möchte. Eintippen geht eben immer noch schneller als neu aufnehmen.
Die Apple-Sprachsynthese hat natürlich gewisse Grenzen: So können beispielsweise keine Vokale gehalten werden und eine Tonhöhenveränderung von mehr als einer Oktave nach oben oder unten klingt kaum noch realistisch. Dennoch eröffnet sich gerade für Phrasen, Hooks und Adlibs ein weites Einsatzfeld.
Der Browser entspricht der Standardversion, wie sie in allen Cem-Olcay-Apps zu finden ist. Da hier keine großen Datenmengen anfallen, funktioniert auch die automatische Synchronisation der Presets zwischen Apple-Geräten erfreulich schnell.
Klangbeispiele: Die Phrasen sind unbearbeitet und nicht geschnitten. Es wurden lediglich Hall und Delay hinzugefügt, Peak bei -6 dBFS.










































Ich finde beim besten Willen keiner Installation für MacOS nur IOS ?
@Morphoder Hallo Morphoder,
wenn Du im Mac App-Store nach „Speaking of Witch“ suchst musst Du den Reiter „iPhone & iPad-Apps“ anwählen.
:)
@Markus Schroeder Hallo Markus
Ich finde ja die IOS Version aber oben steht für IOS UND MacOS . Ich finde die MacOS Version nicht.
@Morphoder https://apps.apple.com/de/app/speaking-of-witch-the-sampler/id6754256558?
Wenn Du den Link auf dem Mac öffnest siehst Du direkt unter dem App-Namen „Anzeigen im Mac-App-Store“
oder Du suchst im Mac-App_Store einfach nach „Cem Olcay“
d.h. Wenn Du einen M-Serie Mac hast. Auf intel läuft die App nicht.
@Markus Schroeder Ahh ich habe im App store auf meinem Intel Rechner gesucht da wirds dann nciht angezeigt…….muss dann mal den Mini anwerfen ! Danke !
mich würde eher etwas im 80s Style interessieren. a La Kitt, Kraftwerk oder ST speech.
wenn es so echt klingt, finde ich es uninteressant.
😎
@Numitron Manchen Leuten kann man auch nichts recht machen ;)
BTW: für den Korg NTS-3 hat Joerg Piringer einen
Speak&Spell Live-LPC-En/Decoder heraus gebracht.
https://jpiringer.gumroad.com/l/voicecoder
@Markus Schroeder OK.
naja das perfekte finde ich fad.
mag das roboterhafte😀
@Numitron Also beim AVSpeechsynthesizer wäre „perfekt“ jetzt nicht das erste Wort, das mir einfallen würde.. Und für die weitere Nachbearbeitung sind da extra die Send-Busse da.
Es gibt aber auch eine Roboterstimme. Aber immer nur das Kraftwerkzeugs
nachbauen fand bei den Demos langweilig, obwohl Cosmos Of Love schon parodierende Seitenblicke hat.
:)
@Markus Schroeder OK. aber halt „zu echt“😁
@Numitron I see :D
Sicher kein Sample Export?
Laut Appstore mit: „Preset saving and sample export“
P.s. ich bin ziemlich sicher das auch Apples TTS Algorithmen auf maschinellem lernen aka AI basieren.
@synaesthesia Die Samples werden mit den Presets gepeichert / exportiert, Aber einen expliziten Sample-Export gibt es derzeit nicht. Kommt aber sicher noch. Der Entwickerler war auf jeden Fall von meinen Test angetan.
Was den AVSpeechSynthesizer angeht wurde der mit iOS 7 im Jahr 2014 eingeführt (iPad Air 2, A7 CPU). Was damals noch mit „Machine Learning“ oder „Neuronalen Netzen“ ging ist mit dem, was in den letzten 2 bis 3 Jahren unter dem Buzz-Worte „KI“ verstanden wird überhaupt nicht vergleichbar. Ja, die gemeinsame Code-Basis ist zwar da, aber das ist als wolltest Du einen Casio VL Toine mit einem Waldorf Quantum.gleichsetzen.
M :)