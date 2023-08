Zeitenwende: Künstliche Intelligenz in der Musikproduktion

Daniel Knoll und Markus Wegmann von Sounddub sind Experten für Künstliche Intelligenz in der Musikproduktion. Beide sind schon lange im Musikbusiness unterwegs und betreiben heute ein Dolby Atmos-Studio in der Nähe der brandenburgischen Stadt Jüterbog. Daniel entwickelt außerdem KI-basierte Software. Kennengelernt habe ich die beiden, als ich kürzlich von Markus sein Hohner Clavinet D6 gekauft habe. Es brummte vernehmlich: „Kein Problem, sicher eine Abschirmungssache, Daniel kriegt das hin“, meinte Markus. Und so fuhren wir ein paar Tage später zusammen zum Studio, das in einer ehemaligen DDR-Diskothek untergebracht ist.

KI. Künstliche Intelligenz in der Musikproduktion

Das Gebäude hat Daniel komplett selbst saniert – inklusive Strom, Heizung und Wasser. Das Clavinet klang nun ganz wunderbar (und wird hier demnächst in einer Velvet Box ausführlich gewürdigt). Ich war aber auch komplett umgehauen von dem Sounderlebnis Dolby Atmos. Keine Spur mehr von der manchmal etwas plakativen Aufdringlichkeit des früheren Surroundsounds. Atmos lässt einen ganz natürlich in die Musik eintauchen. Mit einer phantastischen Räumlichkeit und einem unglaublich plastischen Klangerlebnis. Fast beiläufig führte Daniel dann eine Software vor, die den Song We are family von Sister Sledge in seine einzelnen Spuren zerlegte: Drums, Bass, Stimme – als ob ein Mixing Engineer im Studio die einzelnen Kanalregler hochziehen würde. Meine Neugierde war geweckt und so trafen wir uns an einem schönen Sommerabend bei leckeren griechischen Vorspeisen (die Fischrogencreme!) im Terzo Mondo nahe des Berliner Savignyplatzes für ein Interview. Dass der Wirt auch mal bei Tangerine Dream Gitarre gespielt hat, war nur eine der Überraschungen des Abends. Und so führten wir bis in die Nacht ein sehr interessantes Gespräch, das den Bogen von Daniels Separierungs-Software über eine hochkomplexe Anwendung, die Musik in feinsten Abstufungen nach ihrem emotionalen Gehalt sortiert, bis zur aktuellen Umwälzung der Musikbranche durch Künstliche Intelligenz spannte.

Zur Person Daniel Knoll

Daniel Knoll ist bei Sounddub der Software-Tüftler. Geboren 1972 in Fürstenfeldbruck, mit vier nach Berlin gekommen, wo er zur Schule gegangen und Elektrotechnik studiert hat. Daniel entwickelt Software und hat mehrere Firmen gegründet, deren Verkauf ihm eine gewisse Unabhängigkeit beschert hat. Seine Liebe galt immer der Musik: Er hat lange in Studios gearbeitet, in der Produktion und im Mastering-Bereich. Markus hat er vor 25 Jahren kennengelernt in einem Studio am Berliner Kurfürstendamm, wo Daniel fürs Mastering und Markus für die Werbeproduktion zuständig war. Daniel ist überzeugt, dass durch Künstliche Intelligenz in ganz vielen Bereichen der Musikproduktion inzwischen der Zug buchstäblich abgefahren ist. (Foto: Costello)

Programmieren, um die Musik zu finanzieren

Costello

Daniel und Markus, ihr betreibt ein Dolby Atmos Studio. Und du Daniel programmierst nebenbei aber auch noch Software. Wie kam das eigentlich?

Daniel

Ich war ursprünglich mal Programmierer und habe sowohl eine Programmier-Historie, als auch eine Musik-Historie. Das ist eine ganz spannende Kombination. Und ich habe eigentlich immer programmiert, um Geld zu verdienen, war aber immer begeistert von der Musik. Ich habe viel im Studio gearbeitet, viel Produktion gemacht. Und die Programmierung hat mir immer die Miete bezahlt, wenn es denn dann mal nötig war. Und das war es öfter mal.

Costello

Was ich da neulich in eurem Studio gehört habe, hat mich ziemlich umgehauen: Ein bekannter Song wird buchstäblich in die Einzelteile zerlegt. Wie funktioniert das?

Daniel

Diese Software und das, was du gesehen und gehört hast, das ist eigentlich ein Abfallprodukt eines anderen hochspannenden Produkts. Darüber können wir vielleicht später noch sprechen. Das ist eine KI-basierte Zerlegung. Also ein trainiertes System, was nichts anderes macht, als bestimmte Teile in der Musik zu identifizieren. Zum Beispiel Schlagzeug oder Stimme oder Gitarre oder was auch immer, worauf man es halt trainiert hat. Und diese Teile dann physikalisch herauszurechnen aus dem Titel und sie als Einzelspuren auszugeben.

Costello

Das geht über die bekannte Karaoke-Funktion weit hinaus.

Daniel

Genau. Der Unterschied ist, dass diese alten Verfahren immer verlustbehaftet sind. Das heißt, du hast zwar in irgendeiner Form die Stimme so halbwegs rausbekommen aus der Musik, etwa beim Karaoke. Aber es war halt schon so, dass entweder die Stimme nicht ganz weg war und wenn doch, dann ging das zu Lasten des Backgrounds. Man hat es früher mit EQs gemacht, mit Phasenauslöschung und solchen Sachen. Aber das führt halt zu Aliasing- Effekten. Das klingt einfach nicht. Und das ist der Unterschied zur KI, weil die Künstliche Intelligenz rechnet das tatsächlich physikalisch aus der Musik raus.

KI und Musik: Wie ein Song in seine Einzelteile zerlegt wird

Costello

Das heißt, du kommst nicht einfach von den Frequenzen. Von der Spektralanalyse. Oder von den Transienten?

Daniel

Diese Dinge gehen da natürlich alle mit rein. Also im Endeffekt funktioniert das physikalische Separieren der Tracks natürlich auf der Basis einer FFT-Analyse und gegenphasigem Auslöschen. Das ist quasi das mechanische Prinzip, wie das rausgerechnet wird. Aber die Frage ist: Kann die Software identifizieren, was sie da rausrechnet? Und macht sie das so trennscharf, dass eben keine Aliasing-Effekte entstehen oder dass du irgendwas hast, was du eben nicht hören willst. Und das ist die Kunst.

Costello

Kurz zur Erklärung: FFT steht für Fast Fourier Transformation, dabei wird ein Signal in einzelne Spektralkomponenten zerlegt und dadurch erhält man Aufschluss über seine Zusammensetzung. Aber ich frage mich natürlich, wo liegen die Grenzen? Also wenn zum Beispiel eine Stimme mit sehr viel Hall versehen ist.

Daniel

Solange es zum Beispiel die eindeutige Charakteristik einer Stimme hat, gibt es da wenig Grenzen. Grenzen gibt es aber: und zwar bei sehr ähnlichen Klängen. Also z. B. bei Saxophon und Stimme. Das war auch schon beim Rundfunk früher immer ein Thema. Die liegen einfach so eng beieinander, dass man da, wenn das jetzt in Kombination vorkommt – was in Titeln selten der Fall ist – Schwierigkeiten bekommt. Da sind dann auch einfach mechanische Grenzen gesetzt.

Das Prinzip hören wir uns am Beispiel von Robbie Williams Interpretation des Brecht/Weill-Songs Mack the Knife einmal an. Zunächst die Originalfassung:

Und so klingt der Song, wenn er mit der Sounddub-Software in seine Einzelteile zerlegt wird. Im ersten Beispiel wird die Stimme herausgerechnet, wie man es zum Beispiel für Karaoke benötigt.

Die nächsten Versionen werden nun instrumental ausgedünnt.

Und zum Schluss Robbie Williams Stimme solo. Ich habe die ersten Sekunden weggeschnitten, damit der Gesang unmittelbar einsetzt. Hier und da sind noch kleine Artefakte und Nebengeräusche zu hören, aber Daniels Software hebt sich qualitativ deutlich von den Ergebnissen einer Stem-Extraktion ab, wie sie etwa LaLa.AI bietet.

Zur Person Markus Wegmann

Markus Wegmann ist ein alter Rundfunkhase und mit seiner markanten Stimme als Station Voice gefragt. Geboren 1962 im friesischen Varel, kommt er bald nach Kiel, wo er für den Privatsender R.SH die Soundelemente produziert. Er arbeitet sich schnell in die Digitaltechnik ein. 1994 geht es nach Berlin, wo er zunächst hilft, BB Radio aufzubauen, später macht er den Sound für die Sabine Christiansen Talkshow. Danach komponiert und produziert er die Filmmusik für 250 große Dokumentarfilme der 360 Grad GEO Reportage (ARTE). Heute weiß er: Jingles, Musikbetten und andere Funktionsmusiken bringen kaum mehr Tantiemen ein. Deshalb wollen er und Daniel mit Künstlicher Intelligenz in der Musik vor die Welle kommen.

Die Sounddub-Software: Ein Traum für Trailer-Produzenten

Costello

Jetzt frage ich mal den Markus: Rapper wie – ich sage mal – die Beastie Boys hätten sich bestimmt wahnsinnig gefreut, wenn sie dieses Tool zur Verfügung gehabt hätten. Und sie bei ihrem Album Pauls Boutique, das eine Sampling-Orgie vom Feinsten ist, aus einer alten Motown Platte an jeder beliebigen Stelle den Groove hätten rausziehen können.

Markus

Ja klar! Ich habe vor 30 Jahren im Privatfunk angefangen, Radio Schleswig Holstein, Jingles produziert für viele Radiosender nachher bundesweit, europaweit, in Holland viel, in Amerika viel. Wenn ich damals diese Möglichkeiten gehabt hätte, da wäre ich natürlich durchgedreht. Das ist die Antwort auf all die Radio und TV und Filme betreffenden Fragen. Rausheben von Dingen, wieder hinzufügen, Kombinationen. Das ist natürlich ein Traum für jeden Radio-TV-Audio Producer. Wenn ich dieses Tool damals gehabt hätte, wäre ich woanders heute.

Costello

Man darf bei Trailern ja auch nie über den Gesang quatschen …

Markus

Genau! Wenn du gefühlt 1000 Jingles und Trailer produziert hast, wo es darauf kommt, einen Künstler, nehmen wir Peter Maffay, spannend darzustellen, um beispielsweise zu einem Konzertbesuch zu animieren. Du hast maximal 30 Sekunden. Dafür ist dieses Tool gigantisch. Bleiben wir mal bei Maffay: Und es war Sommer und Klick ab dem Moment ist seine Stimme weg.

Costello

Da konntest du früher eigentlich nur das Intro für verwenden.

Markus

Ja, ja, genau! Und jetzt kannst du an jeder beliebigen Stelle einhaken und hast dann nur noch das Playback. Und weiter gesponnen, kannst du natürlich auch das Schlagzeug wegnehmen, also noch ganz andere Gimmicks einbauen.

Costello

Aber da glaube ich, gibt es auch ein rechtliches Problem?

Markus

Die Frage ist, darfst zum Beispiel im Radio oder Fernsehen das nutzen? Den Unterschied macht dabei: Solange es nicht auf Tonträger erscheint, ist das ja alles gar kein Problem. Ich hätte das in meiner Radio-, TV- und Filmzeit nutzen können. Denn ich bekam ja das Material von den Schallplattenfirmen zur Verfügung gestellt. Und die hätten das auch genossen, behaupte ich mal, wenn ich zu dem Zeitpunkt ein bisschen funky drauf gewesen wäre und hätte was gemischt. Wir durften ja auch in den Trailern verrückte Sachen machen. Da haben wir alles zusammengemischt – whatever. Du darfst es für die Erstverbreitung nutzen. Du darfst es nur nicht auf CD brennen – macht heute auch keiner mehr – also sozusagen auf einen Tonträger bannen und einfach zum Verkauf anbieten. Bei einer nachträglichen Veröffentlichung entstehen dann natürlich Rechtefragen, die geklärt werden müssen.

Sounddub: Leider nicht im Musikgeschäft erhältlich

Costello

Ich werde also eure Software eher nicht bei Thomann kaufen können?

Daniel

Diese Software wäre für B2C einerseits fantastisch, keine Frage! Ist da aber nicht das Richtige. Nee, das kann man natürlich nicht machen. Also sagen wir mal so im Falle Beastie Boys, was du vorhin angesprochen hast. Ich habe ja auch viel in der Musikproduktion und vor allem in der Schundpop-Produktion gearbeitet. In den 2000ern viel für die BMG gemacht und für die Sony gemacht und so was alles. Und da waren wir natürlich, wenn man das mal so sagen möchte, die Könige des Samples. Und man ist sich am Ende immer einig geworden. Also das heißt, wenn etwas kommerziell erfolgreich wird, einigt man sich mit der Zielplattenfirma und dann werden die Einnahmen geteilt und dann ist alles gut. Aber die Software, das, was wir da gemacht haben, damit lässt sich eher im B2B Bereich arbeiten. Das heißt: Fernsehsender, Radiosender oder überall da, wo halt Ton zum Bild gemacht wird, wo Trailer produziert werden, Werbung produziert wird. Man macht es und dann klärt man die Rechte. So funktioniert es eigentlich im praktischen Leben. Und gerade die Zerlegung des Mixes bietet unendliche Möglichkeiten. Etwa, das wieder neuusammenzumischen, um zum Beispiel sachtere oder leichtere Versionen von einem Titel herzustellen. Der ganze Bereich Remixing, wo einfach auch ein anderes Gefühl transportiert wird. Und das lässt man sich dann im Nachhinein freigeben. Also das hängt immer ein bisschen vom Produkt ab, aber das ist schon möglich.

Markus

Aber das ist ja gerade das Spannende. Für eine Station, beispielsweise jetzt R.SH ist das natürlich möglich, denn die haben alle Rechte daran in der Versendung. Das heißt, für einen Beitrag können wir die ganzen Gimmicks nutzen. Eben, wie Daniel es beschrieben hat, dieses B2B, da geht alles. Die Weiterverwertung auf Tonträger in welcher Form auch immer – da würde dann nachgefragt werden. Da ist bei uns eben auch Watermarking das Stichwort, ohne da jetzt zu tief einzusteigen. Das ist aber alles machbar. Die jeweiligen Anteile werden von uns automatisch aufgeteilt. Insofern ist es für Radio und Fernsehsender und auch Filmproduzenten hochinteressant, so sie eben Inhaber der Rechte sind. Dann können wir wirklich, sagen wir mal, gefahrlos loslegen.

Daniel

Gut, aber ich meine, wenn man sich jetzt als Nebennutzung für seine Geburtstagsparty eine Karaoke-Version von einem beliebten Titel macht, dann wird das wohl keinen tangieren.

Restaurierung von Musik mit Künstlicher Intelligenz

Costello

Eure Software ist natürlich auch super geeignet für den gesamten Bereich Audiorestaurierung, könnte ich mir denken.

Daniel

Ganz genau. Das kann einmal Musik sein, es können aber auch EB-Aufnahmen sein, wo man Störgeräusche drauf hat. Da ist genau im entscheidenden Moment, wo Robert Redford das Interview gegeben hat, das Mofa durchs Bild gefahren ist. Da kann man eben die Stimme isolieren und dann ohne Mofa das wieder zusammenmischen, so dass das dann eben besser geht. Das ist ein bisschen was anderes als eine reine Rauschunterdrückung oder ähnliches. Als Beispiel haben wir hier eine Soundrestaurieung, die wir für eine ARTE-Doku gemacht haben. Der Bootsmotor übertönt die Stimmen. Im ersten Schritt haben wir das Motorengeräusch entfernt und die Stimmen freigestellt. Damit die Aufnahme aber nicht steril wirkt – die Szene spielt ja nun mal auf einem Boot – haben wir das Motorengeräusch wieder leicht dazugemischt.

Oder nehmen wir Liveaufnahmen. Also ich meine, live ist halt live und da geht halt auch was schief oder der Sänger hat sich versungen. Sensationelles Konzert, aber leider Titel Nummer sieben, was die Hymne ist, da hat er sich versungen, den dann rauszunehmen und diese kleine Korrektur vorzunehmen. Du kannst die Aufnahme mit dieser Stimmung nicht noch mal machen. Das geht halt nicht. Dafür ist unsere Software sehr gut geeignet. Und diese Korrektur, wenn die Stimme frei steht, kannst du dann super mit Melodyne machen. Das ist ein wirklich geiles Produkt. Da sage ich nur Chapeau. Also dieses Tool ist wirklich großartig gemacht.

Wo liegt der Unterschied zu izotope RX und Co?

Costello

Nun tummeln sich auf dem Markt für Audiorestaurierung ja sehr viele Wettbewerber. Wie unterscheidet sich eure Software von aktuellen Produkten, die schon auf dem Markt sind, wie etwa izotope RX? Oder auch Lösungen wie Cedar DNS, Waves Clarity Vx Pro, Steinberg SpectraLayers und Zynaptiq Repair?

Daniel

Ja, das sind genau die Klassiker, die Magic Wands der Audio-Software. Ja, gut, die gibt es natürlich und die funktionieren auch. Das ist alles außer Frage. Aber das ist Generalisten-Software. Das muss man schon ganz klar sagen. Die müssen ein sehr breites Kunden-Klientel bedienen und die haben ein sehr breites Anwendungs-Spektrum. Das heißt, die müssen sowohl die Musik können, als auch die EB-Aufnahme und so weiter. Und wie man sich unschwer vorzustellen kann, löst das nicht Spezialisierte diese Aufgaben zwar auch ganz okay, hat aber eben auch starke Grenzen. Wenn man damit professionell arbeitet und das mache ich, dann merkt man auch bei sehr schnell. Also selbst bei den genannten Tools.

Costello

Restaurieren ist sehr aufwändig. Das ist ja immer noch eine sehr anspruchsvolle Aufgabe. Du kannst ein gutes Tool an der Hand haben, das ist das eine. Aber du brauchst ja im Prinzip auch Grundkenntnisse in Mathematik, in Physik. Ist eure Software für den Anwender ohne weitere Vorkenntnisse zu bedienen oder musst du dafür …

Daniel

… sozusagen Physiker sein? Nein. Also sagen wir mal so: Vom Benutzerinterface her musst du Physiker sein, weil es hat kein Benutzerinterface. Also das ist ja wie gesagt eine Anwendung – eigentlich ein Abfallprodukt – die rein auf dem Server läuft, weil wir das als Dienstleistung anbieten. Aber natürlich vom „was gebe ich rein, was kriege ich raus?“ musst du gar keine Kenntnisse haben. Das gibt dir einfach das raus, was du willst. Also wenn du sagst „Stimme“, dann liefert dir die Software die Stimme. Und dann gibt es ein Wavefile und das kannst du ja weiter verarbeiten als Nichtphysiker.

Künstliche Intelligenz sortiert Musik nach Emotionen

Costello

Jetzt hast du wieder den Begriff „Abfallprodukt“ benutzt. Abfall von was denn?

Daniel

Es gibt eigentlich das große Ganze. Da arbeiten wir seit gut drei Jahren dran. Das ist eine KI-basierte Medien-Datenbank, die es vereinfachen soll, sich die richtige Musik für den Zweck, den ich verfolge, auszusuchen. Der Zweck könnte sein, die passende Musik für ein Video, einen Trailer, ein Video, einen Film zu finden. Und da geht es darum, dass die music emotions klassifiziert werden. Das heißt, man kann Musiken nach Emotion, nach Energie, nach Kraft und so weiter und so fort suchen – und zwar buchstäblich mit dem Schieberegler. Also ohne Schlagworte, ohne Text und so was alles, sondern einfach nur mit Schiebereglern. Das ist technisch wahnsinnig aufwendig, weil wir es hier mit menschlichen Gefühlen zu tun haben, mit Emotionen. Aber damit man das technisch darstellen kann, braucht man da verschiedene Untervorbereitungsschritte der Musikanalyse. Dazu gehört unter anderem das Zerlegen von Musik, weil dann zum Beispiel die Dynamik, die Drums usw. erst mal rausisoliert werden müssen. Damit man sie separat von dem Gesamtkunstwerk betrachten kann. Deswegen sage ich immer Abfallprodukt, weil das eine der ersten Stufen dieser Analyse-Software ist, die wir da entwickelt haben.



Costello

Habt ihr euch dabei auch externen Rat geholt?

Daniel

Ja, denn da steckt natürlich ein ganz erheblicher Anteil Psychologie dahinter. Wir haben zum Beispiel mit der Uni Potsdam zusammengearbeitet, der Psychologischen Fakultät. Und da ging es darum, wie Zielgruppen bestimmte Musiken empfinden oder welche Emotionen in ihnen ausgelöst werden, wenn Musiken abgespielt werden. Also das sage ich jetzt mal vereinfacht mit einer bestimmten Zielgruppen-Analyse. Weil es bei dem System natürlich auch darum ging, das jetzt nicht nur für den europäischen Raum zu machen, sondern auch für Nordamerika. Oder auch – und da wird es richtig kompliziert für den Europäer – für den asiatischen Raum, afrikanischen Raum oder arabischen Raum.

Costello

Emotionen sind nicht überall auf der Welt dasselbe: Was als fröhliche, lebhafte oder sentimentale Musik empfunden wird.

Daniel

Nein, überhaupt nicht. Gar nicht. Aber das Ziel der Anwendung war es, quasi ein universelles Werkzeug zu haben, wo ich Musik vorne reinkippe und hinten kommt eine ordentliche Klassifizierung raus, die weltweit gültig ist. Wenn ich sage, ich möchte eine fröhliche Musik haben, dass da eine fröhliche Musik herauskommt. Und zwar in Indisch, in Arabisch und in Deutsch. Wenn ich den Schieberegler auf sehr fröhlich schiebe. Und das ist die Kunst. Und deswegen muss ich sehr viele analytische Verfahren über die Musik laufen lassen, um die Künstliche Intelligenz zu trainieren. Und dazu gehört halt auch, nicht nur die Musik im Ganzen zu betrachten, sondern auch die ganzen einzelnen Elemente, auch in der Stimme, welche Emotionen da mitschwingen, in dem Saxophon, was da sein Solo spielt, in der Gitarre.

Wie die Sounddub-Software in der Praxis funktioniert

Costello

Das ist ein komplexes System! Magst du mal versuchen, es in einfachen Worten zu beschreiben, wie die Künstliche Intelligenz die Musik analysiert, wie es in der Praxis funktioniert?

Daniel

Sehr gerne! Unser sounddub mediabase System funktioniert eigentlich ganz einfach. Du lädst bestehende Musiktitel in das System und dann passiert Folgendes: Mehrere KIs zerlegen die Musik und klassifizieren sie. Im Anschluss werden die Titel mit einer großen Zahl von menschlich verständlichen Parametern versehen.

Wichtig ist die nachgeschaltete Bias-Matrix. Denn die stellt den interkulturellen und Genre-übergreifenden Zusammenhang her. Worüber wir gerade gesprochen haben: dass du als Ergebnis gleich positive Emotionen in unterschiedlichen Ethnien und Genres bekommst. Das Besondere dabei ist, dass die sounddub engine nicht nur „Tags“ an die Titel heftet – ich sage jetzt mal „heroisch“, „düster“, „fröhlich“,“Rock“, „Jazz“, „Afrikanisch“ oder auch „Mit weiblichen Vocals“, sondern das Ganze auch quantitativ fein granuliert bewertet.

Costello

Es geht also über die Schublade „Ballade mit melancholischem Charakter“ weit hinaus?

Daniel

Richtig! Wir messen auch, wie sehr eine Eigenschaft in der Musik vorhanden ist. Also zum Beispiel „extrem melancholisch“. Gleichzeitig wird die Musik noch mit einem Fingerprint und einem Watermark versehen, damit man sie im fertigen Werk identifizieren kann. Und dann werden zusätzlich noch die markanten Stellen – z. B. der Chorus – herausgetrennt und in unterschiedlichen Versionen gespeichert.

Sinn der ganzen Übung ist es, Nutzern ein simpel zu bedienendes menschennahes Interface bzw. Produktionswerkzeug bereitzustellen, um die perfekte Musik für ein Projekt in kürzester Zeit zu finden. Das geht aber nur dann, wenn die Maschine den Menschen versteht und nicht umgekehrt. Der Nutzer muss sich nur die Frage stellen: Was oder welches Gefühl möchte ich beim Zuschauer oder Zuhörer auslösen?



Sounddub: Michael Jackson fest im Blick

Costello

Mögt ihr mal erzählen, mit wem seid ihr da in Kontakt? Dürft ihr da ein paar Namen nennen?

Daniel

Ja, also gut, wir haben natürlich jetzt mit vielen Majors gesprochen. Zunächst mal mit Blick auf die Zweckmusiken, weil wir gesagt haben, okay, dann gebt mal eure Zweckmusiken her, wir kategorisieren die ein und dann habt ihr die in einer Version.

Costello

Aber Funktionsmusiken sind jetzt nicht das Gleiche wie der Gesamtkatalog.

Daniel

Uns geht es natürlich vor allem auch um die großen Kataloge. Also das heißt, uns geht es um Michael Jackson, um die Beatles und so weiter. Wir wollten der Anbieter sein, wo wir dann auch sagen: Okay, dann haben wir mal die anderen Versionen davon und wir kategorisieren die ein und stellen die halt professionellen Produktionen zur Verfügung. Was du nicht vergessen darfst, ist natürlich, dass professionelle Produktionen Zugriff auf sechs, sieben Millionen Titel haben. Und für den Redakteur, der im Endeffekt den Beitrag macht, der hat halt auch sechs, sieben Millionen Titel. Und damit der den Überblick behält, den richtigen findet und die richtige Version von dem richtigen. Da ist unsere Software eine große Hilfe. Es hilft durchaus, wenn du das innerhalb von einer Minute machen kannst. Bei RTL oder bei Universal gibt es einen, der hat das auf seinem Server. Und dann findet er die gewünschte Emotion und auch die richtige.

Und das gab es halt so noch nicht. Weil normalerweise läuft so eine Datenbank in irgendeiner Form taggesteuert. Das heißt, da sitzt ein fleißiger Redakteur und sagt da „traurig“ oder irgendwelche anderen kategorisierenden Worte. Er hat aber ein subjektives Empfinden zu dem Titel, was das Ergebnis natürlich total unobjektiv macht. Oder da hat jemand viel Fleißarbeit reingesteckt.

Costello

Mich erinnert es aber auch ein bisschen an Spotify. Wenn man da einen Song anwählt und es kommen danach ähnliche Lieder.

Daniel

Das macht Spotify. Die setzen KI ein, um die Playlisten zu erzeugen zum Beispiel. Das ist mal besser, mal schlechter. Genau richtig. Aber die machen was ähnliches. Auch YouTube macht das, wenn du Videos schaust, dass du dann ähnliche Vorschläge kriegst. Das ist alles schön und gut. Aber was du nicht hast, ist, dass du wirklich einen Bereich von Emotionen einschränkst und sagst: Okay, das sind jetzt meine Vorschläge und die gefallen mir nicht. Ich möchte fünf neue oder ich sage, der Vorschlag gefällt mir, noch mal Ergebnisse ähnlich wie der. Entsprechend macht sounddub immer 5 Vorschläge, die immer wieder intuitiv verfeinert werden können, bis man seine Top 5 gefunden hat. Und das im Produktionsbereich gibt es halt einfach wirklich gar nicht. Und dass das halt auch funktioniert. Diese Anwendung ist gerade auch für die Film- und Videoproduktion sehr nützlich. Du kannst in unsere sounddub mediabase Videodateien problemlos einbinden und zwar ohne Upload und dann mit den Titeln synchronisieren. Das beschleunigt den Workflow natürlich immens.

Costello

Eure Anwendung von Künstlicher Intelligenz in der Musikanalyse ist sicher auch interessant für Streaming-Dienste, die immer vor der Frage stehen: Wie wird eine Musik in einem bestimmten Zielmarkt empfunden.

Daniel

Genau. Also tatsächlich ist es ja so, dass aufgrund der kulturellen Unterschiede gerade Netflix oder Amazon Prime, die halt viele Serien produzieren, eigene Scouts und Agenturen beschäftigen. Die sich nur darum kümmern, wie der musikalische kulturelle Kontext in dem jeweiligen Land ist. So, das müsstest du dann nicht mehr haben.

Costello

Das kann leicht nach hinten losgehen.

Daniel

Wo das Publikum dann sagt: Willst du mich verarschen jetzt, das meinen sie nicht ernst. Damit kannst du relevante kulturelle Probleme auslösen.

Costello

Wie läuft das bei euch in der Praxis ab?

Markus

Wenn ein Sender mit uns kooperieren möchte, dann kommen wir vorbei, dann kriegt jeder Redakteur da seine Desktop-Version und dann kann er das, was Daniel gerade erzählt hat, einfach nutzen. Ich komme noch aus einer anderen Generation – noch mit CDs. Lass uns mal weiterdenken. Ich habe ja noch auf Senkeln – also Tonbändern – gelernt. Und ich war dann irgendwann Musikberater. Und diese Funktion hat sich mit unserer Software tatsächlich erledigt, weil jeder Redakteur wird jetzt zum Musikberater. Der schafft das einfach schlicht und ergreifend besser als jeder Musikberater, weil die Software natürlich viel tiefer geht.

Daniel

Das alles bieten wir natürlich auch als Dienstleistung an. Also das heißt abseits von dieser Plattform, die ja so wunderbar und magisch ist, bieten wir natürlich die ganz normale Dienstleistung an. Das heißt, die ganze Audio-Restauration, das professionelle Zerlegen und eben dann remixen und aufarbeiten, Remixe in Dolby Atmos von Dingen, die man gar nicht remixen kann.

Soundzerlegung und Dolby Atmos-Bearbeitung

Costello

Welche Rolle spielt eure Software denn in eurem Dolby Atmos-Studio?

Daniel

Na ja, das ist ja natürlich ganz entscheidend, wenn wir mal an alte Aufnahmen denken, früher Monoaufnahmen, dann Stereoaufnahmen in den 60er-, 70er-Jahren. Das können wir remixen, weil wir natürlich die komplette Aufnahme zerlegen können.

Costello

Auch so eine olle Karajan-Aufnahme?

Markus

Olle Karajan-Aufnahme! Ich muss schon bitten. Aber auf jeden Fall ja, natürlich, klar, wir können da eingreifen in den Mix und Violinen, Bässe, Holzbläser, Blech, Schlagwerk und ggf. Gesang separieren und danach räumlich mit dem Dolby Atmos-Verfahren korrekt zuordnen. Oder wenn wir jetzt mal in die U-Musik gehen, dann wir nehmen die Beatles. Da haben wir halt eine Mono- oder Stereoaufnahme, wenn es gut lief oder eine Vierspur. Aber wir können halt reingehen in die Aufnahme und können mit modernen Methoden das halt in Einzelspuren zerlegen und das neu mischen und dann auch in einem angenehmen Atmos Mix herstellen.

Costello

Habt ihr denn sowas im klassischen Bereich schon mal ausprobiert?

Daniel

Ausprobiert ja, professionell gemacht in Form einer Platte noch nicht.

Costello

Ich stelle mir das schwieriger vor. Popmusik ist ja meist sehr plakativ. Drums, Bass, E-Piano, Gitarre, Gesang, Aber Oboen und Klarinetten, Bratschen und Celli …

Daniel

Ja, das ist noch mal was anderes. Aber es hängt ja immer davon ab, wie man das System trainiert. Das können wir ja frei trainieren. Aber was man nicht glauben braucht ist, dass man sich da jede einzelne Violine rausholt. Die erste Violine, die holt man sich noch raus. Aber das hat Grenzen. Und die Gruppen kann man selbstverständlich separieren: die Holzbläser, die Blechbläser, die Streicher. Das kannst du trennen, weil das einfach eine gewisse unterscheidbare Charakteristik hat. Das ist ja auch kein Zauberhut, sondern das ist einfach Mathematik. Da hast du andere Probleme. Also entweder gibt es da Störungen drin, weil was schiefgelaufen ist, also gerade bei Live-Aufnahmen läuft gern was schief. Wir denken an die klassische Open Air Waldbühne, solche Themen. Da schreit halt einer mal rein. So was kriegst du natürlich ganz hervorragend gelöst. Ein Remix von einer klassischen Aufnahme ist auch eine wirklich kritische Angelegenheit, weil du klassisch nicht so mischst. Du mischst nicht die einzelnen Streicher, du mischst, wenn überhaupt, sektionsweise, du machst Stereoaufnahmen. Aber wenn wir jetzt sagen, wir wollen ins immersive Erlebnis, wo wir sagen, wir wollen ins Atmos-Erlebnis, also vielleicht im Orchester, oder vor dem Orchester stehen, dann hast du die Möglichkeit, das räumlich zu gestalten mit dieser Technologie. Weil du dann überhaupt noch gestalten kannst, was du in der Stereoaufnahme nicht kannst. Da darfst du ja auch nicht mit Phasen rumspielen, aber du kannst dann zumindest den Raum herstellen.

Costello

Klingt spannend …

Der Traum: Callas und Karajan in 3D Audio

Daniel

Also unsere Idee ist jetzt auch wirklich, ich bin mal provokant, die Deutsche Grammophon anzusprechen. Stichwort alte Maria Callas Aufnahmen, Mono natürlich, Furtwängler, Karajan. Wir sind in der Lage, daraus 3D Audio zu machen. Und das Erlebnis, wir haben haben es ja ausprobiert, ist gigantisch. Und das ist etwas, wo wir zum Beispiel natürlich offensiv noch rangehen. Da würden wir uns freuen, wenn die entsprechenden Labels mal auf uns zukommen würden, ich sage es jetzt einfach mal so. Wir sind in der Lage, da wirklich ein völlig neues Erlebnis zu schaffen.

Markus

Das heißt, Mono wird nicht nur Stereo, sondern wird Raum. Und das im Klassikbereich ist natürlich genial.

Daniel

Mit einer Aufnahme, die 60 Jahre alt ist, da wäre ich selber persönlich gespannt. Wir bräuchten die Rechte dafür. Das heißt, da müsste die Grammophon mit ihren Rechteinhabern auf uns zukommen und sagen Kinder, macht das bitte mal.

Costello

Verdient ihr eigentlich auch Geld mit eurem Tool?

Daniel

Da müssen wir unterscheiden: Die Zerlegung ist eine reine Dienstleistung, die Audio-Restauration ist eine Dienstleistung. Die Katalogisierung mit unserer music emotions-Software ist Lizenzgeschäft.

Costello

Da kommen ja auch ständig neue Sachen dazu und die müssen …

Daniel

Genau, die müssen dann auch einsortiert werden. Also das wird dann ja nicht jedes Mal wieder ein komplett anderes Produkt. Deshalb wird die Plattform einfach lizenziert für so und so viele Plätze und dann ist es gut. Das läuft dann auf jährlicher Basis und dann ist es okay. Zufrieden ich bin.

Ohne Latenz von Jüterbog nach Innsbruck

Costello

Markus, du packst gerade deine Koffer in Potsdam zusammen und ziehst nach Innsbruck. Was bedeutet das für euer Studio und eure Zusammenarbeit?

Markus

Ich komme in Innsbruck sehr fürstlich unter, obwohl Innsbruck preislich ähnlich liegt wie zum Beispiel München. Ich gehe im Prinzip an einen Urlaubsort, den ich genieße. Aber für unsere Zusammenarbeit ist es prinzipiell völlig wurscht, wo ich bin.

Daniel

Wir haben eine 16-Kanal Realtime-Verbindung ohne Latenz. Das heißt, wenn wir einen Atmos Mix in Jüterbog machen, dann können wir den in Atmos in Innsbruck abhören. Wir haben da einen Abhörraum ohne Latenz und zwar mit Rückkopplung. Also das heißt, wir können hin und zurück. Und dann kann der Markus seinen Senf auch dazugeben.

Markus

Und dann hast du Atmos vor Ort und kannst den Regler ziehen und es passiert in Laufzeit, der Laie sagt in Echtzeit, aber zur Laufzeit passiert es da, ohne Latenz. Viele Regisseure wissen das noch gar nicht. Also in Österreich wird zum Teil auch nur die Action-Elite in Atmos produziert. Mit unserer Technologie ist das eigentlich überall jetzt möglich und das ist auch gar nicht so aufwendig. Es ist mit Verlaub auch gar nicht mal so teuer, weil wenn du schon in 5.1, was die meisten machen, produzierst, dann kannst du das auch gleich in Atmos machen. Das Entscheidende ist nur die Abhörsituation. Und es gibt in Europa halt nicht so viele.

Costello

Habt ihr von Dolby eine Zertifizierung?

Daniel

Wir sind im Dolby Katalog und alles eingemessen auf Dolby. Das Wort zertifizieren benutzt Dolby nicht mehr. Der offizielle Sprachgebrauch der Dolby AG ist nicht zertifiziert, sondern akzeptiert.

Dolby Atmos-Studio: Ein bisschen Wahnsinn gehört dazu

Markus

Wir denken auch drüber nach, wirklich auch so für Projekte unsere Anlagen zur Verfügung zu stellen. Letztendlich geht es ja um die Abhörsituation und die Studios sind eben gezählt, weil der Aufwand, den wir da in Jüterbog betrieben haben, der ist erheblich. Wir sitzen da in einer ehemaligen Diskothek. Ich will es gar nicht aufzählen. Du hast es ja gesehen, die Quadratmeter, du brauchst Raum, du brauchst Laufzeit. Das kannst du nicht irgendwo hinstellen. Allein da scheitert es schon dran. Die Technik zum Teil. Das grenzt schon an Beschaffungskriminalität. All die Geräte. Es ist insgesamt ein unglaublicher – auch finanzieller – Aufwand.

Daniel

Und ein logistischer Aufwand, so ein Dolby Atmos Studio zu realisieren. Wir können es nur deswegen machen, weil wir krank im Kopf sind. Ja, das ist wahr. Das muss auch sein. Nee, aber tatsächlich ist es so, ich meine, das ist alles vorfinanziert. Wir haben das einfach gemacht, weil wir das machen wollen und weil wir das selber mögen. Da ist ganz viel Leidenschaft in dem Projekt, auch in dem anderen Projekt steckt wahnsinnig viel Leidenschaft, weil das schon unglaublich spannend ist. Und wenn man Musik liebt, dann macht man solche Dinge. Und Markus geht jetzt nach Innsbruck, weil er sich das verdient hat. Und wir nutzen einfach den Standort Innsbruck, damit wir in Österreich halt auch einen Standort haben, was einfach gut ist. Und Innsbruck ist zentral und wir können dann halt einfach die Märkte bedienen. So einfach ist das.

Künstliche Intelligenz und die Umwälzung in der Musikproduktion

Costello

Sagt mal, weil ihr jetzt so in diesem Thema künstliche Intelligenz in der Musikproduktion drinsteckt. Also was ich mitbekomme, überschlagen sich die Dinge da wirklich in allen Bereichen, die mit KI zu tun haben. Manches ist auch ein bisschen gruselig, also trainierte Stimmen, die dann plötzlich wie David Bowie klingen, wie Beyoncé oder wie Eminem. Was ist eure Prognose, wo das hingeht?

Daniel

Tatsache ist, die künstliche Intelligenz in der Musikproduktion wird ganz viele Leute treffen. Also viel arbeitendes Volk, sag ich mal. Dazu zählen Sprecher, dazu zählen Musikkomponisten, weil der gesamte Bereich Funktionsmusik entfallen wird. Also alles, was da an Komponisten unterwegs ist, wird wegfallen. Das geht auch in den Bereich Filmmusik. Die Technologie ist jetzt bereits so weit. Im Wettstreit zwischen Microsoft und Meta bei der Stimmenemulation, also dem Nachbilden von realen Stimmen, da geht es mittlerweile nicht mehr darum, ob es geht, sondern darum, wie viel Sekunden Sprachsample sie brauchen von der Person, bis sie perfekt emuliert ist. Und da sind wir bei 20 Sekunden. Meta haben ihr Modell vom Markt genommen, weil sie sagen, okay, da geht jetzt eine relevante Gefahr davon aus. Weil das natürlich missbraucht werden kann für Deep Fake, für Manipulation, Kriminalität etc. Ja aber auch im Bereich der Musikkomposition: Google ist da Vorreiter mit Google MC. Seit Januar am Markt für Musikkomposition, die per KI passiert. Und da geht es ja nicht um Emulation, also das Nachbilden von Musik mit Hilfe von Künstlicher Intelligenz, sondern um Kreativität. Im Bildbereich haben wir Dali. Es ist vorbei. Der Zug ist abgefahren. Wir können das auch nicht mehr rückgängig machen. Man kann das versuchen, also die Verwertungsgesellschaften versuchen das gerade. Also auch die großen Labels versuchen das gerade. Wir hatten jetzt gerade Beispiele bei Sony, wo halt rein KI komponierte Mashups und Musiken rausgekommen sind, die in die Charts gehen.

Costello

So funktioniert Disruption.

Daniel

Nächstes Jahr ist das Thema durch. Meine Prognose. Wir haben noch zwölf Monate Zeit für den Musikbereich. Und dann ist es komplett anders. Also im professionellen Bereich. Alles, was damit Geld verdient, also professioneller Trailerbereich, Funktionsmusiken, Sprecher ist Geschichte.

Costello

Markus, du schaust so entsetzt.

Markus

Entsetzt? Ja, weil mein Bier gerade alle ist. Genau weil es mich betreffen wird. Ich bin u. a. Station Voice bei einem nationalen TV-Anbieter, spreche Werbespots, Comedies und Hörbücher. Und genau aus diesem Grund sind wir gerade dabei, das ganze Thema für die Media- und Musikindustrie im Produktionsalltag nutzbar zu machen.

Costello

Wenn sie ein Sample von dir haben, können sie damit jeden Trailer von dir einsprechen lassen.

Daniel

Sie müssen den Text nur eintippen. Und die Emotion festlegen. Das ist es, was

diese Sprachmodelle können. Jetzt! Nicht irgendwann. Und deswegen ist es obsolet zu sagen, das fängt an mit der Low-Budget-Produktion bis Mid-Budget. Das dauert nicht lange, dann ist es High-Budget, die dann auch das benutzen. Es gibt auch gar keinen Grund mehr dafür, du kannst den beliebig lange einsetzen, der wird nicht heiser, der wird nicht krank und da kannst du alles ausprobieren. Und das ist auch eine – man darf das nicht alles verteufeln – das ist auch eine völlig neue Form der Kreativität, die sich da öffnet.

Costello

Aber Tom Cruise bekommt dann wenigstens Tantiemen, wenn ein Trailer mit seiner Stimme gesprochen wird.

Daniel

Die Frage ist, ob es dann später nicht auch einfach berühmte AI-Voices gibt, die überhaupt kein reales Vorbild haben. Die sie emulieren. Wo sie Mashups machen und sagen: Okay, ich möchte Robert De Niro gekreuzt mit Robert Redford. Das kannst du am Ende gar nicht mehr zuordnen. Du hast das Gefühl, du kennst es. Es ist irgendwie sehr vertraut. Aber ich sage ja, das ist eine völlig neue Form der Kreativität, die sich daraus ergibt. Man darf nicht immer nur sagen, da werden Leute arbeitslos. Das ist natürlich schlimm. Ich meine, tatsächlich gibt es ganz neue künstlerische Möglichkeiten, weil du musst auch das bedienen können.

Künstliche Intelligenz in der Musikproduktion: Die Kneifzange für den Musiker?

Markus

Ich finde es spannend, dass Daniel das so positiv betrachtet. Also nicht immer die negative Seite der KI herauszustellen, die wird ja im Moment sehr hervorgehoben. Das ist auch unser Ansatz, gerade auch die Kreativität dahinter zu nutzen. Weil im Endeffekt muss es immer noch einen geben, der sagt: Ja, genau so will ich das, so soll der Videotrailer aussehen. Weißt du, da konzentriert sich der Mensch mal wieder auf das, was er eigentlich wirklich gut kann, nämlich Kreativität, Emotionen spüren, Emotionen vermitteln. Da ist Künstliche Intelligenz in der Musikproduktion ein Werkzeug, das ist eine bessere Kneifzange.

Costello

Bei euch ist das ein Schieberegler …

Daniel

Von links nach rechts. Genau so ist es. Aber irgendwer muss den Schieber schieben und muss sagen: So ist es gut. Genau so will ich es. Weil das war das, was ich versuchte auszudrücken. Ich habe es jetzt bloß leichter und es demokratisiert den Markt. Bei den Studios zum Beispiel: Früher Studiobesitzer zu sein, bedeutete eine Million Mark, das war halt so, sonst lief das Ding nicht. Heutzutage Laptop und das demokratisiert, mehr Leute können Musik machen und mehr Leute können kreativ sein, weil die Sachen erschwinglicher geworden sind. Und ich finde, das ist kein schlechter Aspekt. Und wenn KI mehr ermöglicht, zum Beispiel mit der Stimme von Tom Cruise, den singen zu lassen, dann ist das für Tiktok allemal in Ordnung. Und wenn ich das Jugendlichen und Kindern und auch Künstler*innen, um das jetzt Mal korrekt zu sagen, ermögliche, dadurch das zu demokratisieren und mehr Leuten Zugang zur Musik verschaffe, ist das doch gut. Und nicht jeder muss acht Jahre Klavierunterricht haben, damit er ein gutes Stück machen kann. Es kommt darauf an, dass er sagt, es ist gut. Und ob dann andere das auch gut finden, ist eine andere Sache. Aber ich habe eine Kneifzange, die ich als Mensch bedienen kann, die mich versteht und nicht, wo ich mich in die Welt der Maschine begeben muss und ihr erst mal erklären muss, was ich eigentlich von ihr will. Das ist der Vorteil von KI.

Costello

Lieber Daniel, lieber Markus – danke für das Gespräch.