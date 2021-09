Virtual Reality, Augmented Reality, Kino - der passende Ton

Seit einigen Jahren ist der Begriff Immersive Audio in der Audiowelt zu finden. Je nach Quelle meint Immersive Audio alle Mehrkanaltonverfahren (alles mit mehr als zwei Kanälen) oder Surround-Verfahren mit mehr als einer Ebene, also 3D Audio. Ein Thema, das gerade mit Virtual Reality (VR) und Augmented Reality (AR) aktueller wird denn je.

Der Weg von Mono bis zu Surround

Streng genommen hat alles bereits in den 1880er-Jahren angefangen. Der französische Erfinder Clément Ader übertrug auf der internationalen Elektrizitätsausstellung 1881 in Paris Opern und Theaterstücke in zwei Kanälen (links und rechts) per Telefon in Stereo. Er nannte diese Technik Theatrophon. In den 1930er-Jahren haben dann die Bell Laboratories mit einem Stereo-System experimentiert, das drei Kanäle kannte. Das ist zwar noch kein Immersive Audio, lässt aber erkennen, wohin die Reise gehen wird. Der Brite Alan Blumlein experimentierte – ebenso in den 1930er-Jahren – mit „binauraler“ Aufnahmetechnik (wie er es selbst bezeichnete). Laut Robert Alexander (im Buch „The Inventor of Stereo: The life and works of Alan Dower Blumlein“ -Seite 80) Erfand Alan Blumlein auch die Stereosysteme AB, MS sowie XY und meldete diese zum Patent an. Der Grundstein für Surround und Immersive Audio ist also gelegt.

Während Stereo (in der Zweikanal-Version) erst Mitte der 1940er und (effektiv) in den 1950ern den Endkundenmarkt erreichte, versuchte Walt Disney bereits in den 1940ern ein Mehrkanaltonverfahren zu etablieren. Für seinen Film Fantasia wollte er auch akustisch etwas ganz Besonderes bieten. Geplant waren drei Frontkanäle und ein rückwärtiger Kanal (heute „Surround-Channel“). Der Ton sollte von einem zweiten, synchron laufenden Filmprojektor kommen, der statt Bild vier Lichttonspuren verarbeitet. Die 1940er-Jahre waren allerdings von anderen Sorgen geprägt und viele Kinobetreiber wollten für nur einen Film ihre Lichtspielhäuser nicht grundlegend umbauen: Der zweite, synchronlaufende Filmprojektor dürfte dabei nicht das Problem gewesen sein, eher das Auslesen der neuartig platzieren Lichttonspuren und das getrennte Ansteuern der Lautsprecher hinter der Leinwand und im Zuschauerraum. Bislang waren nur Mono-Signale im Kino verarbeitet worden. So trieb der Film Fantasia Walt Disney wohl fast in den Ruin und berühmt wurde Fantasia mit einer Mono-Mischung, wie sie – im Mainstream-Kino – bis in die 1980er-Jahre hinein Standard bleiben sollte. Selbstverständlich gab und gibt es – abseits des Mainstream-Kinos – verschiedenste Bild- und Tonsysteme, diese konnten sich aber nie auf dem breiten Markt durchsetzen.

In den 1960er-Jahren gab es noch den Versuch, Quadrophonie in den heimischen Wohnzimmern zu etablieren. Zwei rückwärtige Lautsprecher sollten die beiden Stereokanäle ergänzen. Leider haben sich die Hersteller dieser Zeit nicht auf ein Verfahren geeinigt und haben verschiedene Systeme (diskret mit Einzelkanälen, matriziert …) auf den Markt gebracht, die nicht kompatibel waren. Alte SSL- und NEVE-Mischpulte haben oft noch Features aus der Quadrophonie-Zeit, so wie bspw. das Lexicon 480L.

Welche Surround-Formate gibt es?

Wie bereits geschildert, hatte in den 1940er-Jahren Walt Disney mit dem Film Fantasia Fantasound entwickelt und damit quasi seine Vision von Immersive Audio vorgestellt. Die vier Kanäle lagen als eigene Spuren auf einem extra laufenden Filmstreifen vor. Fantasound ist also diskret, es liegen für alle Kanäle eigene Spuren vor.

Ende der 1970er/Anfang der 1980er etablierte Dolby dann ein Surround-System: Dolby Stereo. Die wichtigste Idee dabei war, dass vorne (Front) drei Kanäle untergebracht sind: Links (Left), Mitte (Center) und Rechts (Right). Da die Kinobesucher selten im Sweetspot sitzen (also nicht gleichweit von linkem und rechtem Lautsprecher entfernt sind), soll mit einem Center-Kanal die Richtungswahrnehmung „stabilisiert“ werden. So werden üblicherweise Dialoge in den Center gemischt, dass diese von jeder Sitzposition aus im Kino „aus der Mitte“ gehört werden können. Da auf der Lichttonspur, die neben dem eigentlichen Film direkt daneben auf dem Filmstreifen untergebracht ist, maximal Zweikanalton möglich ist, wenn die Ton- und Bildqualität nicht zu sehr leiden soll, musste dieser Center mit einer Matrix-Schaltung in die beiden Kanäle (auch Left-Total und Right-Total) hineinkodiert werden: Man mischt den Center mit 3 dB Dämpfung auf die linke und die rechte Spur hinzu. Ein Surround-Kanal kann ähnlich kodiert werden, indem dieser um +/-90° phasengedreht und 3 dB gedämpft den beiden Hauptkanälen hinzumischt wird. Dolby Stereo ist somit ein matriziertes System.

Im Kino wird bei Dolby Stereo noch eine Rauschunterdrückung genutzt. Für den Privatbereich wurde das System unter Dolby Surround vermarktet. Eine Weiterentwicklung wurde im Kino unter Dolby (Stereo) Spectral Recording und im Heimkinomarkt als Dolby Pro Logic vermarktet. Im Kino und Streaming haben diese Matrix-Techniken praktisch keine Bedeutung mehr, im Fernsehbereich können Stereo-Filmtonspuren noch Dolby Surround kompatibel sein.

Das heute gut bekannte 5.1-Format ist den meisten erst seit Dolby Digital (umgangssprachlich oft falsch als Dolby Surround bezeichnet) und DTS geläufig. Tatsächlich taucht dieses Format bereits vor den 1990ern auf. Ein digitales Kinoton-Format (CDS), das vor Dolby Digital versuchte, sich zu etablieren, nutzte dieses auch (und sogar davor gab es diese Konfiguration bereits).

Der große Unterschied zu den Surround-Systemen auf der Lichttonspur ist bei Dolby Digital und DTS die Nutzung jeweils einer Spur pro Kanal (diskret) vorliegt und dass das Signal digital vorliegt. Dolby Digital wurde als optischer Code (ähnlich QR-Code) zwischen die Filmperforation geschrieben, DTS wurde mittels Timecode von CDs zugespielt.

Die Schreibweise 5.1 bezieht sich auf sechs einzelne Kanäle/Spuren: Links (Left), Mitte (Center), Rechts (Right), linker Surround (Left Surround/Surround Left), rechter Surround (Right Surround/Surround Right), LFE (nicht Subwoofer). Die fünf ersten Kanäle sind Fullrange (von 20 Hz bis 20 kHz konzipiert), nur der LFE beinhaltet zusätzliche Tieftoninformationen. Viele Heimkinoanlagen leiten die Bassanteile aller fünf Kanäle und den LFE-Ton an einen Subwoofer, das ist jedoch nicht die spezifikationsgemäße Umsetzung. Selbstverständlich kann das menschliche Gehör Bässe nicht bzw. kaum orten, aber es wurde in Untersuchungen nachgewiesen, dass für Menschen ein Monobass sich von einem Stereo (…) Bass unterscheidet. Die meisten Testpersonen haben den Monobass als schlechter klingend bewertet (diese Aussage geht zurück auf eine Untersuchung des Ingenieurbüros W Vier / Dipl. Ing. Uwe Kempe †).

Später wurde das Setup um einen Center-Surround-Kanal erweitert (6.1) und es gibt Setups mit vier Surround-Kanälen (7.1). Der Vollständigkeit halber sei erwähnt, dass Sony ein 7.1 Verfahren in den 1990ern anbot, allerdings mit fünf Frontkanälen für sehr breite Leinwände (SDDS).

Mit der Einführung von digitalem Kino (DCP – Digital Cinnema Package) hat sich die Bedeutung der Surround-Formate stark verändert. DCP unterstützt nativ Surround Sound (5.1 etc.), ohne dass ein Encoder irgendeines Herstellers bemüht werden muss. Für DVD/BD und Streaming (auch TV) sind Encoder noch notwendig.

Was bedeutet LFE?

Die Bedeutung von LFE ist uneinheitlich erklärt. Verschiedene Quellen geben unterschiedliche Antworten: Low Frequency Effects (meist bei Dolby) oder Low Frequency Enhancement (meist bei DTS) – man findet noch mehr. Die Aufgabe dieses Kanals ist es, zusätzliche tieffrequente Effekte beizusteuern und nicht den Bassanteil der anderen Lautsprecher zu übernehmen – wie schon ausgeführt.

Subwoofer ist eine Art von Lautsprecher, der oft am LFE-Kanal angeschlossen wird. Aber auch die fünf anderen Kanäle könnten mit einem Satelliten (der Mitten und Höhen wiedergibt) und einem Subwoofer akustisch umgesetzt werden.

Obschon der Tieftonkanal (.1) bereits vor dem Erscheinen von Dolby Digital und DTS existierte, wurde der Begriff (LFE) in die Spezifikationen der SMPTE und der ITU (und in die Fachsprache) übernommen.

Ist THX denn Immersive Audio?

Dank der THX-Kinotrailer aus den 1990ern und 2000ern wird THX oft mit einem Soundsystem gleichgesetzt. Das ist allerdings nicht der Fall. THX ist eine Baunorm, ein Gütesiegel für den Kinobau und das Einmessen der Ton- und Bildanlagen. Um ein THX-Siegel zu bekommen, müssen Kinos diverse Auflagen erfüllen. Heute ist THX in Kinos bedeutungslos.

3D Audio: Das eigentliche Immersive Audio

Da die üblichen Surround-Formate nur eine Ebene – die Horizontale – abdecken, liegt es nahe, zu „echtem“ 3D Audio aufzurüsten und mindestens einen Kanal/Lautsprecher über den Köpfen des Publikums zu platzieren. Anfänglich wurde ein solcher Kanal auch als Voice Of God Channel bezeichnet. Neu ist diese Idee genauso wenig wie 3D Kinos, 360° Projektionen oder gar Full Dome Projektionen.

In den IMAX DOMEs und IMAX 3D Kinos (nicht zu verwechseln mit den Multiplexkinos mit IMAX-Label) wird mit einer Leinwandgröße von bis zu 700 m² gearbeitet. Bereits 1970 (als IMAX startete) wurde ein zweiter Center am oberen Rand der Leinwand platziert. Somit hatte IMAX sechs Kanäle, die anfangs auf Tonband zugespielt (Sonics), später digital (DTS) realisiert wurden. Somit dürften die IMAX-Kinos die ältesten noch betriebenen Kinos sein, die eine Art von „Immersive Audio“ in Verwendung haben. Bemerkenswert dabei ist, dass Ambisonics zu einem ähnlichen Zeitpunkt das Licht der Welt erblickte, damals jedoch kaum auf Resonanz traf.

Ambisonics – ein Urgestein des Immersive Audio

In unterschiedlichen Kontexten und mit (leicht) unterschiedlichen Namen erlebt Ambisonics eine Renaissance in den letzten Jahren. Es wird nativ in verschiedensten Sequencern unterstützt (Pro Tools, Nuendo, Cubase …). Das mag auch daran liegen, dass (teilweise) die Patente ausgelaufen sind und nun verschiedene Stakeholder versuchen, eine eigene Ambisonics Version aus der Taufe zu heben. Als Austauschformat von Immersive Audiomischungen haben sich Ambisonics-Files bereits (abseits der Dolby und DTS Marktes) etabliert.

Ambisonics wurde in den 1960ern und 1970ern an der Universität Oxford entwickelt. Die grundsätzliche Idee dabei ist, dass man ein Mono-Signal als Grundlage nutzt sowie weitere Kanäle zur Bestimmung der Richtung. Die Idee ist vergleichbar mit dem MS-Mikrofon. Grundsätzlich lässt sich also eine Ambisonics Aufnahme in jede Kanal- und Lautsprecherkonfiguration konvertieren. Im Gegensatz zu allen anderen hier erwähnten Formaten gibt es kein fest definiertes Vorne, so kann eine Ambisonics Aufnahme beliebig gedreht werden.

Die Basiskonfiguration besteht aus vier Mikrofonen: Einem Mono-Signal und drei Richtungssignalen. Es wird auch von Ambisonics erster Ordnung gesprochen. Das Format, in dem die Mikrofonsignale angeordnet sind, wird auch A-Format genannt. Die Kanalanordnung, in dem das Signal übertragen wird, wird als B-Format bezeichnet. Hier gibt es zwei übliche Formate, wobei AmbiX derzeit dominiert. Das Format, in dem die Lautsprecherkanäle zum Ausspielen des Ergebnisses angeordnet sind, könnte als C-Format bezeichnet werden.

Zwar lassen sich Ambisonics Aufnahmen in jedes beliebige Lautsprecher-Setup konvertieren, bei vier Mikrofonen (erste Ordnung) ist die Präzision der Ortung jedoch nicht sehr hoch. Werden mehr als vier Kanäle/Mikrofone genutzt, wird von HOA (Higher Order Ambisonics) gesprochen. Ambisonics zweiter Ordnung kann schon mit deutlich höherer Präzision bei der Ortung aufwarten, benötigt aber neun Kanäle. Soll die eigene Immersive Audio Mischung als Ambisonics-File versandt werden, wird dieses mit neun Spuren relativ groß. Wer mit dritter Ordnung arbeitet, muss schon 16 Kanäle einkalkulieren. Da viele Endnutzer jedoch weniger als 16 Kanäle ansteuern werden, kommt hier schnell die Aufwand-Nutzen-Frage. Berechnet wird der Kanalbedarf mit dieser Formel: (Ordnungszahl + 1)²

Mit Ambisonics könnten (überspitzt betrachtet) so viele Lautsprecher gespeist werden, dass jedes Schallereignis einen eigenen Lautsprecher zugewiesen bekommt und Phantomschallquellen nicht mehr gebildet werden. So entfiele der Sweet-Spot. Einen vergleichbaren Ansatz verfolgt die Wellenfeldsynthese.

Auro 3D

Die Galaxy Studios entwickelten bereits 2005 ihr eigenes Immersive Audio: Auro 3D. Die Grundidee sollte möglichst simpel sein, so dass „einfach“ dem 5.1-Layout ein zusätzliches Layer (Height) und bei Bedarf noch ein Layer (Top) aufgesetzt wird. So lässt sich mit vier Kanälen im Height-Layer (einen Height-Center gibt es nicht) ein 9.1 System realisieren. Mit dem Top-Layer ist Auro 3D bis 13.1 konfigurierbar.

Trotz erfolgreicher Präsentationen in der Fachwelt ist der kommerzielle Erfolg ausgeblieben und Auro 3D, das zunächst als vielversprechendes Immersive Sound System gesehen wurde, fristet eher ein Nischendasein. Dieses Format ist im Kino praktisch unbekannt und findet auf BluRays eher für Musik-Scheiben Verwendung. Decoder sind in Receivern meist nicht integriert und müssen nachgerüstet/nachlizensiert werden (ca. 150,- Euro).

Dolby Atmos und DTS:X

Vor ca. 10 Jahren (2012) hat Dolby sein objektorientiertes Immersive Audio System Dolby Atmos vorgestellt, DTS:X kam rund drei Jahre später. Während Dolby Atmos auch im Kino als Immersive Sound Format eine große Rolle spielt, spielt DTS:X im Kino dagegen eine untergeordnete Rolle. (In Europa gibt es gerade einmal zehn Kinobetreiber, die DTS selbst als DTS:X-Kinos ausweist, diese befinden sich alle in Frankreich.)

Das Konzept ist bei beiden ähnlich: So gibt es einen Basis-Stream (bspw. in 7.1), der auch BED genannt wird und alle anderen Schallereignisse können als Objekte gemischt werden. Dabei mischt der Encoder keine Kanäle, sondern speichert diese Objekte als einzelne Soundfiles zusammen mit Koordinaten. Damit ist die Mischung unabhängig von der Lautsprecherkonfiguration. Der Decoder mischt die Soundobjekte so, dass diese – gemessen am Lautsprechersetup – am stimmigsten positioniert sind. Mit DTS:X muss nicht einmal ein Basis-Setup eingehalten werden, dank Remapping versucht der DTS:X Decoder mit jeder Lautsprecherkonfiguration klarzukommen. Da Dolby Atmos und DTS:X abwärtskompatibel sind, können auch ältere Decoder ein Surround-Signal wiedergeben, ohne die Vorzüge von Immersive Sound und der Objektorientierung. Die DTS:X Decoder können auch den Pegel der Dialogspuren bei den Endnutzern anheben/absenken (sofern das beim Authoring freigeschaltet wurde).

DaVinci Resolve und Nuendo 11 haben bereits Dolby Atmos Productions-Tools eingebaut und man spart sich in vielen Fällen die RMU (Rendering and Mastering Unit), die für den Kinobereich wohl trotzdem noch benötigt wird. Für DTS:X gibt es ein Software-Paket: DTS:X Encoder Suite!

Auch das objektorientierte Mischen ist nicht neu, sondern im Game-Sektor ein alter Hut. Bei Spielen wie First Person Shooter und Rollenspielen muss sich mit der Position des Avatars auch der Ton entsprechend anpassen.

Binaural – Kopfhörervirtualisierung von Immersive Audio

Da nicht überall ein Multilautsprecher-Setup zur Verfügung steht, werden Virtualisierungen genutzt, um die Immersive Sound Umgebung auf einem Kopfhörer zu simulieren. Dolby hatte eine solche Lösung bereits im Sortiment, DTS bietet mit DTS Headphone:X eine aktuelle Lösung an, um 3D Sound auf Kopfhörer zu erleben.

Nuendo hat eine solche Virtualisierung für die Ambisonics Produktion ebenfalls direkt an Bord, mit Dear VR und Spatial Audio Designer (der der über ein eigenes Panning-Tool für Immersive Audio verfügt, welches unabhängig von der Virtualisierung genutzt werden kann) gibt es diverse Tools.

Prinzipiell kann eine Kunstkopfaufnahme ebenfalls als binaurale Immersive Audio Aufnahme gesehen werden: Wird eine Kunstkopf (Dummy Head) Aufnahme über einen Kopfhörer abgehört, ist ein 3D Höreindruck zu erleben.

Gute Soundbars schaffen es, ein Immersive Audio Erlebnis zu erzeugen, obwohl diese nur vorne (bspw. vor dem Bildschirm) platziert werden. Das wird zwar nicht als Virtualisierung bezeichnet, wirkt aber wie ein Zwischenschritt zur rein lautsprecherbasierten Lösung.

Das „H“ in der Immersive Sound Suppe? – MPEG H

Die Motion Picture Expert Group (MPEG) zeichnet für diverse Standards im AV-Sektor verantwortlich. So ist MP3, MP4 und der Videostandard der DVD auf diese Expertengruppe zurückzuführen. Bereits das native Audioformat der DVD (MPEG2) war surroundfähig – was wenig genutzt wurde, es wurde fast immer Dolby oder DTS genutzt.

Mit MPEG H wird nun auch ein Immersive Audio Format durch die MPEG vorgelegt. Wichtige Komponenten wurden dabei von Fraunhofer IIS entwickelt.

MPEG-H ist sowohl Audio-Codec als auch Streaming-System: Entwickelt wurde dieses System für Streaming und Broadcasting. Kinoinstallationen existieren nicht und sind nicht geplant. Die besondere Stärke bei MPEG-H liegt darin, dass der Ton für Nutzende individualisierbar ist. So kann bspw. der Kommentator eines Sport-Events frei im Raum platziert und auch im Pegel definiert werden. Ebenso kann bei einem Film die Musik leiser als die Dialoge eingestellt werden. Voraussetzung ist, dass diese Optionen im Stream freigeschaltet sind. Das Rendering des Audio-Signals erfolgt bei der Endanwendung und wird auf die Situation vor Ort angepasst. So können die Audio-Streams auf ein 22.2 Lautsprecher-Array gemischt werden, auf ein klassisches 5.1 Setup, eine Soundbar oder binaural für einen Kopfhörer gerendert werden.

Ist der eigentliche Inhalt in einem Immersive Audio Format vorgesehen, die Werbung dazwischen in Stereo, werden beim Rückschalten auf Immersive Audio die bereits getätigten Einstellungen nicht überschrieben, sondern gehalten. Auch die Loudness-Anpassung (etc.) soll in der Praxis entsprechend funktionieren. MPEG-H benötigt eine große Menge an Metadaten, um so reibungslos zu funktionieren, wie die vollmundigen Werbeversprechen es einem Glauben machen.

In Südkorea wird MPEG-H bereits erfolgreich seit fünf Jahren für UHD-TV eingesetzt. Außerdem ist MPEG-H der Audiocodec des 360 Reality Audio Musikformats von Sony und wird u. a. von Amazon Musik HD, Tidal und Deezer verwendet. Der Encoder ist über die Fraunhofer Gesellschaft zu bekommen.