Digitale Audionetzwerke für Studio und Bühne

18. September 2009

Einführung zu digitalen Audionetzwerken

Nach dem Siegeszug der Digitaltechnik in den vergangenen 25 Jahren bahnt sich derzeit eine zweite Revolution im Beschallungs-Segment an. Vielerorts werden schon heute Audio-Signale nicht mehr über herkömmliche Kupferleitungen verteilt, sondern mit Hilfe von Audio-Netzwerktechnik über LAN-Kabel. Noch ist das Verfahren recht jung, aber weil man hier 64 und mehr Audiokanäle in umkomprimierter PCM-24-Bit-Qualität durch ein einziges dünnes Cat5E-Kabel jagen kann und weder Einstreuungen noch andere Qualitätseinbußen befürchten muss, wächst das Interesse an der neuen Technologie stetig.

Klingt ja auch eigentlich nicht übel, wäre da nicht das Wort „Netzwerktechnik“. In den Augen vieler sonst durchaus gestandener Veranstaltungstechniker handelt es sich bei dem Begriff mindestens um ein Unwort – wenn nicht gar um das personifizierte Böse – um kompliziertes, undurchschaubares Teufelswerk, beherrscht allenfalls von weltfremden, bleichen, verpickelten und kaltschwitzenden IT-Nerds. Und ausgerechnet diese öde Materie, zehnmal trockener als die Wüste Gobi und so prickelnd wie ein Sack voller Flöhe, schickt sich nun an, die tausendfach bewährte Livetechnik zu unterwandern und die geliebte Kupfer-NF-Line in Frage zu stellen…?

Für alle, die nicht schon mit acht Jahren im Chaos Computer Club waren, weil sie Netzwerk-Protokolle mit der Muttermilch aufgesogen haben, zunächst die schlechten Nachrichten: Seit sich herumgesprochen hat, dass man Audiosignale über Netzwerkkabel verschicken kann, wird die Technik von Veranstaltern, insbesondere solchen aus dem Firmen-Segment, emsig angefordert. Gerade Unternehmen, die in eigener Sache zu Promotionzwecken Veranstaltungen ausrichten, finden die neue Technik ungemein sexy. Dort hat man wenig Verständnis für herumliegende Kabel und schätzt die quasi unsichtbare Audio-Anlage besonders. Und genau hier spielt ein Audionetzwerk eine seiner großen Stärken aus. Es ist schlichtweg wesentlich unauffälliger als ein System mit herkömmlicher Signalverteilung über analoge NF-Audiokabel.

Darüber hinaus können Veranstalter mit der schlanken Netzwerk-Technologie Platz einsparen. Der wiederum ist bares Geld wert, denn wenn sich weniger Technik im Zuschauerraum befindet, können mehr Plätze verkauft werden. Entsprechend groß ist das Interesse auch an Bühnen. Hier geht es zwar ebenfalls um optische Ästhetik, wohl aber vor allem um Geld – ein Argument, das immer sticht.

Netzwerk-Audiotechnik sieht also nicht nur besser aus, sie hilft auch beim Sparen und erfreut sich daher immer größerer Beliebtheit. In die Röhre schaut am Ende wahrscheinlich derjenige Techniker, welcher diesen Trend verpasst. Um dies zu vermeiden, wird er wird sich auf kurz oder lang mit solchen Audio-Systemen auseinandersetzen müssen. Tatsächlich sieht es derzeit ganz danach aus, als würde mittelfristig ein NF-Multicore zwischen Stagebox und FOH-Pult so selten werden wie ein Plattenspieler im Kinderzimmer.

Aber es gibt auch gute Nachrichten: Audionetzwerke sind kein Teufelswerk – zumindest nicht alle… Natürlich gibt es in großen Opernhäusern oder Vergnügungsparks komplexe Systeme mit unzähligen Geräten, fiesen, kryptischen Netzwerk-Protokollen, abgedrehten Glasfaser-Ringen und mordskomplizierten Doppelstern-Strukturen, die sich tatsächlich erst hoch spezialisierten IT-Ingenieuren oder System-Integratoren erschließen. Aber die moderne Netzwerk-Technik für stinknormale Firmenpräsentationen oder kleine bis mittelgroße Livekonzerte ist wesentlich überschaubarer und wurde von den Entwicklern bereits dermaßen vereinfacht, dass auch der normale Strippenzieher nach kurzer Einarbeitung damit klarkommen dürfte.

Und im Grunde sind einfache Audionetzwerke sogar extrem cool. Schließlich wird das netzwerkgestützte Audiosystem der Zukunft immer schlanker. Tatsächlich lassen sich auch bei einfachen Konzepten 64 und manchmal sogar mehr Kanäle in ein winziges Cat5E-LAN-Kabelchen quetschen, welches so gut wie alle wichtigen Geräte im Signalpfad einer typischen Veranstaltung, also zum Beispiel die Stageboxen, die Mischpulte und die Lautsprecher-Prozessoren, miteinander verbindet. Manchmal sind sogar die Endstufen oder Aktiv-Lautsprecher netzwerkfähig und können mit eingebunden werden.

Damit so ein feines, kleines System auch funktioniert, müssen analoge oder digitale Audiokanäle von einem EtherSound-Audiointerface oder einer EtherSound-Stagebox in kleine Daten-Pakete eingeteilt und in ein Netzwerk-Kabel eingespeist werden. Aus diesem können sie danach an beliebiger Stelle wieder entnommen, verarbeitet und natürlich wieder eingespeist werden. Die Netzwerk-Technologie kann bei Bedarf fast jedes Line-Anlalog-Kabel im Signalpfad und alle Patchfelder komplett überflüssig machen. Schwere Multicores und tiefe Kabelschächte werden schlichtweg nicht mehr benötigt.

EtherSound-Interface von Auvitran (Rückseite)

All diese Argumente klingen eigentlich gar nicht so blöd – das müssen wohl irgendwann auch die genervtesten IT-Verweigerer zugeben – und vielleicht würden auch diese irgendwann einmal ein Audionetzwerk ausprobieren wollen, wenn der ganze Kram nur nicht so furchtbar kompliziert wäre. Daher wollen wir uns in diesem Special einmal mit EtherSound befassen, einer vergleichsweise schlanken und sehr modernen Technologie, die sich nicht nur, aber eben auch für Leute eignet, denen schon die Einrichtung eines Heimnetzwerkes mit Windows Kopfzerbrechen bereitet.

Was ist EtherSound, woher kommt die Technik und was ist das Besondere daran?

EtherSound ist ein Audio-Netzwerkprotokoll. Den Begriff kann man zum Zwecke der Verständlichkeit vielleicht am besten mit dem „Audio-Format“ aus der bekannten Digitaltechnik vergleichen – etwa mit AES/EBU oder ADAT. Es gibt derzeit mehrere konkurrierende Audio-Netzwerkprotokolle, so zum Beispiel CobraNet von Cirrus Logic oder A-Net von Aviom.

EtherSound wurde etwa um das Jahr 2001 von Ingenieuren der französischen Firma Digigram entwickelt. Zu dieser Zeit war das gerade erwähnte CobraNet bereits etabliert und recht weit verbreitet, doch das Protokoll von Cirrus Logic ist nicht für alle Zwecke gleichermaßen gut geeignet. Zwar zeichnet es sich durch eine hohe Zuverlässigkeit und Vielseitigkeit aus, aber schon kleinere Netzwerke erzeugen eine Signal-Verzögerung von mehreren Millisekunden, die gefürchtete Latenz.

Timingkritische Anwendungen, zum Beispiel das Bühnenmonitoring bei Konzerten, lassen sich daher mit CobraNet nicht realisierten. Schließlich kann kein Musiker passabel spielen, wenn er sich selbst um neun oder zehn Millisekunden verzögert auf seiner Wedge hört. Außerdem ist der Aufbau von CobraNet-Netzwerken kein Kindergeburtstag. Wenn eine solche Audio-Distribution erst einmal steht, möchten selbst gestandene Fachleute sie sehr ungern wieder deinstallieren.

Daher hat sich CobraNet lediglich im Festinstallations-Bereich durchgesetzt – und auch nur dort, wo kein Bühnenmonitoring erforderlich ist – so zum Beispiel bei Opernhäusern, Einkaufszentren, Sportstätten oder Hotels. Bei Live-Konzerten oder gar Tourneen war um die Jahrtausendwende eine Signalverteilung über Audionetzwerke undenkbar. Das jedoch sollte sich bald ändern.

Ein Fall für CobraNet: Die Oper in der polnischen Metropole Wroclaw (Breslau) hat eines der modernsten Audionetzwerke auf diesem Planeten.

Die EtherSound-Ingenieure waren sich dieser Problematik nämlich mehr als bewusst und achteten penibel darauf, dass man ihre Entwicklung genau dort erfolgreich anwenden kann, wo CobraNet versagt – also bei Live-Konzerten und allen anderen timingkritischen Anwendungen. Außerdem sollte ihre Technik sehr einfach und recallfähig („wiederaufrufbar“) sein, sodass man EtherSound-Systeme auf Tourneen beliebig oft auf und wieder abbauen kann, ohne gleich von Migräneanfällen heimgesucht zu werden.

Tatsächlich gelang es ihnen, ein quasi latenzfreies System zu entwickeln. Die EtherSound-Chips sind in der Lage, ein EtherSound-Paket in 1,4 Mikrosekunden weiterzuleiten. Dieser Wert addiert sich zu einer Sockel-Latenz von 104 Mikrosekunden, also einer Zehntel-Millisekunde. Auch große EtherSound-Netzwerke haben folglich eine Latenz von 5 bis 6 Samples, wodurch sie sich selbst für extrem timingkritische Anwendungen empfehlen. Darüber hinaus ist die generierte Latenz stets stabil und kann zum Beispiel zwecks Laufzeitabgleichs ganz einfach berechnet werden.

EtherSound ist vor allem auf schlichte Reihen-Signalpfade („Daisy Chains“) spezialisiert, wie sie bei fast allen kleineren und mittelgroßen Beschallungsaufgaben benötigt werden. Die neuesten Versionen des Protokolls lassen auch Baum und Sternstrukturen zu – vielleicht – um Cirrus Logics CobraNet Konkurrenz zu machen, aber der Witz an EtherSound ist grundsätzlich die Schlichtheit und Schnelligkeit. Das Protokoll ist kompatibel zum herkömmlichen IEEE-802.3-Standard (100Base-TX) und nutzt für die Audiodistribution einfache LAN-Kabel von Typ Cat5E, die auch im Neuzustand auf keinen Fall länger als 100 Meter lang sein dürfen. Das weit verbreitete Kabel-Format birgt in kostentechnischer und logistischer Hinsicht zwar einige Vorteile, weil die Kabel billig und überall erhältlich sind, aber vor allem die zarten Plastik-Steckerchen wirken auf harten Touren wie Keira Knightley auf Jack Sparrows Piratenschiff „Black Pearl“.

Funktionsweise von EtherSound

Die EtherSound-Technologie stützt sich auf einen Audiodaten-Stream, der sozusagen durch das Netzwerkkabel strömt. Von den Geräten im Signalpfad werden Audio-Datenpakete in den Stream insertiert („eingefügt“) und Datenpakete aus dem Stream extrahiert („entnommen“). Dieser Vorgang entspricht grundsätzlich der Funktion herkömmlicher Inputs und Outputs, nur dass bei EtherSound schlichtweg immer alle Kanäle anliegen und sich die Geräte einfach nur bedienen müssen.

Es können bei der aktuellen EtherSound-Version „ES100“ bis zu 64 Audiokanäle (und zusätzliche Steuerdaten) gestreamt werden. Ein ES100-Paket-Stream besteht aus 48.000 Paketen pro Sekunde. Das ergibt eine Samplingfrequenz von 48 KHz. Der Stream ist selbsttaktend, das heißt, es wird kein zusätzliches externes Wordclock-Mastergerät benötigt. Jedes Paket des Streams besteht wiederum aus 64 Samples für die 64 Kanäle. Soweit, so gut.

EtherSound-Geräte-Reihen haben, und das ist gewöhnungsbedürftig, zwei Streams, einen vom ersten zum letzten Gerät in der Reihe, der sich „Downstream“ („stromabwärts“) nennt, und einen zurück, genannt „Upstream“ („stromaufwärts“), der ursprünglich nur für das Zurückschicken von Status-Information gedacht war, aber mittlerweile auch für Audio verwendet wird. Der Vorteil dieser Bidirektionalität von EtherSound besteht darin, dass bei allen Geräten in der Reihe stets sämtliche Audioinformation anliegen kann, und zwar auch solche, die erst später eingespeist wurde. Das schafft beim Routing eine ungeheure Flexibilität.

Nehmen wir also einmal an, bei einer EtherSound-Stagebox werden Bühnensignale in den Stream eingespeist. Nun gelangen sie als handliche kleine Datenpakete via Downstream zum Mischer und am Ende zum Lautsprecher-Prozessor. Jedes dieser Geräte hat einen LAN-Eingang und einen LAN-Ausgang. Am Ende des Prozessors verschwinden sie im Nirvana, es sei denn, ein Gerät, das so genannte „Loopback-Gerät“, dreht die Fließrichtung um und schickt den Stream einfach zurück in die Reihe. Dieser Strom zurück nennt sich „Upstream“. Er strömt von den Geräte-LAN-Ausgängen zu den Geräte-LAN-Eingängen und bleibt solange bestehen, bis er am ersten Gerät ins Nirvana geschickt wird. Das Loopback-Gerät kann, aber es muss nicht zwingend das letzte Gerät in der Reihe sein. Das erste Gerät in der Reihe, also jenes, welches als erstes Audiopakete insertiert, heißt „Primary Master“.

Jedes Gerät in der Reihe kann, je nachdem, wofür es gedacht ist, Audiosignale aus dem Stream extrahieren, diese verarbeiten und sie wieder in den Stream zurückschicken. Man kann also an beliebiger Stelle im Stream Kanäle extrahieren und sie zum Beispiel zwecks Monitoring zurück auf die Bühne oder auf einen mit einer EtherSound-Karte ausgestatten PC mit Cubase, ProTools oder einer anderen DAW schicken, der das Konzert aufzeichnet. Das ist schon sehr komfortabel.

Ein Gerät in einem EtherSound-Verbund muss das Protokoll natürlich auch verstehen. Viele digitale Mischpulte oder Lautsprecher-Prozessoren sind zwar nicht gleich ab Werk EtherSound-kompatibel, aber sie lassen sich über Erweiterungskarten nachrüsten – so zum Beispiel Konsolen und Lautsprecher-Controller von Yamaha oder Digico. Yamaha stellt inzwischen auch reine EtherSound-Prozessoren her, zum Beispiel die DME-Satellite-ES-Reihe.

EtherSound-Erweiterungskarte für Yamahas Digitalpulte

Redundanz von EtherSound-Audionetzwerken – die Ringstruktur

So schick solch eine EtherSound-Gerätereihe auch sein mag: Wenn ein Gerät oder eine Kabelverbindung ausfällt, teilt dies die schönste Reihe in zwei Hälften, und der Audiostrom versiegt. Um diesem Problem Herr zu werden, haben sich Netzwerk-Ingenieure etwas ganz Besonderes ausgedacht: die redundante Ringstruktur. „Redundant“ heißt – grob ausgedrückt – dass ein Backup-Netzwerk im Hintergrund aktiviert wird, wenn das System aufgrund eines Verbindungsfehlers zusammenbricht.

Um eine solche Struktur herzustellen, wird der LAN-Ausgang des letzen Gerätes in der Reihe mit dem LAN-Eingang des ersten Gerätes verbunden. Da nun ein Ring entstanden ist, und es kein erstes Gerät mehr gibt, muss ein so genanntes „Preferred Primary Master“, also ein „bevorzugtes primäres Mastergerät“, definiert werden. Dieses „PPM“ verriegelt seinen Input, sodass die herkömmliche Reihe bestehen bleibt. Solch ein Ring arbeitet also im Grunde als normale Reihenschaltung. Der Audio-„Downstream“ startet beim PPM. Sobald der Ring von einem über das Netzwerkkabel stolpernden Freak, der sich Backstage verlaufen hat, unterbrochen wird, entriegelt das PPM seinen Input. Die „Primary Master“-Aufgaben werden nun automatisch von dem Gerät übernommen, das sich „downstream“ neben dem Verbindungsfehler befindet. Es wird eine neue Reihe mit einem anderen Primary Master gebildet. Das klingt toll, nur hat sich in der daraus resultierenden Reihe die Abfolge der Geräte verändert. Damit dies nicht zu Problemen führt, müssen redundante Ringstrukturen auf eine besondere Weise verpatcht sein. So darf zum Beispiel nur auf Downstream-Kanälen Audio verschickt und nur auf Upstream-Kanälen Audio empfangen werden.

Bei einem Netzwerkfehler bricht auch die Wordclock-Synchronisation zusammen. Daher verfügen EtherSound-Geräte über eine Art Havarietakt, der die Synchronisation bei solchen „Unfällen“ fast nahtlos wieder herstellt, um Audioaussetzer zu vermeiden. Sind diese „Emergency Clocks“ bei allen Geräten eingeschaltet, kann es sein, dass aufgrund der schnellen Wiederherstellung der Zusammenbruch des Netzwerkes zunächst überhaupt nicht bemerkt wird. Sind sie nicht eingeschaltet, dauert es rund 2-3 Sekunden, bis Audio wieder funktioniert.

Einrichtung von EtherSound-Netzwerken

EtherSound-Netzwerke sollten vor der Show eingerichtet und während des Betriebes in Ruhe gelassen werden. Die Hardware wird physisch über die LAN-Anschlüsse und Cat5E-Kabel miteinander verbunden – Kabel rein, Kabel raus, das war’s. Eventuell kommen je nach Gerät oder Interface-Karte ein paar Jumper für die Wordclock-Synchronisation mit ins Spiel. Die Samplingfrequenz beträgt in der Regel 48 kHz. 96-kHz-sind auch möglich, allerdings auf Kosten der maximalen Anzahl der Kanäle (32 statt 64). Der Rest der Einrichtung erfolgt über eine spezielle Software von Auvitran, den „ESMonitor“, sowie über einen Windows-PC.

Da bei der Einrichtung selbst kein redundanter Ring benötigt wird, kann dieser für das Setup unterbrochen und der Computer über seine LAN-Anschlüsse eingebunden werden. Der ESMonitor lässt sich auf der Webseite der französischen Firma Auvitran kostenlos herunterladen. Mithilfe der Software-Oberfläche kann man alle angeschlossenen Geräte auflisten, einstellen und verpatchen. Für das Routing der Geräte im EtherSound-Netzwerk gibt es komfortable IN/OUT-Matrizen. Die beiden Signalstrom-Richtungen „Downstream“ und „Upstream“ sind zwar gewöhnungsbedürftig, aber mit ein bisschen Übung lassen sich über die Software zum Beispiel komfortable Mehrfach-Splits für FOH, Monitoring, Recording oder Broadcast (Rundfunk & Fernsehen) routen, ohne dass zusätzliche Direct-Outs oder Splitter benötigt werden.

Wurden die Geräteeinstellungen und das Routing fertig gestellt, wird die Arbeit auf dem PC und im nichtflüchtigen RAM eines jeden ES-Gerätes im Signalpfad abgespeichert. Die Geräte können nun (zum Beispiel auf Tourneen) beliebig oft wieder auf- und abgebaut werden. Sie behalten stets ihre EtherSound-Einstellungen bei.

Multicore war gestern: EtherSound-Stagebox SB168-ES von Yamaha

Benötigtes Grundwissen

Solange die Netzwerke nur Audiogeräte, Audiosignale und ein vielleicht paar Steuerdaten für Remote-Preamps (fernsteuerbare Vorverstärker) enthalten, kann eine EtherSound-Anlage nach einer kurzen Einarbeitungszeit problemlos von normalen Audiotechnikern und Systemdesignern durchgeführt werden. Ein bisschen Grundwissen über Digitaltechnik sollte jedoch sein. Wer nicht weiß, was eine Wordlclock ist, sollte hier anfangen zu lernen. Auf den Seiten der Hersteller von EtherSound-kompatiblen Geräten, zum Beispiel bei Yamaha, Digigram, Digico, Allen & Heath oder Auvitran, finden sich zahlreiche Anleitungen und Installations-Beispiele – bei Yamaha sogar auf Deutsch.

Da EtherSound vollständig Ethernet-kompatibel ist, lässt sich solch ein Audionetzwerk über Switches als VLAN in bestehende LANs mit Fremdtraffic integrieren. V steht für virtuell, also „nicht physisch“. Solche integrierten Audionetzwerke haben sicherlich Vorteile, sind aber kompliziert und sollten nur von Personen eingerichtet werden, die wirklich Ahnung von Netzwerktechnik haben. Hier ist die Betriebssicherheit des virtuellen Audionetzwerkes zusätzlich von der Betriebssicherheit des Host-Netzwerkes abhängig. Audionetzwerke fordern darüber hinaus eine hohe Bandbreite ein und belasten das Host-Netzwerk stark.