Interview: Thomas Sandmann/Hochauflösende Audioformate



Thomas Sandmann:
Klar, aber andererseits muß man zugeben, daß heutige Digitalfilter so hervorragend klingen, daß der Vorteil flacher auszulegender Filterflanken sicher nicht der wichtigste Grund für eine Umstellung des Formates ist.


Thomas Sandmann:
Selbst bei nicht allzu steiler Auslegung des Filters ist die lineare Wiedergabe von Frequenzen bis beispielsweise 40 kHz kein Problem. Zwar reicht der Hörbereich des Menschen nur bis 20 kHz, und selbst das ist für die meisten, die dem Säuglingsalter bereits entwachsen sind, eine eher euphorisch denn zu gering gewählte Angabe. Allerdings gibt es Stimmen, die behaupten, über der Hörgrenze liegende Spektralanteile trügen dennoch zur Wahrnehmung bei. Häufig angeführt wird das sogenannte Residuumhören, also der Effekt, der beispielsweise einen tiefen Kontrabaß-Ton aufgrund seiner in der Aufnahme enthaltenen Oberwellen auch dann noch hörbar werden läßt, wenn der Grundton selbst fehlt. Da sich hierbei die Oberwellen jedoch im hörbaren Bereich befinden, sind beide Effekte nicht wirklich vergleichbar, und so gibt es ebensoviele Meinungen, die besagen, daß die Erweiterung des Audiobereichs auf über 20 kHz nichts bringe. Aus diesen Gründen wurden bereits sehr viele Hörtests durchgeführt, die häufig zu einem sehr interessanten Schluß führten: Ob die Testhörer wirklich in der Lage waren, Aufnahmen mit 44,1 kHz und 96 kHz zu unterscheiden, konnte nicht abschließend geklärt werden, da die klanglichen Unterschiede der verschiedenen Wandler deutlich größer waren, und zwar unabhängig von der eingesetzten Samplingrate.
Diese Ergebnisse zeigen, daß auch die Erweiterung des Audiobereichs nicht der ausschlaggebende Grund sein kann, von den bisherigen 44,1 kHz auf 96 kHz umzusteigen.

Thomas Sandmann:
Nein, ganz und gar nicht, es gibt da schon einige Vorteile. Sie liegen einfach nur in anderen Bereichen. Digitale Equalizer arbeiten beispielsweise mit Algorithmen, die zur Berechnung eines einzelnen Sample-Wertes auch die benachbarten mit einbeziehen. In einem 96-kHz-Signal stehen in einem gleich breiten Zeitfenster aber viel mehr benachbarte Werte zur Verfügung, wodurch der Algorithmus präziser wird. Außerdem gelingt es mit der höheren Samplingrate leichter, das Ziel analogen Klangs auch auf der digitalen Ebene zu erreichen. Immer wieder hört man, daß analoge Equalizer warm und musikalisch klingen, digitale dagegen kalt und hart. Und wer sich nicht die Mühe macht, einige Zusammenhänge näher zu betrachten, wird wohl noch bis in alle Ewigkeit das Märchen von den bösen digitalen und guten analogen Konzepten glauben. Zwar ist es in der Tat sehr schwierig, einen gut klingenden Digital-Equalizer zu bauen, dennoch ist es möglich und wird durch einige inzwischen auf dem Markt befindliche Lösungen auch bewiesen.


Thomas Sandmann:
Das stimmt nicht ganz. Der Waves Renaissance-Equalizer ist zum Beispiel ein digitales PlugIn, das aber analog klingt. Und für das Mackie Digital 8 Bus sind PlugIn-Equalizer von George Massenburg erhältlich, die sehr analog klingen.

Thomas Sandmann:
Da muß ich ein bißchen weiter ausholen (lacht). Während ein analoger Equalizer mit den Filterkurven seiner Bänder bis weit über die Hörgrenze hinausreicht, kann ein digitales Konzept aufgrund des Abtasttheorems von Nyquist nur Frequenzen bis zur halben Samplingfrequenz wiedergeben. Das ist nicht schlimm, denn wie wir weiter oben schon festgestellt haben, hört das menschliche Ohr im darüberliegenden Frequenzbereich ohnehin nichts mehr. Der ideale digitale Equalizer weist daher Filterkurven auf, die dem analogen Vorbild exakt gleichen, jedoch bei der halben Samplingfrequenz abrupt enden. In der Realität werden digitale Equalizer als sogenannte IIR-Filter (Infinite Impulse Response) ausgelegt. Dabei wird jedoch nicht das analoge Spektrum zwischen Null und der halben Samplingfrequenz auf eben diesen Bereich in der digitalen Ebene abgebildet, sondern es wird das Gesamtspektrum bis zu unendlich hohen Frequenzen auf den endlichen Bereich auf digitaler Ebene projiziert. Folglich ergibt sich eine Stauchung der Bandbreiten und Verschiebung der Mittenfrequenzen bei der digitalen Simulation. Es ist nicht verwunderlich, daß ein solcher Equalizer „hart“ klingt, denn wenn man am analogen Pendant den Q-Faktor erhöht, stellt sich der gleiche Klangcharakter ein. Abhilfe schafft ein Algorithmus, der die Verschiebung der Mittenfrequenzen und Stauchung der Filterkurven korrigiert. Während das im Baß- und Mittenbereich sehr gut funktioniert, müssen im hohen Frequenzbereich Kompromisse eingegangen werden, um einerseits der Filterkurve des analogen Vorbilds möglichst nahe zu kommen, andererseits aber den prinzipbedingten Abfall der Kurve auf den Wert Null zu realisieren. Typisch für derartige Equalizerkonzepte ist ein sehr analoger Klang, der sich allerdings bei den Bändern mit hoch angesetzten Mittenfrequenzen noch immer vom Original unterscheidet.


Thomas Sandmann:
Die kommen jetzt ins Spiel! Denn bei doppelter Samplingfrequenz und damit doppelter Audiobandbreite ergibt sich die Situation, das analoge Modell auch über den hörbaren Bereich hinaus simulieren und somit innerhalb dieses Bereiches ein exaktes Abbild schaffen zu können. Derartig aufgebaute Equalizer klingen wie ihre analogen Vorbilder und übertreffen diese sogar in der Signalqualität, da kaskadierte Analogstufen stets mit Rauschen zu kämpfen haben. Die doppelte Samplingfrequenz läßt sich bei sogenannten Double Sampling Equalizern auch intern erzeugen, so daß die Ein- und Ausgangssignale weiterhin mit 44,1 oder 48 kHz getaktet sind. Insofern können solche Equalizer auch dann in die digitale Signalkette Einzug halten, wenn diese nicht durchgängig mit der hohen Samplingrate arbeitet.


Thomas Sandmann:
Wie wir bereits gesehen haben, stellt die Signalverarbeitung mit einer Wortbreite von 24 Bit und die anschließende Konvertierung in das CD-Format mit 16 Bit eine wichtige Grundlage heutiger Produktionstechniken dar. Bei der Wortbreitenreduktion arbeitet man oft mit einem geringen Zusatz von Rauschen, dem sogenannten Dither-Rauschen. Auch hier haben 96-kHz-Signale die Nase vorn, denn die Rauschleistung verteilt sich auf ein doppelt so breites Band, von dem nur eine Hälfte hörbar ist. Das wahrgenommene Rauschen verringert sich dadurch um 3 dB. Noch wesentlich weiter reichen die Vorteile beim Noiseshaping. Hier geht es darum, die Rauschleistung zu einem möglichst großen Teil im Band zwischen Hörgrenze und Nyquist-Frequenz anzuordnen. Bei einer Abtastrate von 44,1 kHz ist dieses Band sehr schmal, und eine hohe Rauschleistung läßt sich nur mit starken Pegelerhöhungen realisieren, wodurch die Grenzen des Möglichen sehr schnell erreicht sind. In einer 96-kHz-Umgebung verhält es sich jedoch ganz anders, denn hier steht der weite Bereich zwischen 20 und 48 kHz zur Verfügung, wodurch bei geschickter Filterung der größte Teil des Rauschens in den unhörbaren Bereich verlagert werden kann.


Thomas Sandmann:
Das ist Jägerlatein.


Thomas Sandmann:
Beim Richtungsempfinden einer Stereo-Aufnahme unterscheiden wir zwischen der Intensitäts-Stereofonie und der Laufzeit-Stereofonie. Erstere beruht auf unterschiedlichen Pegeln eines Signals in beiden Kanälen und wird im Studio mit den Panorama-Reglern des Mischpults erzeugt. Bei natürlichen Stereoaufnahmen, insbesondere bei Nutzung der klassischen Zwei-Mikrofon-Technik, ergibt sich das Richtungsempfinden jedoch aus den Laufzeitunterschieden. Nach dem Gesetz der ersten Wellenfront, auch Haas-Effekt genannt, orten wir ein Signal aus der Richtung, aus der der Schall zuerst unser Gehör erreicht – und zwar auch dann, wenn die Lautstärke an beiden Ohren gleich ist. Nur wenig aus der Stereomitte verschobene Signale erzeugen Laufzeitunterschiede von nur wenigen Mikrosekunden. Der Abstand zweier Samples eines 44,1-kHz-Signales beträgt jedoch eine 44.100stel Sekunde, also ca. 23 Mikrosekunden. Vielfach hört man nun die Meinung, daß die höhere Samplingrate mit ihrem kürzeren zeitlichen Abstand zwischen zwei Samples besser geeignet sei, solche geringen Laufzeitunterschiede wiederzugeben. Allerdings entbehrt diese Theorie jeglicher Grundlage, denn in einem digitalen Signal können sehr wohl kürzere Zeitabstände dargestellt werden, als der Abstand zweier Samples beträgt. Die Phasenlage eines digitalen Audiosignals ist nämlich wertkontinuierlich, da sich die Quantisierung und die daraus ergebenden Zahlenwerte immer nur auf die jeweils aktuelle Amplitude in einem diskreten Zeitraster erstreckt. Nach der Rekonstruktion bei der D/A-Wandlung ergibt sich daher neben der ursprünglichen Wellenform auch die ursrüngliche Phasenlage des Signals. Allein die Erhöhung der Samplingfrequenz bringt hier folglich keinen Vorteil.


Thomas Sandmann:
Die Erhöhung der Wortbreite eines Digitalsignals auf 24 Bit bringt eigentlich immer Vorteile, und zwar auch dann, wenn das Musiksignal danach auf einer CD mit 16 Bit verewigt wird. Bei mehreren digitalen Bearbeitungsschritten und beim Einsatz von Dynamikkompressoren ist es für höchte Ansprüche an die Qualität einer CD sogar unerläßlich, mit der höheren Auflösung zu arbeiten, da nur so die 16 Bit des CD-Formats überhaupt ausgenutzt werden können. Allerdings sollte man auch wissen, wo die Grenzen liegen. Wer ausschließlich Heavy Metal mit einer Gesamtdynamik von 5 Dezibel über die vollständige Dauer der Produktion aufnimmt, wird mit seinem Pegel ohnehin nie in den Bereich der LSBs gelangen. Ebenso ist es Unsinn, bei der Wandlung eines mit -60 dB rauschenden Mischpultausgangs Dither-Rauschen in der Größenordnung eines LSB zuzugeben. Hier sollte man sich lieber um die Mute-Automation und sauberes Gating kümmern.
Nun zur Samplingrate: Aus Sicht der Aliasing-Problematik sind wir mit den heute üblichen Abtastfrequenzen bereits gut bedient. Die Erhöhung auf 96 kHz bringt allenfalls leichte Verbesserungen, profitiert allerdings gleichzeitig von anderen Vorteilen wie besseren Equalizeren und erweiterten Möglichkeiten in der Nachbearbeitung. Wer bei seinen Produktionen also auf höchste Audioqualität Wert legt, wird die Vorteile des 96-kHz-Formats zu schätzen wissen. In jedem Fall ist aber die Erhöhung der Auflösung auf 24 Bit weit wichtiger als die höhere Samplingrate.

Forum
  1. Avatar
    AMAZONA Archiv

    Toll endlich mehr Durchblick. Aber Ditherung ist sicher nicht sinnvoll, die Mics und die Preamps geben genug davon ab. Extremes Noiseshaping wie beim SACD Verfahren, mit den mikroskopisch wenigen echten Bits Auflösung ist nicht so toll.

    No Oversamplung, Noiseshaping, Dithering etc, bei AD und DA uns es wird einfach analoger klingen. Aber die Raumlichkeit klappt halt immer noch zusammen im Vergleich zu Analogen High End Aufzeichnungen.

Kommentar erstellen

Die AMAZONA.de-Kommentarfunktion ist Ihr Forum um sich persönlich zu den Inhalten der Artikel auszutauschen. Sich daraus ergebende Diskussionen sollten höflich und sachlich geführt werden. Haben Sie eigene Erfahrungen mit einem Produkt gemacht, stellen Sie diese bitte über die Funktion Leser-Story erstellen ein. Für persönliche Nachrichten verwenden Sie bitte die Nachrichtenfunktion im Profil.