MP3の発明者たちは音声をリアルタイムで適応させたい。今回は難しいのはコーデックではない。

MP3のその後

MP3の背後にいる研究所が次に来るものについて語り始めるとき、それは耳を傾ける価値がある――歴史が次のヒットを保証するからではなく、オーディオフォーマットはプレスリリースの輝きが消えた後も習慣を形作る傾向があるからだ。フラウンホーファーの現在の取り組みである没入型、適応型、オブジェクトベースのオーディオは、未来志向のエンジニアリングの馴染み深い香りがする。働くミュージシャン、ミキサー、日常のリスナーにとって興味深いのはもっと単純だ――これらのどれかが現実世界でオーディオの振る舞いを良くできるかどうかだ。

それが今の標準だ。フォーマットは賢いから勝つのではない。安価なイヤホン、変な配置のサウンドバー、騒がしいキッチンの中の携帯電話、爆発音にかき消されたテレビのセリフ、誰もステムの名前付けにもう2時間も費やしたくない音楽セッションを乗り越えられるから勝つのだ。コーデックの話はもはやファイルを小さく圧縮するだけではない。何を固定し、何を変えられるかを決めることだ。

提案：音がどこに届いたかを知る音

適応型オーディオは未来的に聞こえるが、普通の仕事の話に置き換えるとそうでもない。従来のミックスはほぼ完成された絵のようなものだ。決定を下し、それをプリントし、その結果がスタジオモニターから車のスピーカー、疲れたワイヤレスイヤホンにうまく伝わることを願う。オブジェクトベースのシステムはその絵を緩める。すべてを一つの固定されたブロックとして扱う代わりに、特定の要素を位置、レベル、挙動に関するメタデータを持つ別々のオブジェクトとして記述できる。

理論的には、それが再生システムに賢く反応する余地を生む。テレビはセリフをより明瞭に提示できる。モバイルデバイスはホームシアターとは異なる空間的印象を再現できる。リスナーは妥協したワンサイズフィットオールの折りたたみ版ではなく、ハードウェアに合った同じプログラムのバージョンを得られるかもしれない。

それがシンプルなセールスピッチであり、決してナンセンスではない。悪いスピーカーで密度の高いミックスと格闘したことがある人なら、その魅力がわかるだろう。再生チェーンがより多くの情報でより良い選択をできれば、翻訳は改善される。問題は、柔軟性の層が増えるたびに、それを作成し、チェックし、信頼しなければならないことだ。

ミュージシャンに必要なのは魔法ではない。悪い翻訳を減らすことだ。

ここで私は有益な意味で慎重になります。ほとんどのクリエイターはオブジェクトのメタデータを求めているわけではありません。彼らが知りたいのは、部屋で完璧に感じられたボーカルがなぜ電話ではペラペラに聞こえるのか、あるいはリビングのサウンドバーで低音がなぜスープのように膨らんでしまうのかということです。彼らが求めているのは信頼性です。

したがって、高度なオーディオフォーマットの実用的な理由は「没入感」だけではありません。その言葉はすでに多くのデモで使い古されています。実用的な理由は、デバイス間での破綻したリスニング体験を減らすことです。もし適応的な配信が、アーティストに6つの別々のマスターを作らせることなく意図を保てるなら、それは重要です。

音楽制作においては、負担は低く抑えられなければなりません。ノートパソコンで作業するシンガーソングライターにとって、さらに複雑なエクスポートの迷路は必要ありません。締め切りに追われるミックスエンジニアは、すべてのリビジョンが互換性チェックの枝分かれツリーになるようなフォーマットを望みません。この技術を取り巻くツールが、バスや必要に応じたオブジェクト、合理的なモニタリング、信頼できるダウンミックスなど、慣れ親しんだセッションの流れに近いワークフローを維持できれば、可能性はあります。

そうでなければ、それは主にカンファレンスのデモや限られたプレミアムショーケースでしか存在しない、また別の印象的なシステムになってしまいます。

本当のボトルネックはリスニングではなくオーサリングにある

再生ハードウェアは以前よりも優れており、ソフトウェアレンダリングは平均的なリスナーが思うよりもはるかに高性能です。スマートフォンは空間感をかなりうまく偽装します。ヘッドホンは位置を追跡できます。テレビやサウンドバーはすでにあらゆる種類の信号処理を裏で行っています。消費者側は混沌としていますが、まったくの無力ではありません。

より難しい問題は上流にあります。誰かがこの適応処理が推測作業にならないように、素材を十分に準備しなければなりません。つまり、ツール、標準、モニタリングの信頼性、そしてプロジェクトが特定のベンダーのエコシステムに閉じ込められたように感じないだけの相互運用性が必要です。

エンジニアはこの展開を以前にも見ています。新しいフォーマットが美しいデモとともに登場し、粗い引き継ぎが行われます。創造的な可能性は本物ですが、セッション管理は面倒で、モニタリング環境は脆弱で、フォールバックのステレオバージョンは後付けのように感じられます。そしてそのフォーマットは、実際にはワークフローに起因する問題のせいで非難されるのです。

フラウンホーファーの重要性は単なる技術的発明にとどまらない。生産から配信までのチェーンを、あまり目立つ継ぎ目なく定義する手助けができる可能性があるのだ。とはいえ、実際には多くの現実的な疑問が残る。代替レンダリングを試聴するのはどれほど簡単か？適応的な判断がミックスに悪影響を及ぼしたとき、それはどれほど明白か？専門家がいない小規模なチームでどこまで対応可能か？これらは華やかな疑問ではないが、採用を決める重要な要素だ。

放送は音楽よりも早くこれを理解するかもしれない

放送やライブスポーツは、適応型オーディオの価値を音楽業界よりも早く理解することが多い。なぜなら、彼らには非常に明確な解決すべき問題があるからだ。対話の明瞭さ、代替言語フィード、アクセシビリティの選択肢、デバイス固有の再生は、抽象的な特典ではなく、日々の運用上の頭痛の種である。

音楽はより難しい。感情的な契約が異なるからだ。アーティストやミキサーは固定されたバランス、正確な空間的選択、そしてレコードに命を吹き込む小さな偶然に深くこだわる傾向がある。再生チェーンにあまりにも自由を与えると、システムが背後で曲をリミックスしているのではないかと合理的に心配し始める。

だからといって音楽が適さないわけではない。音楽にはガードレールが必要だということだ。フォーマットは意図を尊重しつつ、聴取環境に応じて十分な柔軟性を提供しなければならない。ミックスを機械に任せるのではなく、ストレス下でもミックスを守るシステムと考えるべきだ。

この区別は今後数年で重要になる。クリエイターはスマートな配信を許容するが、見えない再解釈には抵抗するだろう。

実際にレコードを作るなら注目すべきこと

ミュージシャン、プロデューサー、ミキサーであれば、適応型オーディオが「未来」かどうかを問うのは有益な質問ではない。その言葉は多くの優れたツールを葬ってきた。代わりに、システムが成熟していることを示す兆候は何かを問うべきだ。

まず、最良の意味で普通に感じられるオーサリングツールに注目しよう。これが確立されたセッションロジックにどれだけ似ているかが重要だ。次に、信頼できるモニタリングとダウンミックスの挙動に注目する。クリエイターがリスナーが何を聞くか予測できなければ、信頼はすぐに崩れる。三つ目は、英雄的な技術サポートを必要としない配信経路に注目する。理想的なデモチェーン内でしか動作しないフォーマットはニッチに留まる。

また、最初に誰が恩恵を受けるかにも注意を払おう。必ずしもアルバムプロジェクトとは限らない。放送局、ストリーマー、ゲームオーディオチーム、あるいは多くのエンドポイントに一つのソースで対応する必要があるハイブリッドメディアの制作者かもしれない。それは失敗ではない。多くのオーディオ技術は、ミュージシャンがよりクリーンで健全なバージョンを手に入れる前に、隣接分野で成熟するものだ。

インディペンデントアーティストにとって最良の結果は、目に見えない有能さだ。レコードを作り、特別な処理が必要な部分を定義し、システムがそれを伝える手助けをする。儀式的な複雑さはなく、フォーマット管理のために第二の仕事をしているような感覚もない。

MP3からの教訓は人々が考えているものとは違う

人々はMP3を圧縮のブレイクスルーとして記憶しているが、それだけではない。MP3が可能にしたもの――携帯性、共有、利便性、そして理想的な環境外でのリスニングに対する新たな許容度も覚えている。より深い教訓は、オーディオ技術は旧システムよりも日常の行動に合致したときに受け入れられるということだ。

それがフラウンホーファーの新しいアイデアが直面する基準だ。エンジニアリングは印象的かもしれない。デモは説得力があるかもしれない。しかし、それらは本当の問いを解決しない。適応型やオブジェクトベースのオーディオは、スタジオからリスナーに届くまでに音が崩れる回数を減らせるか？

もし答えがイエスなら、クリエイターはそれを受け入れるだろう。別のフォーマットの頭字語を求めているからではなく、一つの決定をしても下流で六つの異なる失敗を聞くことに疲れているからだ。次の意味のあるオーディオの進歩は、内部は洗練されているかもしれないが、その最大の成果は実に地味なものかもしれない――部屋を出た後も形を保つミックスだ。