Gli inventori dell’MP3 vogliono che l’audio si adatti in tempo reale. Questa volta, la parte difficile non è il codec.

Dopo l'MP3

Quando l'istituto dietro l'MP3 inizia a parlare di cosa verrà dopo, vale la pena ascoltare — non perché la storia garantisca un altro successo, ma perché i formati audio tendono a plasmare le abitudini molto tempo dopo che il bagliore del comunicato stampa si è spento. Il lavoro attuale di Fraunhofer sull'audio immersivo, adattivo e basato su oggetti ha il familiare odore dell'ingegneria rivolta al futuro. La parte interessante per musicisti, mixer e ascoltatori quotidiani è più semplice: tutto questo può far sì che l'audio si comporti meglio nel mondo reale?

Questo è lo standard ora. Un formato non vince perché è intelligente. Vince perché sopravvive a cuffie economiche, soundbar con posizionamenti strani, telefoni in cucine rumorose, TV con dialoghi sepolti sotto esplosioni e sessioni musicali in cui nessuno vuole passare altre due ore a nominare gli stem. La storia del codec non riguarda più solo comprimere i file. Riguarda decidere cosa resta fisso e cosa può cambiare.

La proposta: un suono che sa dove è atterrato

L'audio adattivo suona futuristico finché non lo traduci in termini pratici. Un mix tradizionale è in gran parte un'immagine finita. Prendi decisioni, le stampi e speri che il risultato si senta bene dai monitor dello studio agli altoparlanti dell'auto fino a un paio di auricolari wireless stanchi. I sistemi basati su oggetti allentano quell'immagine. Invece di trattare tutto come un blocco bloccato, certi elementi possono essere descritti come oggetti separati con metadati su posizione, livello o comportamento.

In teoria, questo crea spazio per i sistemi di riproduzione per rispondere in modo intelligente. Una TV potrebbe presentare i dialoghi più chiaramente. Un dispositivo mobile potrebbe rendere un'impressione spaziale diversa rispetto a un home theater. Un ascoltatore potrebbe ricevere una versione dello stesso programma che si adatta all'hardware invece di una versione compromessa universale ridotta.

Questa è la proposta commerciale chiara, e non è una sciocchezza. Chiunque abbia lottato con un mix denso su altoparlanti scadenti può capire l'attrattiva. Se la catena di riproduzione può fare scelte migliori con più informazioni, la traduzione migliora. Il problema è che ogni ulteriore livello di flessibilità deve essere creato, controllato e affidabile.

I musicisti non hanno bisogno di magia. Hanno bisogno di meno traduzioni sbagliate.

È qui che divento cauto in modo utile. La maggior parte dei creatori non sta seduta a chiedere i metadati degli oggetti. Si chiedono perché la voce che sembrava perfetta nella stanza suona sottile su un telefono, o perché le basse frequenze diventano un pasticcio su una soundbar da salotto. Vogliono affidabilità.

Quindi il caso pratico per i formati audio avanzati non è solo “immersione”. Questa parola è già stata usata troppo nelle demo. Il caso pratico è avere meno esperienze di ascolto compromesse tra dispositivi. Se la consegna adattiva può preservare l’intento senza chiedere all’artista di creare sei master separati, allora conta.

Per la produzione musicale, il carico deve rimanere basso. Un cantautore che lavora su un laptop non ha bisogno di un altro labirinto di esportazioni. Un ingegnere del mix con una scadenza non vuole un formato che trasformi ogni revisione in un albero ramificato di controlli di compatibilità. Se gli strumenti attorno a questa tecnologia possono mantenere il flusso di lavoro vicino alle pratiche di sessione familiari — bus, oggetti dove servono, monitoraggio sensato, downmix affidabili — allora ha una possibilità.

Altrimenti diventa un altro sistema impressionante che vive principalmente nelle demo delle conferenze e in una manciata di showcase premium.

Il vero collo di bottiglia è l’autore, non l’ascolto

L’hardware di riproduzione è migliore di prima, e il rendering software è molto più capace di quanto l’ascoltatore medio pensi. I telefoni simulano bene la spazialità. Le cuffie possono tracciare la posizione. TV e soundbar già eseguono ogni tipo di ginnastica del segnale dietro le quinte. Il lato consumer è caotico, ma non è desolato.

Il problema più difficile è a monte. Qualcuno deve preparare il materiale abbastanza bene perché tutta questa adattabilità non diventi un gioco d’azzardo. Ciò significa strumenti, standard, fiducia nel monitoraggio e abbastanza interoperabilità perché un progetto non si senta intrappolato nell’ecosistema di un solo fornitore.

Gli ingegneri hanno già visto questo film. Arriva un nuovo formato con una demo bellissima e una consegna approssimativa. La promessa creativa è reale, ma la gestione della sessione è complicata, l’ambiente di monitoraggio è fragile e la versione stereo di riserva sembra un ripiego. Poi il formato viene incolpato per peccati che in realtà appartengono al flusso di lavoro.

La rilevanza di Fraunhofer qui non è solo un'invenzione tecnica. È la possibilità di aiutare a definire una catena che va dalla produzione alla consegna senza troppe giunture brutte. Rimangono comunque molte questioni pratiche. Quanto è facile ascoltare versioni alternative? Quanto è evidente quando una decisione adattiva danneggia il mix? Quanto del processo possono gestire team più piccoli senza uno specialista in sala? Non sono domande glamour, ma decidono l'adozione.

Il broadcast potrebbe capire questo più velocemente della musica

Il broadcast e gli sport dal vivo spesso colgono il valore dell'audio adattivo prima del settore musicale, perché hanno un problema molto visibile da risolvere. La chiarezza del dialogo, i flussi in lingue alternative, le opzioni di accessibilità e la riproduzione specifica per dispositivo non sono lì dei vantaggi astratti. Sono problemi operativi quotidiani.

La musica è più complicata perché il contratto emotivo è diverso. Artisti e mixer tendono a tenere molto ai bilanciamenti fissi, alle scelte spaziali esatte e ai piccoli incidenti che fanno sentire viva una registrazione. Dare troppa libertà alla catena di riproduzione fa preoccupare le persone, giustamente, che il sistema stia rimixando la canzone alle loro spalle.

Questo non significa che la musica non sia adatta. Significa che la musica ha bisogno di guide di sicurezza. Il formato deve rispettare l'intenzione offrendo comunque abbastanza flessibilità per aiutare nelle diverse condizioni di ascolto. Pensa meno a una macchina che prende il controllo del mix e più a un sistema che preserva il mix sotto stress.

Questa distinzione sarà importante nei prossimi anni. I creatori tollereranno una consegna intelligente. Combatteranno una reinterpretazione invisibile.

Cosa osservare se effettivamente fai dischi

Se sei un musicista, produttore o mixer, la domanda utile non è se l'audio adattivo sia “il futuro.” Questa frase ha sepolto molti strumenti validi. Chiediti invece quali segnali dimostrerebbero che il sistema sta maturando.

Per prima cosa, cerca strumenti di authoring che sembrino ordinari nel miglior senso del termine. Più questo assomiglia alla logica di sessione consolidata, meglio è. In secondo luogo, osserva un comportamento affidabile nel monitoraggio e nel downmix. Se i creatori non possono prevedere cosa sentiranno gli ascoltatori, la fiducia crolla rapidamente. Terzo, presta attenzione ai percorsi di consegna che non richiedono un supporto tecnico eroico. Un formato che funziona solo all'interno di catene demo ideali rimane di nicchia.

Presta anche attenzione a chi ne beneficia per primo. Potrebbero non essere i progetti di album. Potrebbero essere emittenti, servizi di streaming, team audio per videogiochi o produttori di media ibridi che hanno bisogno di una fonte unica per servire molte destinazioni. Questo non è un fallimento. Molte tecnologie audio maturano in campi adiacenti prima che i musicisti ottengano una versione più pulita e sensata.

Per gli artisti indipendenti, il miglior risultato sarebbe una competenza invisibile. Tu fai il disco, definisci cosa necessita di un trattamento speciale, e il sistema aiuta a farlo arrivare. Niente complessità cerimoniale. Nessuna sensazione di aver preso un secondo lavoro nella gestione dei formati.

La lezione dell'MP3 non è quella che la gente pensa

La gente ricorda l'MP3 come una svolta nella compressione, e lo è stata. Ricorda anche cosa ha permesso: portabilità, condivisione, comodità e una nuova tolleranza per l'ascolto fuori dalle condizioni ideali. La lezione più profonda è che le persone adottano una tecnologia audio quando si adatta meglio al comportamento quotidiano rispetto al sistema precedente.

Questo è il livello che devono raggiungere le idee più recenti di Fraunhofer. L'ingegneria può essere impressionante. Le demo possono essere convincenti. Niente di tutto ciò risolve la vera domanda. L'audio adattivo e basato su oggetti può ridurre il numero di volte in cui il suono si rovina tra lo studio e l'ascoltatore?

Se la risposta diventa sì, i creatori troveranno spazio per questo. Non perché stessero implorando un altro acronimo di formato, ma perché sono stanchi di prendere una serie di decisioni e sentire sei diversi fallimenti a valle. Il prossimo significativo progresso audio potrebbe sembrare sofisticato sotto il cofano, ma il suo più grande risultato potrebbe essere meravigliosamente poco glamour: un mix che mantiene la sua forma quando lascia la stanza.