Deep stereo – terza parte

Nelle due puntate precedenti abbiamo esaminato in cosa consiste il Deep Stereo, quali vantaggi comporta rispetto alla stereofonia classica e come si possono realizzare supporti a tre canali per la riproduzione mediante normali player digitali. In questa vedremo i principi di base del suo funzionamento ed i campi di applicazione, intesi come tipologie di registrazione che più o meno si prestano al processo di estrazione della componente comune.

Come funziona il Deep Stereo

Come annunciato all’inizio, qui parleremo di come il Deep Stereo funziona, ma alla luce di due limiti, solo il primo dei quali programmato sin dall’inizio della trattazione. Ovvero:

  1. Sebbene AUDIOreview sia da sempre una rivista decisamente di natura tecnica, non avrebbe molto senso illustrare in profondità concetti di matematica che non interessano alla soverchiante maggioranza dei lettori. Chi scrive, venti anni or sono, nel presentare sulle pagine di SUONO Stereo hi-fi il primo analizzatore di spettro digitale implementato con un microcomputer (che con l’indimenticato ingegner Jerislav Matijasevic chiamammo “Fourier 64”, dai nomi dello strumento matematico fondamentale e del computer usato), cercò di spiegare con un minimo di dettaglio la teoria alla base della trasformata rapida di Fourier. Dalle risposte dei lettori, e dagli incontri diretti in occasione delle fiere, mi resi conto che l’interesse per la teoria era inversamente proporzionale all’interesse per l’applicazione, quest’ultimo essendo enorme sin dal primo articolo. Gia allora la teoria della Fast Fourier Transform datava una ventina d’anni, sarebbe editorialmente sciocco ripetere l’errore oggi che la FFT di anni ne ha oltre quaranta ed è ormai talmente pervasiva da essere sfruttata nelle applicazioni più insospettabili (sebbene altri strumenti le si siano affiancati nel frattempo, il più importante dei quali è rappresentato certamente dalle Wavelets).
  2. Dopo la prima puntata, un intenso scambio di delucidazioni tra l’amministrazione della nostra casa editrice ed i relativi consulenti legali ha chiarito che una descrizione dettagliata dell’algoritmo avrebbe compromesso le procedure già attivate di copertura dei diritti d’autore. La descrizione non includerà quindi il modo di operare della parte centrale dell’algoritmo, se non in termini di talune istanze da rispettare.

Quel che vogliamo comunque sottolineare è che tutta la tecnologia Deep Stereo si basa su strumenti matematici abbastanza standard, impiegati in modo conforme a quanto noto della fisiologia della percezione sonora. Altro aspetto da citare è che il grande numero di calcoli svolti per estrarre il centrale (come detto nella scorsa puntata, si tratta di circa un miliardo di operazioni elementari per secondo) non è un limite intrinseco, bensì un limite dettato dal tempo che il sottoscritto ha potuto finora dedicare all’argomento. Già per le mie conoscenze attuali, sarebbe possibile incrementare l’efficienza computazionale quasi di un fattore due, ma probabilmente un matematico vero come il nostro professor Romani saprebbe fare ancora meglio. Del resto al momento attuale il Deep Stereo si può fare solo in post-processamento, e la velocità di calcolo non è quindi un fattore esiziale; diverso sarà ovviamente quando si tratterà di operare in hardware.

Figura 1. Diagramma descrittivo di un algoritmo di Fast Fourier Transform applicato ad una sequenza di 8 campioni. Dati n campioni, sono necessari log2(n) stadi di calcolo, e la “forma” della trasformata discreta elementare è quella di una “farfalla”. Questo algoritmo venne sviluppato nel 1965 da James W. Cooley e John Wilder Tukey, due matematici americani cui l’umanità deve molto senza minimamente saperlo, così come ovviamente a Joseph Fourier, matematico dalla vita movimentata e padre della teoria dello sviluppo in serie. Con l’algoritmo di Cooley-Tukey divenne possibile calcolare la trasformata di una sequenza discreta riducendo le operazioni di un fattore N/log2(n), un vantaggio enorme per n sufficientemente grande. Fatto curioso (ma non insolito nella storia della scienza), vari anni dopo la pubblicazione dell’algoritmo si scoprì che lo stesso era stato già sviluppato 160 anni prima da uno dei più grandi matematici di ogni tempo: Carl Friedrich Gauss.

Figura 1. Diagramma descrittivo di un algoritmo di Fast Fourier Transform applicato ad una sequenza di 8 campioni. Dati n campioni, sono necessari log2(n) stadi di calcolo, e la “forma” della trasformata discreta elementare è quella di una “farfalla”. Questo algoritmo venne sviluppato nel 1965 da James W. Cooley e John Wilder Tukey, due matematici americani cui l’umanità deve molto senza minimamente saperlo, così come ovviamente a Joseph Fourier, matematico dalla vita movimentata e padre della teoria dello sviluppo in serie. Con l’algoritmo di Cooley-Tukey divenne possibile calcolare la trasformata di una sequenza discreta riducendo le operazioni di un fattore N/log2(n), un vantaggio enorme per n sufficientemente grande. Fatto curioso (ma non insolito nella storia della scienza), vari anni dopo la pubblicazione dell’algoritmo si scoprì che lo stesso era stato già sviluppato 160 anni prima da uno dei più grandi matematici di ogni tempo: Carl Friedrich Gauss.

Detta A la componente comune ai canali sinistro e destro di un segnale stereofonico, B e C le componenti presenti rispettivamente solo a sinistra e solo a destra (ovvero detti L=A+B ed R=A+C i contenuti dei due canali), per rimuovere la parte comune basta differenziare L ed R. Se A è perfettamente bilanciato come nella nostra ipotesi, in tal modo si ottiene evidentemente B-C (od il suo opposto), ovvero la totale rimozione della parte comune, e già questo segnale è di un certo interesse per le applicazioni musicali, tanto che furono molte in passato le proposte volte ad utilizzarlo. La più famosa e plebiscitariamente citata è quella di Brian Eno – uno dei miti indiscussi dell’adolescenza di chi scrive – che nelle note introduttive di un suo disco del 1982 (Ambient 4/On Land) consigliava di connettere un terzo diffusore collegato tra i positivi (Fig. 2) dei morsetti di uscita dell’amplificatore [1], ovvero di pilotarlo proprio con B-C. È interessante leggere cosa scrisse:

“I regard this music as environmental: to be experienced from the inside. Accordingly I considered releasing a quadrophonic version of it, an idea I abandoned upon realizing that very few people (myself included) own quadrophonic systems. However, I have for many years been using a three-way speaker system that is both simple to install and inexpensive, and which seems to work very well on any music with a broad stereo image. The effect is subtle but definite – it opens out the music and seems to enlarge the room acoustically. In addition to a normal stereo hifi system all that is required is one extra loudspeaker and some speaker cable. The usage of this speaker in the three-way system is such that it will not be required to handle very low frequencies: therefore a small or “mini” speaker will be adequate. As shown in the diagram, the two terminals of the new speaker are connected to the two positive (red) speaker connectors on the amplifier. This speaker is located somewhere behind the listener – at the apex of a triangle whose base is formed by the original loudspeaker set-up. One of the unexpected benefits of this system is an increase in the usable listening area – almost any point in the room will yield good (although not necessarily “accurate”) stereo sound. I arrived at this system by accident, and I don’t really know why it works. What seems to happen is that the third speaker reproduces any sound that is not common to both sides of the stereo – i.e., everything that is not located centrally in the stereo image – and I assume that this is because the common information is put out of phase with itself and cancels out”.

Figura 2. Set up a tre altoparlanti proposto da Brian Eno nel 1982. “Sono arrivato a questo sistema per caso, ed in verità non so perché funziona” fu il suo commento, anche se in realtà aveva intuito cosa succedeva. Come si vede, il terzo altoparlante è posteriore, il che riporta in pratica ad una configurazione proposta da Gerzon nel 1970.

Figura 2. Set up a tre altoparlanti proposto da Brian Eno nel 1982. “Sono arrivato a questo sistema per caso, ed in verità non so perché funziona” fu il suo commento, anche se in realtà aveva intuito cosa succedeva. Come si vede, il terzo altoparlante è posteriore, il che riporta in pratica ad una configurazione proposta da Gerzon nel 1970.

[1] Per la verità, chi scrive è sicuro (perché provò a farlo) che un suggerimento del genere fosse stato riportato qualche anno prima in un album del genere Progressive. Mi pareva si trattasse di “Please don’t touch” di Steve Hackett, del 1978, con il cui gruppo Eno aveva collaborato sin da quattro anni prima, ma una ricognizione sull’LP non ha fornito la conferma. Se l’indicazione c’era, era su una targhetta applicata sul cellophane esterno. Qualche appassionato del genere è in grado di confermare o smentire?

A parte questa, va detto che operazioni di somma e differenza per ottenere canali suppletivi rispetto ai due della stereofonia classica erano state avanzate dai teorici dell’audio molti anni prima, a partire forse da Benjamin Bauer (altro padre emerito dell’alta fedeltà, capace di spaziare dall’acusto-elettronica all’ottimizzazione matematica della geometria dei bracci), che nel 1961 suggerì di impiegare due casse posteriori alimentate con segnali provenienti dal frontale omologo ma anche dal canale opposto, invertito di fase e con percentuale regolabile (Fig. 3). Nel 1970, nel periodo di lancio dei primi sistemi quadrifonici, un altro grandissimo dell’elettroacustica (Michael Gerzon, coinventore del sistema Ambisonic, di cui il sottoscritto è un pubblico e convinto sostenitore sin dai primi anni ’90) produsse un articolo in cui descriveva un metodo “per ottenere un suono quadrifonico da ordinarie registrazioni stereo”.

Figura 3. Set up a 4 sistemi di altoparlanti proposto da Benjamin Bauer nel 1961. I canali posteriori sono pilotati dai corrispettivi anteriori, ma anche (per valori di resistenza del potenziometro maggiori di zero) dai segnali del canale opposto, invertiti di fase.

Figura 3. Set up a 4 sistemi di altoparlanti proposto da Benjamin Bauer nel 1961.
I canali posteriori sono pilotati dai corrispettivi anteriori, ma anche (per valori di resistenza del potenziometro maggiori di zero)
dai segnali del canale opposto, invertiti
di fase.

Venivano utilizzati quattro altoparlanti (Fig. 4), due (laterali) pilotati convenzionalmente dai canali sinistro e destro, un anteriore pilotato dalla somma dei canali, ed un posteriore dalla differenza (altre ipotesi prevedevano poi diverse geometrie e “dosi” dei segnali d’ingresso), in modo che eventuali segnali sincroni caratterizzati da analoga ampiezza ma diversa fasatura potessero generare ulteriori sensazioni direzionali. Da quei tempi, le proposte per impiegare il segnale differenza (e quello somma), eventualmente ritardato, riverberato, equalizzato, riposizionato sia a livello elettrico che acustico non si contano più, così come è difficile tenere il conto degli “spazializzatori” elettronici studiati per ampliare in qualche direzione virtuale il fronte sonoro.

Figura 4. Set up a 4 sistemi di altoparlanti proposto da Michael Gerzon nel 1970.

Figura 4. Set up a 4 sistemi di altoparlanti proposto da Michael Gerzon nel 1970.

Molte di queste soluzioni generano situazioni di ascolto realmente godibili. Ricordo ad esempio che una trentina d’anni or sono, pur essendo già del tutto “indottrinato” dalle teorie che escludevano di poter ascoltare in modo decente con sistemi reciprocamente interferenti, rimasi sconcertato dal fatto che bastava raddoppiare i diffusori, e tenerli neppure tanto vicini, per godere di un fronte sonoro più “pieno” ed accattivante, pur pagando qualcosa in termini di localizzabilità. Erano i tempi in cui un po’ tutti andavamo in cerca in primis dell’equilibrio timbrico, poi delle basse profonde, delle alte setose, della dinamica, e se c’era ancora spazio – ma buon’ultima – anche della credibilità della scena sonora. Inoltre qualsiasi innovazione che tentasse di andar oltre quelle due più o meno anguste finestrelle che emettevano suoni veniva vista con grande simpatia. Oggi che gli aspetti “quantitativi” della riproduzione sonora possono essere soddisfatti senza particolari investimenti, nessun audiofilo accetterebbe più una scena “piatta”, né tantomeno si sognerebbe mai di utilizzare soluzioni empiriche strampalate per “migliorarla”: ecco perché tutti gli “elaboratori d’immagine” proposti fino ad oggi, quasi tutti invariabilmente analogici (od operanti in digitale ma con semplici operazioni aritmetiche), sono invariabilmente finiti nel dimenticatoio, od in cantina.
Il fatto è che se si rimane nel dominio del tempo non si può andare oltre B-C, ovvero non c’è modo di ottenere isolatamente B e C, e quindi A, e di conseguenza qualsiasi tentativo d’impiego di tale segnale introdurrà nell’ambiente una miscela dei segnali d’ingresso, parte in fase e parte in controfase con l’emissione primaria.
Anziché abbattere la diafonia interaurale e rendere fisica un’emissione che altrimenti è puramente virtuale, come abbiamo descritto nella prima puntata, genereremmo informazioni di pura fantasia, non riferibili ad un modello corretto.
Se si vuole mantenere l’informazione relativa all’origine delle componenti B e C, occorre cambiare dominio e passare a quello della frequenza.

Figura 5. Quel che è poco gestibile nel dominio del tempo diventa facilmente separabile in quello della frequenza. In questo caso la componente comune è la sinusoide a 4 kHz. Naturalmente, con segnali complessi e dinamici come la musica, un mero confronto spettrale non basta.

Figura 5. Quel che è poco gestibile nel dominio del tempo diventa facilmente separabile in quello della frequenza.
In questo caso la componente comune è la sinusoide a 4 kHz. Naturalmente, con segnali complessi e dinamici come la musica, un mero confronto spettrale non basta.

Con riferimento alla Figura 5, è immediato constatare che se al posto di operare sulla sequenza temporale si confrontano gli spettri, allora l’identificazione delle componenti comuni diventa immediata. Ne consegue immediatamente una tecnica per isolare la componente comune: si prende il segnale stereo, lo si trasforma, si fa un AND logico degli spettri, si ottiene la componente comune (A) e si antitrasforma per ripristinare una sequenza temporale gestibile. Ciò fatto, basta una sottrazione per avere B e C. Ebbene, un operatore matematico siffatto effettivamente funziona molto bene su segnali elementari, come possono essere le poche sinusoidi di prova viste negli esempi. Ma chi provasse a svilupparlo si renderebbe conto che non basta. La musica è infatti costituita di segnali enormemente più complessi, che nascono (ovvero sono collocati nel tempo, non solo in frequenza), si evolvono, possono intersercarsi spettralmente ed alternarsi rapidissimamente nel dominio di una banda spettrale. Inoltre, in un certo senso, a noi importa poco dei segnali in quanto tali (intesi cioè come sequenze temporali che veicolano un’informazione), mentre molto importa dell’effetto che producono sul nostro sistema percettivo.
In generale, la trasformata diretta/inversa di Fourier può essere molto utile ai nostri scopi, tenendo però presente che:

  1. Il nostro sistema percettivo “ragiona” con un logaritmo della frequenza. Per noi, un suono è più “alto” di tre volte in frequenza rispetto ad un altro quando ha una frequenza otto volte maggiore. La Fast Fourier Transform, nella sua forma “classica”, offre invece un’uscita a risoluzione lineare.
  2. La FFT non tiene in alcun conto il tempo. Se una certa componente è collocata nel tempo in una certa posizione all’interno della finestra temporale da trasformare, un collocamento simmetrico rispetto all’istante mediano produrrà lo stesso modulo (pur se ovviamente non la stessa fase), e nell’ipotesi da cui siamo partiti è il modulo quello che possiamo confrontare. Questo significa anche che se effettuiamo una “estrazione” sbagliata di una componente spettrale che riteniamo essere monofonica, l’effetto si ripercuoterà temporalmente sull’intera sequenza.
  3. Il nostro sistema percettivo è in grado di separare suoni di frequenza vicina, entro limiti legati all’altezza, all’intensità ed al mascheramento (sia per prossimità in frequenza che nel tempo), per cui una possibile trasformazione di Fourier deve essere attuata con risoluzione piuttosto alta (dato che la sua progressione è lineare, in caso contrario le basse frequenze verrebbero risolte troppo poco per la capacità discernitiva del nostro sistema uditivo). Alta risoluzione in frequenza, visto che la frequenza di campionamento è data, significa molti campioni. Molti campioni significano molto tempo, e visto che con la FFT l’informazione temporale si rischia di perderla, se si eccede in lunghezza, data l’evoluzione dinamica dei segnali musicali, si rischia fortemente di generare artefatti temporali ben udibili (es.: alterazione dei fronti di attacco/rilascio). Se si usa la FFT, la sua lunghezza dovrebbe essere “dosata” rispetto al contesto. Oppure si potrebbe operare per bande spettrali. Oppure entrambe le cose.
  4. Una volta definito l’operatore, occorre definire un suo livello di progressione sulla sequenza d’ingresso. Apparirebbe naturale usare un passo pari ad un singolo campione, ma si verificherebbe rapidamente, alla luce delle istanze precedenti, che in tal modo la quantità di operazioni da svolgere diventerebbe ingentissima (ed oggi sostanzialmente impraticabile). Se però si conosce a priori (mediante analisi su grandi quantità di campioni musicali) un limite anche solo approssimativo per la dinamicità temporale dell’evoluzione dei segnali e si tiene presente la capacità discriminante dell’orecchio in termini temporali, si possono avere indicazioni valide per una progressione più computazionalmente ragionevole.
  5. Data una progressione non-limite (ovvero non pari al singolo campione: ma in realtà si può verificare che il problema si pone anche in questo caso), si pone automaticamente il problema della riconnessione dei pacchetti. Se non risolto, questo problema genera artefatti immediatamente udibili con segnali musicali opportuni.
  6. Potrà sembrare strano (ma NON se si considera il modo di “microfonare” taluni strumenti), ma in molte circostanze le registrazioni stereofoniche presentano segnali comuni, però di fase molto differente. In questi casi l’estrazione deve essere “controllata”, per evitare l’introduzione di risonanze apparenti.

Se si tengono presenti queste istanze, e si sfruttano tutte le informazioni disponibili (ad esempio, B-C in sé non serve, ma definisce una relazione spettrale da rispettare tra il centrale estratto ed il segnale d’ingresso), si arriva ad una tecnica che non si può classificare come operante solo nel dominio trasformato, perché in effetti lavora sia nel tempo che nella frequenza.
Spero che l’amministrazione non si arrabbi troppo…

Sistemi simili

Alcuni lettori di AUDIOreview si sono stupiti, e ci hanno scritto, chiedendo perché, oltre ad Adobe Audition ed al plugin di Winamp, non avevamo citato sistemi che appaiono funzionare in modo similare al Deep Stereo, con particolare riferimento al Dolby Pro Logic II e al DTS NEO. In effetti, se si prende un qualsiasi decoder per il multicanale e lo si imposta per operare solo con i tre canali frontali, si può rimanere sconcertati ad esempio dal classico test delle tre voci (due estreme ed una centrale), perché quando parlano singolarmente si nota che quella monofonica centrale va in pratica solo sul diffusore centrale. Quando però i segnali sono contemporanei la separazione cala nettamente, come si può verificare anche solo in modo empirico connettendo un solo altoparlante per volta, e ciò avviene perché questi sistemi nascono per scopi differenti dal nostro (ampliare virtualmente il campo sonoro, sia che il segnale d’ingresso presenti una qualche forma di codifica sia che sia semplicemente stereo, ma a prescindere dal mantenimento conforme dell’informazione originale che è il nostro primo ed inviolabile vincolo). Probabilmente, quando vediamo film con colonna stereo o codificata analogicamente in surround, nessuno di noi vi rinuncerebbe, perché producono effetti di “movimento” assolutamente piacevoli. Di sicuro, nessun audiofilo li utilizza per ascoltare musica, perché la scena sonora che a noi interessa è ben altra cosa.

Figura 6. Struttura a blocchi di un decoder Dolby Pro Logic II.

Figura 6. Struttura a blocchi di un decoder Dolby Pro Logic II.

Altri si sono invece stupiti della mancanza di altre citazioni, ma non hanno scritto a noi, sono andati in Internet, su forum specializzati, ed hanno affermato con sicurezza granitica che quanto proponevamo era già stato realizzato da altri, e da molti anni. Un primo aspetto divertente è che taluni affermavano di sapere cos’era il Deep Stereo già prima del primo articolo, citando proposte presentate alle fiere milanesi vari anni or sono, e dopo essere stati smentiti dai fatti hanno continuato a criticare imperterriti, senza il minimo ripiego, con pretesti diversi. C’è poi chi ha citato proprie registrazioni musicali e i disastri acustici che avrebbe prodotto l’estrazione del canale centrale mediante il nostro demo: come si fa a sapere cosa davvero succede se solo quella persona dispone di quel file?
Ma è di un desolante accostamento fatto in questi forum che vogliamo in particolare discutere, perché coinvolge indebitamente ditte e tecnici di cui abbiamo da sempre la più alta considerazione: il sistema Trifield, sviluppato originariamente dal citato Gerzon ed adottato tra l’altro in alcuni preamplificatori/processori Meridian, alcuni dei quali – naturalmente – provati anche su queste pagine (come il 565, che esaminammo alla fine del 1997). Certo, quando in un documento Meridian si legge che “il preset Trifield estrae le componenti mono e surround della registrazione originale, poi calcola i segnali per gli altoparlanti frontali sinistro, centrale e destro”, è legittimo ipotizzare che la sua azione sia la stessa del Deep Stereo, anzi, che il Deep Stereo ne sia una volgare copia, essendo stato presentato esattamente dieci anni dopo il Trifield. Poi, però, il documento Meridian prosegue così “usando le differenze di fase e di ampiezza tra i tre canali frontali per redistribuire i suoni sulla base della frequenza”.

Figura 7. Struttura a blocchi di un decoder DTS NEO:6.

Figura 7. Struttura a blocchi di un decoder DTS NEO:6.

Beh, allora forse è qualcosa di diverso: la discriminazione in base a fase ed ampiezza fa subito venire alla mente le matrici di codifica/decodifica, usate fin dai tempi della quadrifonia, e che Paolo Nuti descrisse su AUDIOreview fin dal numero 7 (maggio 1982). Per chi non ne sapesse alcunché possiamo dire, in estrema sintesi, che un programma sonoro distribuito su più canali può essere analogicamente codificato anche su un segnale stereo, mediante operazioni di parzializzazione e moltiplicazione immaginaria (operabile fisicamente con un semplice filtro passa-tutto, vedi AR 169-170), pur rimanendo questo pienamente compatibile con la riproduzione mediante due soli canali (come erano compatibili i vecchi dischi quadrifonici SQ, dal nome della matrice sviluppata nel 1968 da Peter Scheiber e poi migliorata per la CBS dal “solito” Bauer). Il dubbio viene risolto definitivamente esaminando il relativo brevetto statunitense (numero 5.594.800), ma non necessariamente dalla lettura di tutti gli oltre 190.000 caratteri che costituiscono il testo del deposito. In effetti, basta il titolo: “Sound reproduction system having a matrix converter”; poi, se si vuole, si possono contare le volte in cui le parole “matrix” e “matrices” vengono ripetute: sono seicentotrentadue (632), più qualche decina nei 71 “drawings”.

Figura 8. Il decoder Trifield AGM DIGITAL TSS1, con relativo schema a blocchi.

Figura 8. Il decoder Trifield AGM DIGITAL TSS1, con relativo schema a blocchi.

Bastano per capire che si tratta di un sistema di decodifica analogica a matrice?
Forse no. Probabilmente bisogna andare sul sito di una serissima e competente ditta tedesca, la AGM DIGITAL ARTS GmbH, che realizza una speciale linea di accessori per impianti surround e processori, occupandosi anche di sviluppo di sistemi e software per conto terzi. Uno di questi processori è il modello TSS1, che opera sulla base del Trifield di Gerzon e nella cui pagina web compare uno schema a blocchi in cui la “Stereo Source” è subito seguita da un “Matrix Decoder”, più una opzionale linea di ritardo sul centrale uscente. Però, a ben pensarci, tutto sommato l’autore del Deep Stereo potrebbe aver preso una cantonata di dimensioni astronomiche, e quello che fa il Deep Stereo in realtà si può fare anche analogicamente, per l’appunto ricorrendo alle matrici. Per appurarlo ci viene incontro la stessa AGM DIGITAL, che realizza anche una versione software del decoder Trifield, denominata AGM ESsEX, e permette di vagliarne l’operato inviando per mail un segmento di programma sonoro stereo fino a 15 secondi (od un intero brano di cui si detengano i diritti, ma su CD-rom), restituendolo su tre canali separati. Chi scrive ha inviato 12 secondi con le voci sovrapposte citate all’inizio di questo paragrafo, voci che il Deep Stereo separa quasi completamente, quello essendo il suo scopo. Nei file restituiti dalla AGM tutte e tre le voci figuravano in ciascuno dei canali (essendo naturalmente presenti a coppie nei canali originali), e questo aspetto era esplicitamente evidenziato nel testo a corredo, lo scopo del processamento essendo quello di ottenere una “widened listening area, off axis balance of signals etc” e non essendo invece un “process for “splitting” channels out of stereo sources”.

È perfino tautologico affermare che i forum presenti sul web sono uno strumento insostituibile, costituiscono un veicolo d’informazioni potente e permettono di dar voce anche a chi non avrebbe altrimenti mezzo per esprimere pubblicamente il proprio parere. Per questo davvero poco importa che alcuni possano diventare il ricettacolo di polimorfe manifestazioni di risentimento od invidia, o che ce ne siano addirittura di nati solo per questo scopo, sovente grazie a quel bizzarro meccanismo per cui è possibile gettare sassi celandosi dietro un nickname. Ma che fesserie ad angolo giro possano essere spacciate per scientificamente fondate… no, chi firma AUDIOreview questo non lo accetterà mai.

Deep Stereo VS tecniche di registrazione

Avendo trattato con il Deep Stereo parecchie centinaia di brani di ogni genere musicale, ho maturato idee piuttosto precise sui campi in cui fornisce i risultati migliori, ed ovviamente anche quelli in cui funziona meno, ma NON ho voluto comunicarle preventivamente ai vari componenti della redazione che nelle puntate precedenti si sono occupati dei test di ascolto, per non rischiare di influenzarli. I pareri pubblicati peraltro vanno sì nella direzione delle conclusioni raggiunte anche dal sottoscritto, ma con un minimo imbarazzo devo annotare che le loro valutazioni sono in media ancor più positive (se non talvolta entusiastiche) rispetto alle mie, per quanto taluni vincoli siano emersi nelle varie esposizioni ed in particolare in quelle di Marco Benedetti e Franco Guida.
Per poter funzionare, il Deep Stereo DEVE poter disporre di una componente monofonica da isolare, nei termini fisiologicamente definiti dalla finestra di Haas e dalla dominanza di livello descritti nella prima puntata. L’algoritmo tiene conto in primo luogo di questi aspetti, e poi anche degli altri di cui sopra. Ne discende direttamente che possono presentarsi due casi estremi:

  1. Il segnale d’ingresso è monofonico od in gran parte monofonico: in tal caso tutta o gran parte della musica viene consegnata al canale centrale (salvo le basse, se come consigliato nella seconda puntata si opta per mantenere queste nei canali di origine).
  2. Il segnale d’ingresso presenta canali completamente indipendenti: in tal caso quasi nulla va sul centrale.

Potrebbe sembrare strano, ma ambo i casi possono in pratica verificarsi nella realtà. Se facciamo la versione Deep Stereo di “Michelle” dei Beatles, ad esempio, nel canale centrale non andrà quasi nulla (qualche residuo di ambienza e poco più). In un caso come questo, ascoltare in Stereo od in Deep Stereo non cambia granché, anzi, essendo evidente che l’intenzione dell’artista era quella di avere suoni totalmente distinti nei due canali stereo, meglio non tentare di estrarre nulla ed ascoltare solo il CD nativo (i Beatles “giocavano” spesso con queste soluzioni, anche perché la stereofonia era agli albori). Per converso, esistono registrazioni di musica sinfonica che sono poco più che monofoniche, ed in casi del genere il Deep Stereo non andrebbe usato proprio, visto che trasferendo quasi tutto sul centrale potrebbe solamente ridurre le dimensioni apparenti della scena sonora. Di fatto, l’esperienza indica che il Deep Stereo opera in modo classificabile da “molto interessante” ad “entusiasmante” con il jazz, la musica da camera ed in generale tutta la musica moderna incisa in studio, e da “poco o punto interessante” ad “entusiasmante” con la musica orchestrale. Tutto dipende da come la registrazione è stata effettuata, ed è facile comprenderne il perché.
Con le registrazioni da studio, ed in misura solo moderatamente minore con tutto ciò che viene ripreso mediante microfoni che “isolano” ogni esecutore, la scena sonora viene ricostruita in pratica a tavolino, in fase di missaggio, fondamentalmente regolando il pan-pot (il miscelatore sinistro-destro di ogni traccia). Anche quando, com’è prassi, viene aggiunta ambienza introducendo riverberi indipendenti (ovvero non monofonici) sui due canali, le componenti fondamentali del messaggio sonoro mantengono quel perfetto parallelismo temporale e spettrale che consente al Deep Stereo di “snidarle” ed estrarle. Quando c’è un cantante, ad esempio, nella gran parte dei casi viene collocato esattamente al centro, ed in tali condizioni l’algoritmo del Deep Stereo può estrarlo talmente bene da far udire sui lati solo il riverbero e gli eventuali effetti di caratterizzazione (es.: flanger, chorus).

IMG_0557
Con la classica il discorso è diverso e la casistica eterogenea. Anche nei casi più semplici (come i terzetti, i quartetti o i quintetti di musica da camera), che pure prevedono in genere l’impiego di singoli microfoni sui singoli strumenti, esiste di norma un microfono stereo di “ambiente”, spesso in tecnica spaziata (capsule direttive orientate da 90 a 120 gradi, distanti da 15 a 30 cm), che oltre all’ambiente prende ovviamente anche l’emissione diretta degli strumenti, con tempi diversi e globalmente non allineabili a quelli dei microfoni singoli. Questi ultimi, per quanto direttivi, non possono poi certo escludere del tutto i suoni dei concertisti contigui. Ancora più complesso è poi il caso dell’orchestra sinfonica, che può essere ripresa in molti modi: dal singolo microfono stereo (con ottima coerenza temporale, ma moderata separazione) ai molti microfoni sui singoli concertisti o gruppetti di concertisti (maggiore incisività e possibilità di separazione, ma minore coerenza temporale). In questi casi il Deep Stereo interviene, come sempre, cercando di simulare il sistema percettivo ed isolare quello che percepiremmo come segnale comune ai due canali stereo, ma tale segnale non ha sempre e necessariamente una coerenza intrinseca ed ascoltato da solo può apparire decisamente “strano”. Particolarissimo, a questo proposito, può essere uno strumento già in sé difficile da riprodurre come il pianoforte: tipicamente viene captato con due microfoni, uno verso la cordiera bassa, l’altro verso l’estensione alta, spesso con una distanza relativa tale che talune corde arrivano (con la fondamentale o con armoniche importanti) praticamente in opposizione di fase sui due microfoni. In condizioni tanto avverse, di norma, l’algoritmo del Deep Stereo non cambia le cose in modo profondo: stabilizza moderatamente la scena, limita il “buco” centrale di taluni impianti, può anche focalizzare meglio talune componenti, ma in generale il suo intervento non risulta decisivo. Ben diversi sono quei casi in cui esiste la voce umana (come nella lirica) o comunque è presente un solista, che viene di solito captato singolarmente e posizionato in mezzo alla scena. In questi casi il solista si materializza al centro, mentre l’orchestra esegue il suo lavoro sull’intera scena sonora.
Lo strano caso del DVD-Audio a tre canali e del downmix su disco compatto

Figura 9. La suite del balletto “Gayne” di Khachaturian, resa disponibile dalla Classic Records in doppia versione: DVDA a 3 canali (anche con versione stereo 192/24 e con lato DVDV per la massima compatibilità) e CD stereo.

Figura 9. La suite del balletto “Gayne” di Khachaturian, resa disponibile dalla Classic Records in doppia versione: DVDA a 3 canali (anche con versione stereo 192/24 e con lato DVDV per la massima compatibilità) e CD stereo.

Per capire se il fatto che una minoranza di (pur buone in stereo) registrazioni di classica che non fruivano molto dell’estrazione del centrale dipendeva da un limite intrinseco del Deep Stereo o dall’assenza di informazioni utilizzabili nella registrazione, abbiamo passato al vaglio una registrazione molto particolare: l’incisione Classic Records della “Gayne Ballet Suite” di Khachaturian (Fig. 9), recensita da Marco Cicogna sul numero 275 di questa rivista. Si tratta di una registrazione nativa a tre canali, ovvero pensata sin dal principio per essere riprodotta con un centrale, e traslata su due supporti digitali presenti insieme nel cofanetto: un DVD-Audio a tre canali ed un semplice CD, nel quale, evidentemente, non poteva che essere riportato un downmix stereofonico (ed ipocampionato) dei tre canali del DVDA (ovvero un mix in cui il canale centrale è stato equidistribuito su destro e sinistro, previa attenuazione dei livelli globali per evitare saturazioni). Se il Deep Stereo funziona a dovere, in questo caso il centrale estratto dal CD deve risultare molto “simile” a quello nativo inciso su DVDA. Sulle pagine della rivista possiamo mostrare la similitudine “morfologica” degli inviluppi temporali (Fig. 10). Nelle mostre specializzate saremo in grado di farla anche sentire.

Figura 10. Dalla versione CD dell’opera di Khachaturian abbiamo realizzato la versione Deep Stereo, confrontandola poi con il contenuto del DVDA a tre canali di cui, evidentemente, il CD rappresentava un downmix. Gli inviluppi di sinistra si riferiscono al Deep Stereo (Ft PA del centrale pari a 120 Hz), quelli di destra al DVD-A. Sussiste una certa familiarità...

Figura 10. Dalla versione CD dell’opera di Khachaturian abbiamo realizzato la versione Deep Stereo, confrontandola poi con il contenuto del DVDA a tre canali di cui, evidentemente, il CD rappresentava un downmix. Gli inviluppi di sinistra si riferiscono al Deep Stereo (Ft PA del centrale pari a 120 Hz), quelli di destra al DVD-A. Sussiste una certa familiarità…

Conclusioni

Essendo molte le cose da dire, non abbiamo avuto fino ad ora modo di parlare dei limiti intrinseci del Deep Stereo, almeno nella sua versione attuale. Per averne un’idea, basti dire che uno dei dubbi che il sottoscritto ha sin dal principio (ma che non ha ancora avuto modo di verificare) è che il suo intento possa persino contrapporsi al principio dell’entropia, applicata alla teoria dei segnali. Ovvero, detto terra-terra, che una volta miscelati due segnali complessi non sia in realtà più possibile separarli completamente. Ed infatti solo i segnali relativamente semplici vengono separati in modo pressoché totale. Gli altri vengono separati molto, ma talvolta, se si ascoltano i singoli canali uscenti dal processo di estrazione, si notano talune componenti secondarie residuali, nella gran parte dei casi legate alla strategia di intervento (che, per grandi linee, segue questo semplice principio “se sussiste il ragionevole dubbio di produrre una condizione non-eufonica, meglio non intervenire”). Queste componenti, tuttavia, non sono più rilevabili quando suonano tutti gli altoparlanti, sia perché di fatto non introducono suoni inesistenti in origine, sia per l’effetto di dominanza delle componenti risolte.
Premettendo un ringraziamento a quanti si sono già espressi favorevolmente rispetto alla tecnica che abbiamo proposto, ci teniamo a dire che comprendiamo bene le valutazioni teoriche di quelli che vedono nel Deep Stereo una “manipolazione”. Anche se la somma lineare del centrale e dei laterali ridà l’originale, anche se è rispettato il vincolo di non cambiare il contenuto spettrale, il sottoscritto è in questo settore da quasi trenta anni ed ovviamente si aspettava reazioni di questo tipo, magari anche solo per il fatto di poterla usare unicamente con segnali digitali. Probabilmente non esiste un mondo più strano di quello dell’alta fedeltà, dove in tanti sono al contempo “nostalgici” e severamente “ecologisti”. Ma è sensato occuparsi solo delle pagliuzze quando tra noi e la massima fedeltà di riproduzione sono ancora frapposte delle travi? Io credo di no, e il Deep Stereo nasce da questa convinzione.

Fabrizio Montanucci

Author: Redazione

Share This Post On

4 Comments

  1. Egregio dottor Montanucci, ho letto con molto piacere questo articolo, con l’attenzione di un appassionato di audio e con i limiti intrinseci di un non-matematico. (Sono, purtroppo o per fortuna, un romanziere.)
    Mi occupo, a livello amatoriale, di registrazione e riproduzione audio da molti anni, e come molti di coloro che condividono la mia passione/hobby, sono profondamente deluso dalla non-evoluzione delle registrazioni audio degli ultimi decenni.
    Se pensiamo che la stereofonia nasceva nella prima metà del secolo scorso, che negli anni ’70 già si registrava e si riproduceva in quadrifonia, sarebbe lecito aspettarsi, ai nostri anni, un’evoluzione nella registrazione/riproduzione audio di altissimo livello.
    Invece, in questi anni ipertecnologici, abbiamo la fortuna/gioia di poter scaricare da iTunes files in formato lossy teoricamente (ma anche praticamente) peggiori dei loro omologhi in formato CD, anche questo tecnicamente obsoleto.
    Mi si obietterà che esistono titoli in SACD, che si possono comprare file PCM 24/96, che esistono i Blu Ray “pure audio”… tutto vero, ma se voglio comprarmi l’ultimo disco del mio cantante preferito, magari di musica pop-rock (oddio che bestemmia…) devo rassegnarmi ad avere la versione lossy, o comprare il CD su Amazon.
    La faccio finita, so bene di parlare di “aria fritta” ma tant’è.
    Questa lunga introduzione, mi perdoni chi legge, per arrivare a un pacifico plauso per la vostra ricerca sul deep stereo: mi piacerebbe acquistare il software, e le chiedo la cortesia di indicarmi quale hardware utilizzare per poterlo usare. Attualmente ascolto con un computer iMac, un mixer Mackie Pro fx8 e due monitor Adam A-7.
    Se acquistassi un terzo monitor da destinare al canale centrale, potrei utilizzare il mio sistema per usare il deep stereo? (Il mixer dispone di due uscite separate per due coppie di monitor, ed è collegato al Mac tramite USB, ma potrei usare anche un convertitore esterno e collegarlo agli ingressi analogici del Mackie…)
    Mi scuso ancora per la lunghezza di questa mia, un suo consiglio sarebbe oltremodo gradito.
    Grazie infinite, buon lavoro e auguri per la rivista, che ovviamente leggo da decenni!
    Pier Luca Cozzani

    • Gent.mo Sig. Cozzani
      Per quanto riguarda la premessa, sono (siamo tutti in redazione) del tutto d’accordo con lei. Per quanto riguarda il programma di estrazione (Evocator), non le consiglio l’impiego della vecchia versione perché la nuova è in fase di beta testing e spero di poterla rendere disponibile entro la fine dell’anno. A parte vari affinamenti nell’algoritmo e soprattutto nei parametri ottimali di estrazione, la nuova versione crea dei file wave a 3 canali in formato extensible, direttamente leggibili dai player software dei computer e dai media player senza bisogno di altre operazioni.
      La compatibilità con il suo hardware attuale, previa acquisizione di un altro monitor, è possibile se il suo mixer è in grado di ricevere e gestire indipendentemente 3 canali distinti, ovvero non è limitato alla sola stereofonia.
      Grazie da tutti noi per i complimenti e per gli auguri
      Fabrizio Montanucci

Submit a Comment