Deep Stereo – prima parte

Un nuovo modo di ascoltare la musica

Da circa quaranta anni ascoltiamo la musica sostanzialmente nello stesso modo, ovvero in stereofonia, se si fa eccezione per un paio di tentativi di innovazione significativi. Il primo risale ai primi anni ’70 ed era la Quadrifonia, che si estinse rapidamente sebbene il mercato di allora fosse indubbiamente disponibile: troppo inadeguata la tecnologia del tempo, troppo costose ed instabili le apparecchiature necessarie, troppo costosi anche i pochi dischi che vennero realizzati. Il secondo è ancora formalmente in corso e consiste nell’ascoltare musica da cinque altoparlanti disposti orientativamente su di un cerchio, non ha un nome vero e proprio e viene genericamente definito “Multicanale”: sebbene disponga di potenzialità notevoli, sta languendo anch’esso, non avendo mai fatto breccia tra gli audiofili anche grazie ad un “lancio” demenziale, fatto di strumenti acustici provenienti da dietro, di ricerca dell’effetto e di dimostrazioni nelle fiere di settore che, con eccezioni rare, difficilmente avrebbero potuto essere peggio condotte.
Quella che proponiamo a partire da questo articolo non è una nuova forma di multicanale bensì una tecnologia che fa evolvere la stereofonia, abbattendone il maggiore difetto “storico” – a cui siamo tanto abituati da averne spesso persino dimenticato l’esistenza – ma senza modificare il segnale stereofonico di cui si alimenta.
E proprio perché funziona con normali segnali stereo, è utilizzabile con tutto il software delle nostre preziose discoteche.

Un difetto di alcuni degli articoli pubblicati in passato in materia di stereofonia e percezione dei suoni, molti dei quali ho ampiamente riletto prima di scrivere questo, è stato forse quello di non mettere subito i lettori in condizione di capire dove si andava a parare. Ebbene, in poche parole, quello che abbiamo denominato Deep Stereo consiste in questo:

  1. Estrazione, mediante un algoritmo implementato in un programma per computer appositamente sviluppato, della componente comune dei segnali stereofonici, che esiste nella totalità delle registrazioni moderne e nella stragrande maggioranza anche di quelle realizzate tra la fine degli anni ’60 ed i primi ’70. Ciò significa che stiamo trattando di qualcosa che si può fare sulla musica che esiste in formato digitale (Compact Disc in particolare), o che deve essere digitalizzata per poter essere sottoposta al trattamento.
  2. Sottrazione di tale componente agli originali canali sinistro e destro, nei quali rimarranno pertanto le sole componenti laterali del mix originario. Ciò significa che, se si risomma la componente centrale a quelle laterali, si riottiene esattamente il segnale d’ingresso.
  3. Trasferimento, sempre tramite PC, dei tre canali risultanti su supporti e formati in grado di ospitarli (che sono basilarmente due, come vedremo).
  4. Riproduzione dei supporti attraverso impianti a tre canali, ovvero con un canale centrale interposto tra i classici altoparlanti sinistro e destro. Vedremo poi quali caratteristiche deve possedere tale sistema centrale.

Agli audiofili di vecchia data, specie se lettori di questa rivista, a questo punto sarà ben chiara la gran parte delle conseguenze positive di questo modo di operare. Ma un articolo su una nuova tecnica di riproduzione del suono ha un senso solo se descrive i termini del problema a 360 gradi, e ciò è quanto cercheremo sinteticamente di fare a partire dal prossimo paragrafo.

Da Edison alla svolta della stereofonia

In effetti, se per spiegare qual è la ragione fondante del Deep Stereo partissimo dall’invenzione del fonografo, faremmo una di quelle carrellate compilative in cui per dire del nuovo si usa il dieci per cento dello spazio disponibile mentre il già noto occupa l’ottanta, il rimanente venendo occupato da riferimenti bibliografici che quasi nessuno utilizza, talvolta a partire dallo stesso autore. Il sottoscritto è come sempre ben disponibile a fornire ogni delucidazione sull’evoluzione delle tematiche coinvolte in questi articoli, ma qui si cercherà di seguire una via più diretta, fermo restando che almeno i prodromi della materia è necessario richiamarli.
La musica riprodotta nacque ovviamente monofonica, e tale rimase formalmente fino al 1931, anno in cui un ventottenne ingegnere della Electric And Musical Industries ltd. (EMI) depositò in Inghilterra un brevetto chiave per il futuro dell’audio, il numero 394325, ovvero “Miglioramenti relativi ai sistemi per la trasmissione, registrazione e riproduzione del suono”. Che Alan Dower Blumlein sia stato una mente geniale lo dimostrano non solo i 128 brevetti (molti relativi ad applicazioni fondamentali anche oggi) che depositò nel corso della sua carriera, ma anche la stranezza del suo cursus studiorum, che lo accomuna ad altri grandi del ventesimo secolo. Basti pensare che a tredici anni non era ancora in grado di leggere e scrivere, e tuttavia ciò non gl’impedì di laurearsi a diciotto (in “Ingegneria Elettrica Pesante”, grosso modo equivalente agli attuali indirizzi elettrotecnici). Ma leggiamo in cosa consiste la stereofonia direttamente dalle parole di Blumlein:

“Il cuore dell’invenzione consiste nel fornire un sistema di registrazione e riproduzione del suono per il quale una vera sensazione direzionale possa essere trasmessa ad un ascoltatore migliorando in tal modo l’illusione che il suono proviene, e proviene solamente, dall’artista o da altra sorgente sonora presentata all’occhio. Affinché le basi fisiche dell’invenzione possano essere apprezzate e gli stadi del suo sviluppo compresi, saranno rapidamente riassunti elementi noti ed acquisiti riguardanti le relazioni fisiche tra sorgenti sonore, le onde sonore emesse e le orecchie umane.
L’abilità umana di determinare la direzione dalla quale il suono arriva è dovuta all’ascolto binaurale, la mente essendo in grado di rilevare differenze tra i suoni ricevuti dalle due orecchie dalla stessa sorgente, ricavando in tal modo la direzione angolare. Questa funzione è ben conosciuta ed è stata impiegata ampiamente ad esempio nel rilevamento direzionale subacqueo, nel quale due microfoni sono connessi a cuffie, su ciascun orecchio di un osservatore, tenendo completamente separati i due canali tra i microfoni e le due orecchie.
Con due microfoni correttamente spaziati ed i due canali integralmente separati è noto che questo effetto direzionale può anche essere ottenuto ad esempio in uno studio, ma se i canali non sono mantenuti separati (ad esempio sostituendo le cuffie con due altoparlanti) l’effetto si perde notevolmente. L’invenzione contempla il controllo del suono, emesso ad esempio da tali altoparlanti, in modo tale che l’effetto direzionale sarà mantenuto.
Il modo in cui le orecchie determinano la direzione di una sorgente sonora non è ancora completamente conosciuto ma è piuttosto ben chiaro che i fattori principali in gioco sono le differenze di fase e di intensità tra i suoni che raggiungono le due orecchie, l’influenza di ciascuna di queste dipendendo dalla frequenza del suono emesso. Per onde sonore a bassa frequenza sussiste una differenza piccola o nulla nell’intensità alle due orecchie ma c’è invece una marcata differenza di fase. Data una determinata obliquità del suono la differenza di fase è approssimativamente proporzionale alla frequenza, rappresentando idealmente un tempo fisso tra i suoni che arrivano alle due orecchie, misurando il quale la mente decide la direzione da cui arriva il suono. Questa operazione funziona per tutte le frequenze fino a quella in cui c’è una differenza di fase di 180 gradi o più tra i suoni che arrivano alle due orecchie da una sorgente collocata sulla linea che le unisce; ma sopra tale frequenza se la differenza di fase fosse la sola caratteristica su cui contare per determinare la direzione ci sarebbe ambiguità nella posizione apparente della sorgente. A quel punto tuttavia la testa inizia ad operare efficacemente come un ostacolo e causa notevoli differenze di intensità tra i suoni in arrivo alle orecchie, ed è misurando tali differenze di intensità che la mente determina la direzione dei suoni alle alte frequenze. Si è stabilito che la frequenza alla quale la mente cambia il metodo di discriminazione dalla fase all’intensità avviene sopra i 700 cicli per secondo ma occorre comprendere che ciò può cambiare entro limiti abbastanza ampi in circostanze diverse e da persona a persona, e che in ogni caso il passaggio non è improvviso o discontinuo bensì c’è una notevole sovrapposizione dei due fenomeni, così che su un’ampia banda di frequenze le differenze sia di fase che di intensità avranno in parte un effetto nel determinare il senso della direzione sperimentato.
Dalle considerazioni di cui sopra risulta chiaro che un effetto direzionale dev’essere ottenuto fornendo alle orecchie differenze di fase alle basse frequenze e differenze d’intensità alle alte frequenze, e risulterebbe che nella riproduzione da due altoparlanti le differenze ricevute mediante due microfoni opportunamente spaziati per rappresentare le orecchie umane produrrebbero questo effetto ad un ascoltatore se ogni microfono fosse connesso solo ad un altoparlante. Si può dimostrare comunque che le differenze di fase necessarie alle orecchie per le sensazioni direzionali alle basse frequenze non sono prodotte da differenze di fase ai due altoparlanti (che comunicano entrambi con ambo le orecchie) bensì sono prodotte da differenze di intensità agli altoparlanti: mentre le iniziali differenze di intensità dalle sorgenti necessarie per le alte frequenze non sono abbastanza marcate quando il suono raggiunge le orecchie, e per produrre effetti adeguati le differenze iniziali devono pertanto essere amplificate. Vedremo quindi che in termini generali l’invenzione consiste nel controllare l’intensità del suono emesso da una pluralità di altoparlanti od analoghe sorgenti sonore, in adeguate relazioni spaziali con l’ascoltatore, sì che le orecchie dell’ascoltatore percepiscano differenze di fase alle basse frequenze e differenze di intensità alle alte frequenze adatte per comunicare alla mente un desiderato senso di direzione dell’origine del suono.

L’invenzione consiste anche in un metodo di trasmissione, registrazione e/o riproduzione del suono in cui le differenze di fase tra una pluralità di segnali sono convertite in differenze di ampiezza”.

Segue una descrizione completa di possibili implementazioni concrete del metodo (v. ad esempio fig. 1), inclusive di una tecnica per la registrazione del suono dei due canali necessari sbalorditivamente simile a quella che, decenni dopo, verrà utilizzata nei dischi vinilici. A parte qualche dettaglio (ad esempio, la frequenza di transizione tra dominanza della differenza di fase interaurale e differenza di livello si colloca in media oltre un’ottava sopra quanto indicato da Blumlein), ed ovviamente varie acquisizioni successive sul sistema percettivo dei suoni, c’è da rimanere stupiti del livello di conoscenza della materia e della capacità di sfruttare tutte le deboli possibilità tecnologiche dell’epoca per arrivare a proporre qualcosa che poteva perfettamente funzionare. In effetti, a 75 anni di distanza, a parte un profondo senso di ammirazione per quello che è stato anche definito “probabilmente il più grande ingegnere elettrico di tutti i tempi”, dovremmo forse provare qualche forma di vergogna per non essere ancora in grado di generare onde di pressione senza ricorrere a pesanti membrane mobili, e soprattutto per il fatto di ricorrere ancora al suo sistema per simulare la collocazione spaziale di una sorgente sonora.

Figura 1. Rappresentazione di una possibile forma della stereofonia inclusa nel brevetto di Blumlein. La pressione emessa dalla sorgente da localizzare (a) viene ricevuta da due microfoni a pressione (a1 e a2) montati ai lati opposti di una parete di legno (b) che “serve a fornire ai microfoni le differenze di intensità alle alte frequenze nello stesso modo in cui la testa umana funziona con le orecchie”. (b1) e (b2) sono preamplificatori microfonici, che confluiscono in un circuito “modificatore” il quale, sulla base di confronti dei segnali somma e sottrazione, trasforma le differenze di fase in differenze di intensità, e consegna tale segnale agli amplificatori finali (d1) e (d2). (e1) e (e2) sono ovviamente gli altoparlanti disposti, in questa ipotesi, ai lati di uno schermo cinematografico.

Figura 1. Rappresentazione di una possibile forma della stereofonia inclusa nel brevetto di Blumlein. La pressione emessa dalla sorgente da localizzare (a) viene ricevuta da due microfoni a pressione (a1 e a2) montati ai lati opposti di una parete di legno (b) che “serve a fornire ai microfoni le differenze di intensità alle alte frequenze nello stesso modo in cui la testa umana funziona con le orecchie”. (b1) e (b2) sono preamplificatori microfonici, che confluiscono in un circuito “modificatore” il quale, sulla base di confronti dei segnali somma e sottrazione, trasforma le differenze di fase in differenze di intensità, e consegna tale segnale agli amplificatori finali (d1) e (d2). (e1) e (e2) sono ovviamente gli altoparlanti disposti, in questa ipotesi, ai lati di uno schermo cinematografico.

Blumlein aveva in mente soprattutto applicazioni cinematografiche [1], e perché la sua idea trovasse concreta applicazione nella riproduzione musicale sarebbe stato necessario attendere quasi altri trent’anni.
[1] È noto un aneddoto secondo il quale, mentre osservava uno spettacolo cinematografico con la futura moglie Doreen, Blumlein le chiese se avesse notato che la voce della persona sullo schermo provenisse solo da una posizione. Doreen rispose di no, senza peraltro interrompere il ragionamento di Alan, che semplicemente replicò “Bene, conosco un modo per far sì che la voce segua la persona”.
Va anche notato che Blumlein usa il termine “binaurale” e mai fa riferimento a “stereo”. L’etimo della parola che ci è così familiare è nelle parole greche “stereos”, ovvero, solido, tridimensionale, e “phonos”, suono: è quindi un termine piuttosto improprio, dato che, dati due altoparlanti, al più la localizzazione dovrebbe poter avvenire lungo una linea. La parola “stereofonia” venne coniata dalla Western Electric nel 1937, in occasione del meeting della Society of Motion Picture Engineers, oggi meglio nota come Society of Motion Picture and Television Engineers (SMPTE).
In ogni caso, è bene aver chiara l’essenza del ragionamento di Blumlein: data una pluralità di altoparlanti (ovvero, non meno di due), è possibile creare l’illusione di una sorgente posta in posizione intermedia tra di essi agendo semplicemente sul livello generato da ciascuno. Un caso particolare, ma di importanza estrema nella realtà, è quello di un sistema costituito da due altoparlanti che emettono lo stesso suono alla stessa intensità, con l’ascoltatore equidistante tra i due: in tal caso la direzione percepita sarà ovviamente quella del punto intermedio.
Almeno in prima approssimazione.

L’altra possibilità: l’Effetto Haas

Nella seconda metà degli anni ’40 Helmut Haas pubblicò uno studio fondamentale per la psicoacustica, poi tradotto nel ’49 con il titolo “The Influence of a Single Echo on the Audibility of Speech”. Egli descrisse un esperimento in cui un ascoltatore era posizionato tra due altoparlanti distanti tre metri e disposti simmetricamente con angoli di 45 gradi (condizione quindi non molto dissimile da quella tipica dell’ascolto stereofonico). Se gli altoparlanti riproducevano lo stesso programma sonoro in modo sincrono, la direzione apparente di provenienza era ovviamente quella centrale. Se invece veniva introdotto un ritardo compreso approssimativamente tra 5 e 40 millisecondi, veniva percepito uno spostamento verso l’altoparlante che emetteva per primo e, cosa ancor più strana, l’altro altoparlante sembrava comunque contribuire alla sensazione di volume e di “pienezza” sonora, pur non contribuendo alla determinazione della posizione fintanto che la sua emissione non superava di 8-10 dB quella dell’altro.
Il motivo per cui esseri umani ed animali superiori “funzionano” in accordo a questo effetto (che viene detto anche “di precedenza” o “legge del primo fronte d’onda”) è subito evidente: in un ambiente chiuso si generano tipicamente delle riflessioni, che in alcuni casi (es.: una caverna) possono essere direttamente confrontabili come livello con il suono diretto, e per valutare ad esempio da quale posizione una fiera sta per balzare contro di noi occorre allora essere in grado di identificare il suono che segue il percorso più corto, che è ovviamente quello diretto. Poiché natura non facit saltus, è abbastanza intuitivo dedurre che tra la condizione in cui due suoni identici arrivano sincroni, e la direzione conseguentemente percepita è quella mediana, e la condizione in cui gli stessi suoni arrivano con un ritardo relativo (ad esempio) di 30 millisecondi, e la direzione apparente è pertanto quella dell’altoparlante che emette per primo, esisteranno valori di ritardo intermedi che consentiranno di “spostare” progressivamente la sorgente lungo la congiungente i due altoparlanti. In parte ciò è vero, e del resto le riprese di musica dal vivo fatte con due (o più) microfoni non coincidenti si basano anche su questo principio per cercare di restituire la collocazione spaziale degli strumenti. Nelle registrazioni da studio si è pure cercato di ottenere risultati analoghi, ma in generale questa tecnica sembra essere stata abbandonata perché conduce a risultati meno stabili e prevedibili rispetto al semplice “pan-pot” sul livello. A supporto di questa affermazione si possono portare due elementi di natura empirica:

  1. La forma finale dell’algoritmo del sottoscritto, che è alla base del Deep Stereo, è molto sensibile ai ritardi temporali, ed opererebbe meno bene se questi fossero utilizzati intensivamente. Nelle centinaia di registrazioni da studio trattate con tale programma per la verifica del medesimo, solo in una parte minoritaria sono stati riscontrati asincronismi di qualche rilievo ai fini del posizionamento virtuale.
  2. Poiché un conto è la teoria sulla percezione sintetizzata nella letteratura disponibile, ed un altro è vivere in prima persona un esperimento, chi scrive ha effettuato un test che è alla portata di chiunque sappia usare un PC ed un programma di editing audio. Selezionato un brano musicale con più componenti, inclusa la voce umana, l’ho utilizzato per realizzare un CD in cui il contenuto identico dei due canali veniva progressivamente ritardato passando di traccia in traccia, scalando in modo approssimativamente logaritmico i ritardi in un range compreso tra 200 microsecondi e 150 millisecondi (ed ovviamente includendo una traccia di riferimento perfettamente sincrona). Ascoltato nella nostra sala di ascolto con più impianti, e chiedendo ad altri componenti della redazione di partecipare al test, è risultato che questa tecnica opera meravigliosamente nel ricollocare al centro della scena virtuale quei disassamenti causati da un posizionamento asimmetrico dell’ascoltatore. In altri termini, se ascolto su un divano e mi sposto (fig. 2) rispetto alla mediana ideale in modo da, ad esempio, avere un altoparlante più vicino dell’altro di 30 cm, allora un ritardo dell’altoparlante più vicino pari a 870 microsecondi (0,3 metri diviso i 344 metri al secondo di velocità del suono) riporterà esattamente al centro sia il cantante che qualsiasi altra componente monofonica. Ben diverso è però il risultato se, con l’ascoltatore in posizione centralmente ideale, l’intento è quello di modulare la posizione virtuale della sorgente. In quel caso è possibile arrivare a qualche risultato che “somiglia” all’obiettivo perseguito usando ritardi da poche centinaia di microsecondi ad alcuni millisecondi, ma gli indici dei partecipanti al test iniziano a puntare in direzioni diverse, e spesso si ha la sensazione che una componente sia posizionata in modo diverso dall’altro. Essendo questo, come detto, un test facilmente riproducibile, invitiamo tutti gli interessati a realizzarlo: se emergeranno risultati nuovi e validabili, ne potrebbe nascere un articolo verticale sul tema.
Figura 2. Se si ascolta da un posto diverso (ma non troppo, altrimenti entrano in gioco anche le differenze di livello e di arrivo delle riflessioni) da quello ideale per l’ascolto stereofonico e si anticipa l’altoparlante più lontano di quanto occorre a rendere nuovamente sincroni i segnali, una componente monofonica del segnale (stesso livello su ambo i canali) si ricollocherà al centro virtuale degli altoparlanti stessi. Se invece ci si colloca nel punto centrale ideale e si generano dei piccoli (da centinaia di microsecondi a pochi millisecondi) ritardi relativi, la direzione apparente del suono si sposterà ma in modo non altrettanto univoco ed omogeneo.

Figura 2. Se si ascolta da un posto diverso (ma non troppo, altrimenti entrano in gioco anche le differenze di livello e di arrivo delle riflessioni) da quello ideale per l’ascolto stereofonico e si anticipa l’altoparlante più lontano di quanto occorre a rendere nuovamente sincroni i segnali, una componente monofonica del segnale (stesso livello su ambo i canali) si ricollocherà al centro virtuale degli altoparlanti stessi. Se invece ci si colloca nel punto centrale ideale e si generano dei piccoli (da centinaia di microsecondi a pochi millisecondi) ritardi relativi, la direzione apparente del suono si sposterà ma in modo non altrettanto univoco ed omogeneo.

Da queste esperienze si deduce tra l’altro un elemento interessante, che (fatti salvi i limiti di conoscenza di chi scrive) non è forse mai stato messo in evidenza: chi pensa di compensare dei disassamenti posizionali (od al limite anche delle asimmetrie ambientali) ricorrendo al comando di bilanciamento, incorre in un errore madornale. Una funzione di bilanciamento rispettosa della fisiologia dell’udito, e degna di impianti hi-end, dovrebbe compensare non solo il livello di arrivo dei segnali, ma anche il ritardo relativo. Ciò si potrebbe fare con grande facilità operando a livello del lettore digitale. Di fatto, un comando di bilanciamento di livello inserito in un amplificatore hi-end rappresenta una sorta di contraddizione in termini, e ben fanno quei costruttori minimalisti che non lo contemplano.

Diafonia Interaurale, il limite fondamentale della stereofonia

Del limite fondamentale della stereofonia si è trattato più volte su AUDIOreview, ed allora anche in questo caso conviene ricorrere alla citazione testuale. Su AR 213 (maggio 2001), a proposito di “Sorgenti reali e virtuali e loro localizzazione”, Roberto Lucchesi scrive:
“… Fin qui si è parlato della localizzazione di un’unica sorgente sonora: le cose si complicano ulteriormente quando si ha a che fare con due sorgenti distinte, com’è il caso di un impianto di riproduzione stereofonico comprensivo di due sistemi di altoparlanti. Se questi irradiano allo stesso tempo suoni coerenti e dello stesso livello allora l’ascoltatore percepirà una sorgente sonora virtuale posta esattamente al centro dei due (vedi fig. 3).

Figura 3. In un normale impianto stereofonico, se uno stesso suono viene emesso in modo identico dai due altoparlanti il punto di provenienza apparente della sorgente sarà quello centrale. Questa condizione è però ben diversa da quella di una sorgente reale (colore viola), perché, dopo un centinaio di microsecondi dal segnale desiderato (indicato con il colore rosso), alle orecchie arriva un segnale che in natura non esiste (colore verde) e che genera la cosiddetta “diafonia interaurale”. Tra l’altro anche l’angolo di arrivo del primo segnale prodotto dal sistema stereofonico e quello del segnale reale sono ben diversi, con conseguente diversa filtratura operata dal viso e dai padiglioni auricolari.

Figura 3. In un normale impianto stereofonico, se uno stesso suono viene emesso in modo identico dai due altoparlanti il punto di provenienza apparente della sorgente sarà quello centrale. Questa condizione è però ben diversa da quella di una sorgente reale (colore viola), perché, dopo un centinaio di microsecondi dal segnale desiderato (indicato con il colore rosso), alle orecchie arriva un segnale che in natura non esiste (colore verde) e che genera la cosiddetta “diafonia interaurale”. Tra l’altro anche l’angolo di arrivo del primo segnale prodotto dal sistema stereofonico e quello del segnale reale sono ben diversi, con conseguente diversa filtratura operata dal viso e dai padiglioni auricolari.

Il comportamento del nostro sistema uditivo di fronte ad un tale sistema non è tuttavia confrontabile con quello relativo ad un’unica sorgente reale posta nella stessa identica posizione di quella virtuale: nel caso reale l’ascoltatore percepisce infatti solamente due stimoli sonori (uno all’orecchio destro ed uno al sinistro), mentre in quello virtuale gli stimoli che arrivano all’ascoltatore sono ben quattro, in quanto ogni orecchio riceve non solo il suono proveniente dall’altoparlante più vicino ma anche (dopo qualche microsecondo) quello prodotto dall’altoparlante più lontano, per di più modificato spettralmente nei modi visti in precedenza (ndr: per la presenza del “baffle” costituito dalla testa e dal padiglione auricolare).
Tale fenomeno, assolutamente non desiderabile in quanto causa sia di alterazioni timbriche che prospettiche, prende il nome di diafonia interaurale”.
Anche Paolo Nuti aveva trattato l’argomento descrivendo, su AR 33 (novembre 1984), il funzionamento del “generatore di olografia sonora” Carver C9:
“… L’origine del contrasto tra i diversi stimoli percepiti dall’ascoltatore di musica riprodotta si comprende facilmente osservando la figura 3. Supponiamo di voler riprodurre con un sistema stereofonico una sorgente localizzata al centro della scena sonora: in questo caso il livello emesso dagli altoparlanti è lo stesso, la differenza di ampiezza interaurale è nulla e l’ascoltatore localizza correttamente la sorgente al centro; ma mentre nella realtà l’ascoltatore è raggiunto da due stimoli distinti (uno per ciascun orecchio), con IAD=ITD=0 (ndr: Interaural Amplitude Difference, differenza di ampiezza interaurale, e Interaural Time Difference, differenza di tempo interaurale), nel caso del suono riprodotto all’ascoltatore giungono quattro stimoli distinti: con IAD, ITD e mascheratura spettrale a due a due coincidenti e diverse tra loro. O meglio, inizialmente l’ascoltatore è correttamente raggiunto da due soli stimoli, ma dopo un brevissimo intervallo di tempo (circa 100 microsecondi), gli stimoli si raddoppiano e confondono”. Segue un’analisi dell’elaboratore di Bob Carver e dei suoi limiti intrinseci, peraltro comuni a tutti i comunque ammirevoli tentativi dell’epoca di risolvere il problema alla radice, soluzione impossibile ricorrendo a forme di cancellazione compensative a livello acustico.
Volendo completare l’elenco delle alterazioni, si potrebbe considerare che il padiglione auricolare è fatto per introdurre microechi e filtrature differenti in ragione dell’angolo di incidenza (soprattutto perché ciò è funzionale al riconoscimento dell’angolo verticale), e questo varia molto se la sorgente è reale rispetto a quella virtuale ricercata dalla stereofonia. Ma l’elemento più rilevante da considerare è che, in natura, quel che più equivale ai quattro suoni generati dalla stereofonia non è una sorgente puntiforme, centrale o spostata in funzione delle intensità sinistro/destro, bensì una sorgente estesa, e solo la nostra capacità di riconoscere il tipo della sorgente, associandola alle dimensioni che ci sono note, può ad esempio restituire l’illusione di un cantante con una bocca larga alcuni cm e non alcuni metri.
Questa realtà diventa evidente in modo quasi sempre clamoroso con l’ascolto in Deep Stereo.

Cosa cambia ascoltando in Deep Stereo

Un primo parere di ascolto su quanto può offrire il Deep Stereo è presente in questo articolo a firma di Marco Benedetti, “ascoltone” eminente della sezione AudioClub di AUDIOreview nonché da sempre analogista convinto, che ringrazio non per i riconoscimenti positivi (fatte salve le giuste ed ovvie necessità di approfondimenti ulteriori) attribuiti a questa tecnica quanto per la linearità intellettuale. Chi ha costruito una reputazione in anni di articoli apprezzati potrebbe, a fronte di qualcosa di fortemente innovativo, anteporre considerazioni di prudenza a quelle derivanti dai propri sensi, ovvero “prima di apprezzare, forse è bene essere certi che la maggioranza degli audiofili non si pronunci a sfavore”. Bravo Marco, hai confermato, come scrivesti una volta, che “la paura, se non ce l’hai, nessuno te la può dare”.
Nel prossimo numero di AR riporteremo anche altri pareri, e su una base di ascolto più ampia di quella con la quale abbiamo potuto coinvolgere i nostri redattori nella prima fase. Vediamo comunque cosa cambia a livello teorico (ma anche pratico, sulla base dell’esperienza d’ascolto di chi scrive) quando si passa dalla stereofonia alla stereofonia deep:

  1. Un segnale stereofonico che ha solo componenti laterali ed una componente monofonica perfettamente centrale viene scisso pienamente in tre componenti separate. In questo caso (fig. 4) la diafonia interaurale viene totalmente eliminata, e le dimensioni apparenti degli strumenti registrati in monofonia tornano ad assumere una dimensione corretta, oltre che una localizzazione e focalizzazione molto più convincenti. Può sembrare un caso particolare, ed in astratto lo è, ma nella realtà sono moltissime le registrazioni mixate secondo questo criterio, in particolare quelle che includono la voce umana. Quest’ultima, eccezion fatta per componenti non primarie (es.: cori e seconde voci sovrapposte), viene sempre collocata al centro ed è quindi identicamente distribuita tra i canali, tanto che le funzioni “karaoke” di alcuni programmi di editing e di taluni amplificatori funzionano semplicemente sottraendo un canale all’altro.
  2. Un segnale stereofonico che ha componenti in posizione intermedia (fig. 5), ovvero dei segnali che sono comuni ai due canali ma con diversa intensità, ottiene una riduzione netta della diafonia interaurale, perché l’apertura angolare delle componenti indesiderate si dimezza. Anche in questo caso la localizzazione e la messa a fuoco migliorano decisamente.
  3. Nel primo caso le prime riflessioni sulle pareti laterali sono conformi (fig. 6) a quelle di una sorgente reale, mentre la stereofonia bicanale (fig. 7) costringe ad ascoltare suoni riflessi della componente monofonica centrale che non hanno affinità con la realtà, né per tempo di arrivo né per angolazione. Nel caso di una sorgente che dovrebbe collocarsi in posizione intermedia, la situazione è pure intermedia tra le due appena considerate.
  4. La stereofonia classica definisce intrinsecamente un piano di ascolto corretto, definito dal luogo dei punti equidistanti dagli altoparlanti. Su tale piano esiste un asse preferenziale, corrispondente all’altezza delle orecchie di un ascoltatore seduto. Su tale asse può collocarsi un solo ascoltatore: se ce ne fossero due, quello anteriore farebbe da schermo almeno parziale a quello posteriore. Con il Deep Stereo il punto di ascolto ottimale rimane quello centrale, ma questo perde la sua criticità assoluta, e diventa possibile spostarsi sul divano di ascolto (od ascoltare in più persone) senza rovinare irrimediabilmente la scena sonora (anzi, le componenti centrali diventano sovente ancor più incise). È anche possibile alzarsi, spostarsi e constatare che l’evento sonoro riprodotto mantiene una sua coerenza d’insieme.
Figura 4. Ascoltando in Deep Stereo, se il programma sonoro è costituito solo da una componente monofonica centrale e da due componenti laterali (qui tutte in colori diversi), allora la diafonia interaurale si annulla completamente e le dimensioni apparenti della componente centrale tornano a proporzioni più realistiche. La scena sonora si stabilizza ed è possibile ascoltare da posizioni anche disassate.

Figura 4. Ascoltando in Deep Stereo, se il programma sonoro è costituito solo da una componente monofonica centrale e da due componenti laterali (qui tutte in colori diversi), allora la diafonia interaurale si annulla completamente e le dimensioni apparenti della componente centrale tornano a proporzioni più realistiche. La scena sonora si stabilizza ed è possibile ascoltare da posizioni anche disassate.

Figura 5. La situazione peggiore che può capitare in Deep Stereo è rappresentata dal caso in cui il mix sia stato realizzato in modo che, per simulare una posizione intermedia tra centro e lati, una componente del programma sonoro sia presente su ambo i canali stereofonici, ma con rapporto di intensità pari a due. In quel caso, dopo l’estrazione della parte comune, il canale centrale e quello laterale presenteranno lo stesso suono alla stessa intensità. In questo caso si genera nuovamente diafonia interaurale, ma l’apertura angolare delle componenti indesiderate si dimezza rispetto alla stereofonia a due altoparlanti.

Figura 5. La situazione peggiore che può capitare in Deep Stereo è rappresentata dal caso in cui il mix sia stato realizzato in modo che, per simulare una posizione intermedia tra centro e lati, una componente del programma sonoro sia presente su ambo i canali stereofonici, ma con rapporto di intensità pari a due. In quel caso, dopo l’estrazione della parte comune, il canale centrale e quello laterale presenteranno lo stesso suono alla stessa intensità. In questo caso si genera nuovamente diafonia interaurale, ma l’apertura angolare delle componenti indesiderate si dimezza rispetto alla stereofonia a due altoparlanti.

Figura 6. In Deep Stereo, le prime riflessioni generate da una componente centrale collimano con quelle di una sorgente reale.

Figura 6. In Deep Stereo, le prime riflessioni generate da una componente centrale collimano con quelle di una sorgente reale.

Figura 7. Con la normale stereofonia, le prime riflessioni di una componente centrale arrivano prima e da angoli inferiori rispetto a quelle di una sorgente reale.

Figura 7. Con la normale stereofonia, le prime riflessioni di una componente centrale arrivano prima e da angoli inferiori rispetto a quelle di una sorgente reale.

Cosa esiste già

Dopo aver risolto il problema dell’estrazione della componente monofonica mi aspettavo che qualcuno avesse già provveduto in materia (se si guarda alla bibliografia solo di AES ed IEEE ci si rende conto che forse tutto il pensabile è stato già pensato…). Con grande sorpresa, e fatti ancora salvi gli eventuali limiti già sopra menzionati, ho constatato che così non era, ma qualcosa comunque esisteva già. Escludendo gli approcci meno significativi, ce ne sono tuttavia due che non possono essere trascurati, ovvero:

  1. La funzione “Estrazione del canale centrale” del programma Adobe Audition, disponibile già dalla release 1.5 di un paio d’anni or sono. Insieme a Wavelab della Steinberg, questo è storicamente il più potente programma di editing audio oggi disponibile.
  2. Il plugin gratuito “centercut” per il diffusissimo programma “Winamp”, che è pure gratuito.

Riguardo al primo, sia chi scrive sia gli altri tecnici della redazione non sono stati in grado di trovare una combinazione di parametri che evitasse la produzione di artefatti inaccettabili per l’audio di alta qualità. Il secondo si basa su un filtro analogo sviluppato per un altro programma open source di grande interesse e diffusione, VirtualDub: anche in questo caso (nella versione 1.3.2 da noi provata) si generano artefatti, ma molto meno forti, ed in vari casi il risultato è assai interessante. Ambo questi programmi sono computazionalmente molto più rapidi di quello che proporremo noi e con un PC moderno operano ben più che in tempo reale (specie il secondo, con Winamp configurato per output su disco), laddove il nostro, nell’assetto tipico e nonostante un motore di calcolo scritto in C, non va oltre i 20000 campioni al secondo con un Athlon a 3 GHz.

Figura 8. Interfaccia del prototipo del programma di estrazione.

Figura 8. Interfaccia del prototipo del programma di estrazione.

C’è comunque da dire che tali programmi non sembrano essere stati sviluppati per l’applicazione che a noi interessa. La funzione di Audition è l’evoluzione (del tutto ristudiata, peraltro) della funzione “karaoke” disponibile sul vecchio Cool Edit (da cui Audition deriva) e sulla versione 1 dello stesso programma: in quel caso i canali venivano semplicemente differenziati, con conseguente creazione di un segnale monofonico in cui l’originaria componente monofonica veniva cancellata e quelle laterali venivano sommate con fase opposta. Anche il plugin di Winamp sembrerebbe pensato per lo stesso scopo, dato che non genera un canale centrale bensì, come indica il nome stesso, sopprime la componente centrale dai due canali d’ingresso (ovviamente, con Audition o similia è poi possibile prendere segnale originale e trattato, sincronizzarli, differenziarli ed ottenere il centrale).
Oltre al problema degli artefatti, che è di gran lunga il più difficile da affrontare (vedremo il perché nella prossima puntata), occorre tener presente che l’estrazione del canale centrale comporta da sé la possibile introduzione di problemi timbrici e dinamici, che vanno gestiti opportunamente. Ciò è ovviamente previsto dal nostro programma, ed anche questo sarà argomento del prossimo numero di AUDIOreview.
Programma di presentazione
In questa puntata non abbiamo minimamente accennato a come il programma di estrazione opera, ma nella prossima vedremo molta della matematica che c’è dietro (gli ascoltoni “puri” non siano però prevenuti: mai abbiamo fatto di AUDIOreview una rivista leggibile solo da matematici ed ingegneri, e non inizieremo ora). Inoltre descriveremo il suo funzionamento e come il suo output possa essere dato in pasto ai programmi che genereranno il software leggibile dai player casalinghi.
Riguardo al programma stesso, renderemo scaricabile la versione demo dai nostri siti www.audioreview.it e www.audio
carstereo.it dal 20 gennaio, mentre quella priva di limitazioni sarà disponibile a metà febbraio. Il costo non è ancora definito ma sarà di certo modesto, allineato a quello di tutte le altre iniziative da noi finora proposte in quest’ambito.
La presentazione ufficiale del Deep Stereo avverrà in occasione del primo Top Audio romano, che si terrà nel Marriott Park Hotel a partire dal 9 marzo.
Fabrizio Montanucci

 


L’ascolto preliminare di Marco Benedetti

Avevo notato dei sorrisetti compiaciuti a commento del mio pezzo sul canale centrale Martin Logan, il mese scorso, ma non ne avevo capito il motivo, che invece mi è chiarissimo adesso che mi è stato svelato il segreto degli ultimi test di Fabrizio: a rileggerlo oggi, col senno di poi sembra quasi un’anticipazione, mentre non solo mi avevano tenuto all’oscuro di tutto, ma gli infami erano persino indecisi se coinvolgermi o meno in questo test, a causa delle mie compromettenti frequentazioni con l’analogico duro e puro e le mie ancor più eretiche convinzioni sul multicanale. Dovrei offendermi e ripagarli con la stessa moneta, fulminarli con uno sguardo storto e altezzoso, enfio di disprezzo, e tirar dritto; ma sono superiore a queste beghe da redazione di provincia e poi, suvvia, la ricerca è più importante dei personalismi.
Non è una novità assoluta l’idea di rafforzare l’immagine con un terzo diffusore, ricordo fra gli altri i preamplificatori McIntosh che prevedevano un rozzo canale centrale prodotto dalla differenza dei due canali principali, ma in questo caso la faccenda è ben diversa: se non altro si fa uso di tecnologia e capacità di calcolo inaccessibili fino a pochi anni fa; verrebbe semmai da mandare un pensiero di ammirazione e gratitudine a quegli eroi come Wilma Cozart-Fine e le sue registrazioni Mercury con 3 microfoni a 3 piste su pellicola da 35mm, originariamente mixate su 2 canali per la stampa in vinile e recentemente ristampate su SACD a 3 canali partendo dal master originale: qualcuno aveva almeno intuito, se non proprio capito tutto, già dagli anni ’50; avessero avuto a disposizione la tecnologia di oggi, la storia dell’hi-fi sarebbe potuta essere molto diversa.
Tornando a bomba, è presto per trarre delle conclusioni definitive, ma l’impressione netta è che ci sia della sostanza: nei primi test di ascolto mi è parsa chiarissima la maggior focalizzazione delle voci e degli strumenti posti al centro del soundstage; in qualche caso si risolve il problema del cantante con la bocca larga 2 metri, che torna ad essere puntiforme come si conviene; mi sorprende che non si paghi nulla in termini di profondità della scena: non so perché ma immaginavo che questa configurazione si portasse dietro come sottoprodotto una riduzione della profondità, mentre semmai succede il contrario. Ho anche notato come il terzo diffusore aiuti a conservare la coerenza scenica ascoltando in posizione decentrata, e non mi pare poco, anche se era comunque un risultato prevedibile sulla scorta dell’esperienza con gli impianti home theater, in cui appunto il canale centrale svolge principalmente questa funzione.
L’aspetto più divertente del test è che il programma di estrazione sembra essere schizzinoso nei confronti delle registrazioni pasticciate al banco; fra gli altri Fabrizio ci farà ascoltare il raccapricciante risultato ottenuto con una delle prime versioni del programma applicato a siffatte incisioni (alcune delle quali, in verità, insospettabili); notevolissima la differenza con i risultati dell’ultima versione, che tiene conto di questo problema, anche se il sospetto che un’ombra di artefatto rimanga comunque ce l’ho; devo ascoltare meglio per sciogliere la riserva.
Molto rimane da fare, per esempio rimane il problema della qualità dei preamplificatori multicanale: se si è abituati ad ascoltare con un pre esoterico di alto lignaggio, dubito si possa accettare di farne a meno e utilizzare un più plebeo pre multicanale in cambio del diffusore centrale; bisognerà anche capire se l’elaborazione introduce qualche altro artefatto, non udibile con un sistema buono ma non eccezionale come quello utilizzato nei primi test, ma magari udibilissimo con un sistema più selettivo, mentre è certo che l’analogico rimane fuori, se non altro a causa della doppia conversione A/D-D/A che sarebbe necessaria; pazienza.
È invece fondamentale notare che questo sistema non pretende di rivoluzionare la tecnica di registrazione – troppe volte ho visto annunciare il nuovo rivoluzionario metodo… e il patrimonio artistico esistente, che facciamo, lo buttiamo a mare? -; al contrario, come abbiamo visto, l’elaborazione si può applicare a quasi tutto l’esistente, in qualche caso – senza voler correre troppo e immaginare il mondo dell’audio rivoluzionato da questa “scoperta” -, come quello delle ristampe delle registrazioni Mercury a 3 canali, addirittura già abbiamo in commercio del software previsto per questo utilizzo senza neanche bisogno dell’elaborazione col programma di Fabrizio; essendo poi io notoriamente cattivo, provo quasi un piacere sadico dalla discriminazione nei confronti delle registrazioni troppo elaborate al banco: il fatto che le grandi registrazioni che hanno fatto la storia dell’interpretazione – parliamo di più o meno tutto quanto è stato inciso negli anni ’50-’70 – paiono reagire molto bene al trattamento mi sembra di importanza strategica (per inciso, verrebbe da notare come, di necessità virtù, la povertà dei mezzi disponibili all’epoca abbia salvato questo patrimonio dallo scempio perpetrato dai tecnici del suono in tempi successivi).
Per il momento è tutto, mi sono sbilanciato anche troppo sulla base dei primi ascolti, ma, ripeto, i primi risultati sono estremamente incoraggianti. Siamo in ballo: personalmente sto compilando la lista della spesa, ovvero una selezione di tracce test scelte fra i miei riferimenti da consegnare a Fabrizio, che mi fornirà un DVD-Audio elaborato a 3 canali con cui conto di svolgere test molto più approfonditi e severi col mio impianto di riferimento.


 

da AUDIOREVIEW n. 275 gennaio 2007

Author: Redazione

Share This Post On

Submit a Comment

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *