Il DSD suona meglio del PCM?

Negli ultimi tempi il formato DSD, finalmente disponibile anche al di fuori del supporto SACD, ha preso piede come formato preferito dagli audiofili più raffinati. Mi sono posto il problema di quali fondamenti teorici abbia questa presunta superiorità rispetto al PCM classico. In questo articolo cerco di condividere con lettori le mie personali considerazioni, in attesa di andare più in profondità insieme a Fabrizio Montanucci e allo staff di AUDIOreview.

Formati digitali

Un segnale digitale PCM (Pulse Code Modulation) lineare consiste in un campionamento del segnale analogico originario, effettuato a una frequenza Fc e con una profondità di quantizzazione di b bit. Per esempio il formato del CD 16/44 audio prevede Fc = 44.100 Hz e b = 16; un altro formato molto comune è il 24/96 ovvero Fc = 96 kHz e b = 24.

Una famiglia alternativa di formati digitali (che in teoria possono comunque essere considerati PCM) è quella dei formati DSD (Direct Stream Digital) introdotti dapprima per digitalizzare lo sterminato archivio analogico Sony-CBS e poi come formato per il supporto SACD. Questi formati usano b = 1 ovvero siamo in presenza di uno Stream di bit (da punto di vista matematico ai bit nulli viene attribuito il valore -1). La frequenza di campionamento Fc è almeno 64 x 44,1 kHz.

La Teoria dei Segnali garantisce che con una frequenza di campionamento molto elevata e un opportuno uso del Noise Shaping è possibile ottenere un’ottima risoluzione in banda audio. Si è sviluppato un vivace dibattito sulla bontà di questo formato, forse alimentato anche dalla appartenenza dei vari ingegneri alle cordate del SACD e del DVD-Audio. Curiosa è la presentazione, alla stessa conferenza AES 2001, di due articoli che affermavano tesi diametralmente opposte: Why 1-Bit Sigma-Delta Conversion is Unsuitable for High-Quality Applications [3] e Why Direct Stream Digital is the best choice as a digital audio format [5]. Per chi volesse farsi un’opinione di prima mano i due articoli sono facilmente reperibili in rete. Per una completa ma facilmente leggibile introduzione al formato DSD suggerisco l’articolo di Fabrizio Montanucci apparso sul numero 351 di AR [4]. Interessante è anche questa intervista ad un (sedicente) capo ingegnere della Philips [7].

Una stima piuttosto grezza del contenuto informativo di un formato è il data-rate ovvero il numero totale di bit al secondo che devono essere memorizzati. Nella Tabella 1 vediamo il data-rate di alcuni formati tipici calcolato per due canali.

Tabella 1

Tabella 1

Attenzione: non è però corretto affermare tout court che ad un maggior data-rate corrisponda sempre una maggiore qualità audio, i 24 bit di risoluzione teorica dei formati PCM sono in pratica impossibili da raggiungere (a causa del rumore elettrico) e sarebbe più equo fare i conti con 20 bit; d’altra parte, a detta di alcuni la mancanza del dither penalizza i formati con un solo bit. Nello scrivere il rapporto segnale/rumore teorico del DSD si è tenuta in considerazione la parte di rumore che interessa solo la banda audio, che ovviamente è minore dell’intera potenza di rumore. Non si è invece considerata la riduzione di rumore dovuta al noise shaping (che rende veramente competitivi questi formati) in quanto dipendente dalle scelte implementative. Un altro problema dei formati ad un bit è l’impossibilità (o perlomeno l’estrema difficoltà) di fare missaggi ed editing. Nel caso della digitalizzazione di nastri master di archivi esistenti, questo problema non si poneva, ma per realizzare registrazioni native fu introdotto il DXD come formato intermedio.

Prima di cominciare a discutere della qualità audio vediamo alcuni fatti incontrovertibili.

  1. Non è possibile in alcun modo aggiungere informazione a un file audio preesistente (non si può cavare sangue da una rapa). Ogni operazione reversibile (per esempio il passaggio da WAV a FLAC e viceversa) lascia inalterata la quantità di informazione. Ogni operazione irreversibile (per esempio un filtraggio passa-basso o un passaggio da 16/44 a 24/96) causa perdita o alterazione di informazione. Non è detto che ogni operazione irreversibile peggiori la qualità audio, la ripulitura di vecchie registrazioni può migliorarne la fruibilità ma deve essere chiaro che ogni operazione di questo genere altera l’informazione originaria. È ovvio che se si inserisce un ulteriore strumento musicale o un commento parlato si aggiunge informazione, ma questo esula dal nostro ambito di interesse.
  2. Un file audio digitale è composto di soli numeri e un insieme di numeri non suona, non è possibile associarvi in alcun modo caratteristiche di ascolto senza almeno ipotizzare una conversione D/A. In altre parole la qualità di ascolto dipende sì dal formato ma anche in modo imprescindibile dall’algoritmo di conversione D/A.
  3. Vi sono praticamente infiniti modi diversi di effettuare una conversione D/A, e dato che la qualità musicale può essere attribuita solo alla accoppiata (file digitale, processo di conversione), un processo di conversione di formato può essere considerato parte del processo di conversione D/A.

La conversione Digitale-Analogico

Consideriamo una funzione s(t) limitata in banda tra 0 e f0; in Figura 1 vediamo un esempio nel dominio della frequenza.

Figura 1. Una funzione limitata in banda rappresentata nel dominio della frequenza.

Figura 1. Una funzione limitata in banda rappresentata nel dominio della frequenza.

Sia ora sc(t) la funzione campionata con frequenza Fc = 2 f0, la sua trasformata Sc(2p f) è periodica e consiste nella ripetizione infinita della parte di trasformata compresa tra le linee rosse. Il fatto che s(t) sia limitato in banda garantisce che non si presenti il fenomeno dell’aliasing (comparsa di frequenze fantasma).

Si noti che, come detto sopra, la funzione campionata è un insieme infinito di numeri reali, il suo spettro di frequenza viene calcolato con le tecniche dell’analisi matematica (si possono usare le Delta di Dirac o le serie di Fourier) e quello che si ottiene è un risultato esatto, a questo livello non si effettua alcuna approssimazione. I problemi saltano fuori nel mondo reale quando ai numeri reali si sostituiscono parole di lunghezza finita (errori di quantizzazione) e il campionamento non ha durata infinita (dispersioni dello spettro dovuti all’uso di finestre).

Una conversione D/A ideale avrebbe bisogno in un filtro passa-basso perfetto che, eliminando le frequenze immagine, ottenga esattamente la trasformata S(2pf) della funzione di partenza.

Figura 2. Lo spettro della funzione campionata rappresentato nel dominio della frequenza; si notano le infinite copie dello spettro del segnale di partenza (frequenze immagine).

Figura 2. Lo spettro della funzione campionata rappresentato nel dominio della frequenza; si notano le infinite copie dello spettro del segnale di partenza (frequenze immagine).

Figura 3. L’interpolatore ideale rappresentato nel dominio della frequenza.

Figura 3. L’interpolatore ideale rappresentato nel dominio della frequenza.

Tale operazione non è possibile in pratica: richiederebbe di operare a precisione infinita su dati di lunghezza infinita e la storica balla che tutte le macchine digitali avrebbero suonato nello stesso modo aveva la sua origine nel considerare solo il Teorema del Campionamento, che è un risultato teorico di Analisi Matematica, ignorando invece i problemi ingegneristici e numerici sottostanti.

Ogni implementazione della conversione D/A è un tentativo di approssimare il filtro passa-basso perfetto. Vediamo le alternative principali.

Sample and Hold

Il primo passo della conversione D/A è la trasformazione dei numeri in un segnale elettrico. Una possibilità è mantenere costante un valore di tensione (o corrente) pari all’ultimo campione analizzato, in attesa del successivo.

Come primo passo questa operazione va benissimo. Stranamente alcuni autocostruttori superpuristi e perfino una rinomata azienda hi-end hanno utilizzato questo tipo di conversione mandando direttamente l’uscita del Sample and Hold all’amplificatore e poi alle casse. La presenza di una quantità inaccettabile di spurie a frequenza ultrasonica rende questo procedimento a dir poco discutibile, anche se talvolta questa soluzione viene abbinata a trasduttori monovia sfruttando il loro naturale passa-basso meccanico. NB: l’inevitabile colorazione dovuta alle spurie, e alla distorsione in gamma audio da loro causata, può certamente “arricchire” un programma musicale particolarmente freddo e piatto, ma siamo certamente molto lontani dal concetto di “Alta Fedeltà”.

Figura 4. Conversione Sample and Hold, rappresentata nel dominio del tempo.

Figura 4. Conversione Sample and Hold, rappresentata nel dominio del tempo.

Filtraggio analogico

I primi lettori CD (specie di scuola giapponese) effettuavano il filtraggio anti-immagine per via analogica con filtri ad alta pendenza. La vicinanza tra la banda audio (0-20 kHz) e la banda da tagliare (>22.050 kHz) causava distorsioni di fase e perdite ad alta frequenza ed era probabilmente causa della pessima accoglienza che il CD audio ebbe tra gli audiofili più raffinati, che tuttora gli preferiscono i nastri magnetici e i vinili.

Oversampling

Supponiamo di introdurre tra due campioni numerici un certo numero di zeri (1, 3, 7, …): la nuova frequenza di campionamento viene corrispondentemente moltiplicata (x2, x4, x8, …) mentre lo spettro di frequenza resta inalterato (la cosa è ovvia se si pensa che si aggiunge al segnale una funzione con spettro nullo). L’operazione è perfettamente reversibile e quindi non si ha alcuna perdita di informazione. A questo punto si può applicare un filtraggio passa-basso digitale con i seguenti vantaggi:

  • se si usa un FIR simmetrico non si ha distorsione di fase;
  • il filtro digitale può essere ottimizzato per migliorare la risposta all’impulso o la risposta in frequenza, più alternative possono essere selezionate in tempo reale semplicemente cambiando i coefficienti;
  • all’uscita del FIR si può applicare un blando filtraggio analogico con bassa pendenza e frequenza di taglio elevata.

Questo processo fu introdotto dalla Philips e rivoluzionò la tecnologia CD audio migliorando notevolmente il risultato e da sempre, anche a detta di fonti autorevoli come Mark Levinson, questa è considerata la migliore tecnica di conversione.

Conversione di frequenza

Un’alternativa economica per i dispositivi che devono lavorare con diversi formati è ridurre tutti i segnali ad un formato unico ad alta frequenza (per esempio 24/192). Questo si può fare con chip molto economici che inseguono in tempo reale la frequenza di ingresso convertendola nella frequenza di uscita. Si nota che:

  • il cambiamento di frequenza è un processo irreversibile che altera il segnale originario;
  • a prima vista potrebbe sembrare che il jitter venga ridotto ma un’analisi più accurata mostra che si tratta di un’affermazione errata.

L’unico vantaggio di questo sistema è la notevole semplificazione progettuale e il notevole risparmio per il produttore (è la soluzione principe per i lettori audio/video da 40 euro dei supermercati, che infatti talvolta la sbandierano sulla scatola come fosse un pregio).

Figura 5. Conversione Sample and Hold, rappresentata nel dominio della frequenza.

Figura 5. Conversione Sample and Hold, rappresentata nel dominio della frequenza.

Figura 6. Oversampling 2x rappresentato nel dominio della frequenza.

Figura 6. Oversampling 2x rappresentato nel dominio della frequenza.

Conversione D/A nel caso del DSD

Dalla Figura 7 si nota come il segnale DSD vale sempre +1 o -1 e non si azzera mai. In pratica ci troviamo alla presenza di un oversampling estremo (almeno 64x) e la conversione D/A diviene estremamente semplice, basta applicare un passa-basso che sia compatibile con il noise shaping proprio del formato. NB: a seconda dei gusti matematici del lettore il passa-basso può essere visto come una media mobile pesata o come un integratore ma la sostanza non cambia. Su questo punto torneremo nei prossimi articoli.

Figura 7. Una sinusoide e il corrispondente segnale DSD.

Figura 7. Una sinusoide e il corrispondente segnale DSD.

Conversione a DSD e successiva conversione D/A

Eccoci giunti all’argomento che ci interessa. Prendere un formato PCM e trasformarlo in DSD prima di passarlo ad un convertitore fisico può essere visto come un processo di conversione che usa un oversampling molto spinto (64x, 128x o addirittura 512x) e che quindi gode di tutte le buone caratteristiche di tale approccio. La conversione finale in analogico risulta “buona” in quanto particolarmente semplice ed è davvero impegnativo sbagliare qualcosa. Se questo procedimento viene confrontato con quello della conversione di frequenza è come uccidere un verme a cannonate (almeno da un punto di vista teorico).

Prima di concludere è però necessario analizzare in maggiore dettaglio come si passa da PCM multi-bit a DSD, visto che il problema non è banale.

La conversione PCM-DSD

Bisogna innanzitutto distinguere se si deve implementare la soluzione ad hardware, in tempo reale, con un DSP, un chip dedicato o un PLA o se si può procedere fuori linea, operando tra file con un potente computer (oggi tutti i computer sono abbastanza potenti).

Nel primo caso bisogna fare i conti con la potenza di calcolo disponibile sulla macchina fisica usando tecniche sigma-delta più o meno raffinate. Vi sono in letteratura alcuni (oscuri) algoritmi che ottimizzano il numero di operazioni necessarie [2, 6].

Nel secondo caso se la potenza di calcolo e la memoria non sono un problema si può fare un oversampling classico (64x nel caso del CD, 8x se si parte dal DXD) e alimentare un FIR passa-basso (senza implementare la moltiplicazione per gli zeri), troncare il risultato ad un bit, non dimenticando di inserire un loop di noise-shaping o sigma-delta. Detto così sembra semplicissimo (!) ma vi sono molte decisioni da prendere e i risultati possono essere molto diversi. Un’accurata analisi del comportamento dei principali software di conversione PCM-DSD sta rivelando verità inaspettate e sarà oggetto dei prossimi articoli.

Un ulteriore problema è che non esiste un modo univoco di valutare la bontà del file DSD risultante, ripeto ancora una volta che quando si lavora nel digitale si ha a che fare solo con sequenze di numeri. Dal punto di vista teorico si possono introdurre opportune funzioni matematiche che definiscono una distanza tra segnali nei due formati. In pratica, convertendo opportuni file di test e analizzando lo spettro del segnale nascosto nel file DSD si può radiografare il risultato e anche indovinare qualcosa delle tecniche usate per la conversione.

Infine, visto che siamo pur sempre in ambito audio è fondamentale e ragionevole affiancare alle analisi tecniche opportune sedute di ascolto.

Qual è il formato migliore?

Ovviamente la domanda è retorica, non sono certo io a poter stabilire questo. Bisogna inoltre considerare che qualunque confronto si faccia tra due scelte implementative o tipologie di prodotti in pratica vi sono molti altri fattori che intervengono. Anche chi crede nella netta superiorità del LP rispetto al CD non pensa certo che qualunque giradischi suoni meglio di qualunque lettore CD e analogamente non si può dire che qualunque amplificatore a valvole suoni meglio di qualunque amplificatore a stato solido. Per valutare le tecniche di conversione D/A oltre alla metodologia utilizzata si deve tenere conto di tutti gli altri fattori contingenti, legati alla serietà del costruttore e alla fascia di prezzo dell’apparecchio. Per esempio, la qualità dell’alimentazione, l’ingegnerizzazione del layout, la scelta di componenti selezionati hanno certamente una decisa influenza sulla qualità di ascolto.

Per quanto riguarda l’uso del DSD bisogna distinguere alcuni casi estremamente diversi tra loro.

Conversione senza editing. Se si è in presenza di materiale analogico di archivio (già editato) si può convertire in DSD e distribuire direttamente questo formato (su SACD o come file).

Conversione con editing in DXD. Se si deve registrare un evento, l’editing è quasi sempre indispensabile ma il passaggio ad un formato multibit come il DXD introduce certamente un paio di conversioni inutili, ed è fondamentale che il rapporto tra la frequenza finale del DSD e quella del DXD sia un numero intero.

Conversione da formati PCM ad alta risoluzione. Passare da un formato multibit ad alta risoluzione (per esempio 24/192) al DSD presenta gli stessi problemi del punto precedente (doppia conversione), con l’aggravante che se si usa un DSD standard il rapporto di conversione non può essere intero e il segnale deve essere interpolato.

Conversione da formati PCM a bassa risoluzione. Sembrerebbe soffrire degli stessi problemi dei punti precedenti, ma il rapporto di conversione è sempre intero e i problemi della conversione diretta di un formato 16/44 (l’estrema vicinanza tra la fine della banda audio e l’inizio della banda da tagliare) lo rendono interessante. Forse permette finalmente di ottenere il suono migliore possibile dallo smisurato archivio di rape esistente (i nostri CD).

DSD-wide. Considerando che la stragrande maggioranza dei convertitori A/D lavora ad alta frequenza con pochi bit, converrebbe evitare sia il passaggio a frequenze più basse con aumento dei bit, sia la riduzione ad un solo bit e conservare la massima informazione possibile con un formato DSD-wide (64x, 8 bit) che sulla carta sembra il migliore possibile, visto che permette la applicazione del dither ed è pure editabile.

Infine, a mio personalissimo avviso, il vantaggio principale della soluzione DSD è che rende definitivamente obsoleta la catena di frequenze (48, 96, 192, 384 …) che ha creato tanti problemi di conversione e di adattamento.

di Francesco Romani

 


Bibliografia

  • A. Allegri, M. Benedetti. DSD vs PCM, AUDIOreview, n. 352, pp. 78-82, giugno 2014
  • D. Birru, E. Roza, Recursive Bitstream Conversion: Third-Order Structures, IEEE Transactions on Circuits and Systems-I: Fundamental Theory and Applications, vol. 49, n. 5, pp. 591-601, 2002
  • S.P. Lipshitz, J. Vanderkooy, Why 1-Bit Sigma-Delta Conversion is Unsuitable for High-Quality Applications, 110th Convention Audio Engineering Society, Amsterdam, 2001
  • F. Montanucci, Le misure sui DAC-DSD, AUDIOreview, n. 351, pp. 75-80, maggio 2014
  • D. Reefman, P. Nuijten, Why Direct Stream Digital is the best choice as a digital audio format, 110th Convention Audio Engineering Society, Amsterdam, 2001
  • E. Roza, Recursive Bitstream Conversion: the Reverse Mode, IEEE Transactions on Circuits and Systems-11: Analog and Digital Signal Processing, vol. 41, n. 5, pp. 329-336, 1994 http://homerecording.com/bbs/equipment-forums/other-equipment-reviews/dsd-vs-pcm-head-engineer-phillips-179930/
da AUDIOREVIEW n. 357 novembre 2014

Author: Redazione

Share This Post On

2 Comments

  1. E quindi? Tutta sta manfrina senza dare risposta al titolo dell’articolo.

    • La risposta è nella seconda e terza riga del testo mentre l’articolo approfondisce il tema per capire se la preferenza soggettiva degli audiofili trova anche delle motivazioni teoriche, oggettive.

Submit a Comment