È il nuovo Sacro Graal dell’audio di qualità. Da un anno o poco più tutti gli audiofili più aggiornati ed esigenti pretendono che i DAC in commercio siano compatibili con gli stream a singolo bit, e di conseguenza i distributori nazionali “pressano” i costruttori di cui curano il catalogo affinché aggiornino la loro produzione, con la conseguenza di un lavoro forsennato in molti uffici di progettazione, taluni dei quali presi proprio alla sprovvista. Qualcuno pensa sia una moda di passaggio, soprattutto alla luce dell’offerta ancora modesta di software nativo sui siti di musica liquida. Noi invece crediamo di no, e questo è uno di quei casi in cui il parallelismo tra la sezione tecnica e quella di ascolto di AUDIOreview è pressoché completo. Naturalmente, come sempre, ci siamo attrezzati per fare misure e cercare di capire se e cosa cambia rispetto alla modalità PCM in cui abbiamo fino ad oggi caratterizzato il comportamento dei convertitori DA. I primi risultati sono molto, molto interessanti.
In realtà di misure sul DSD ne facciamo da quasi quindici d’anni, nel senso che, fin dalla prima commercializzazione del set di SACD test Philips, AUDIOreview ha pubblicato misure sui player SACD. Eravamo però per l’appunto legati e limitati ai segnali previsti dalla stessa Philips, laddove su qualsiasi altro tipo di componente abbiamo sempre affiancato test standard a test sviluppati in conseguenza dell’attività di ricerca del nostro team. Questo tipo di vincolo scompare per le attuali generazioni di DAC con ingresso USB e compatibilità con gli stream DSD, sui quali possiamo veicolare segnali in formato DFF, che ovviamente abbiamo rapidamente sviluppato in modo da poter confrontare questa modalità operativa con quella che invece indaghiamo da sempre, ovvero la modalità PCM. Prima di vedere quali segnali useremo sarà però bene ripercorrere un poco la storia di questo formato, anche perché gli audiofili più tecnicamente smaliziati potrebbero porsi una domanda fatidica di questo tipo: “e per quale motivo il DSD dovrebbe suonare meglio del PCM? Un segnale PCM 192/24 garantisce una banda teorica estesa fino a 90 kHz nonché livelli di rumore e distorsione migliori di -140 dB. Il DSD invece ha prestazioni ottime, ma solo in banda audio, perché al di sopra peggiorano di molto”. È tutto vero, ma non è tutto.
Codifiche monobit, ripercorriamo qualche tappa
Crediamo sia ben nota alla grande maggioranza degli audiofili anche non tecnici, ma sarà comunque bene riparlare brevemente della differenza tra la modulazione PCM multibit e le tecniche a bit singolo. Come sempre un disegno è di vari ordini di grandezza più immediato da comprendere di una sequenza di parole, e possiamo quindi far riferimento alla Figura 1, in cui troviamo in alto una esemplificazione della modulazione Pulse Code Modulation rispetto a quella Direct Stream Digital, con il segnale da convertire in nero e l’esito della codifica in blu. Nella classica PCM la frequenza di campionamento è relativamente bassa (oggi varia dai 44,1 kHz del formato CD ai 352,8 kHz del DXD) ma i livelli che il segnale può assumere sono molto numerosi (da 16 a 24 bit, ovvero da 2^16 = 65.536 livelli fino a 2^24 = 16.777.216 livelli, ma se ci riferiamo ai formati in cui questo segnale può essere immagazzinato si arriva anche a 32 bit). Nel DSD il segnale può assumere invece due soli valori, zero oppure uno, ma la frequenza di campionamento (che in figura non è in scala in rapporto alla Fs del PCM, per esigenze di rappresentazione) è molto più alta, addirittura 64 volte se confrontiamo il PCM del CD (44.100 Hz) con il DSD del Super Audio CD (2.822.400 Hz).

Figura 1. Esemplificazione del funzionamento della modulazione Pulse Code Modulation multibit rispetto a quella Direct Stream Digital.
Nel PCM un segnale nullo in ingresso all’ADC produce in uscita una sequenza di valori nulli, ma nel DSD lo stesso segnale produce invece una sequenza di zeri ed uno alternati, perché il segnale audio viene ricostruito aumentando opportunamente la densità dei campioni di valore uno (per i valori positivi) oppure diminuendola (per valori negativi). Ne consegue tra l’altro che il valore medio di uscita è sempre pari a 0,5, e che quindi questa va disaccoppiata con un condensatore (anche se ovviamente in elettronica è molto facile adottare soluzioni diverse per abbattere questo residuo in continua, per non parlare di codifiche a bit frazionari).
Le enunciazioni di base della teoria dei segnali sono due, ed in prima lettura non sembrerebbero permettere alle codifiche monobit di funzionare: la prima ci dice infatti che la massima frequenza che possiamo registrare quando digitalizziamo un segnale è pari alla metà della frequenza di campionamento, la seconda invece ci informa che il massimo rapporto segnale/ rumore (in decibel) che possiamo ottenere è pari a 6.021 x n + 1,76, ove n è ovviamente il numero di bit.
Ne consegue che, parlando di PCM, le prestazioni dei formati disponibili vanno dai 22.050 Hz di banda passante e 98,1 dB di dinamica del CD fino ai 176.400 Hz e 146,3 dB del DXD (352,8 kHz/24 bit). Sembrano valori molto “attraenti”, e lo sono, però prima di andare avanti occorre fare un’osservazione: oggi (ma anche nel futuro prevedibile, per ragioni che non possiamo approfondire qui) non esiste nulla che possa garantire un rapporto segnale/rumore di 146 dB alla fine della parte elettrica della catena audio, ovvero ai morsetti degli altoparlanti.
Se parliamo ad esempio di amplificatori finali, ovvero del componente potenzialmente più “silenzioso” di tutti, il massimo valore mai osservato nei nostri laboratori è di 132 dB, ed in misura pesata “A” (McIntosh MC 1,2 kW), ma già nei preamplificatori è rarissimo osservare S/N migliori di 110 dB. Ne consegue che, se anche esistesse un DAC con una risoluzione “vera” di 24 bit, la sua estrema capacità di dettaglio verrebbe sommersa da quantità di rumore che – ancorché molto piccole in assoluto – sarebbero di vari ordini di grandezza più forti. Non a caso, ad oggi il “record” di risoluzione integrale effettiva è ben minore di 20 bit (19,36 bit, ottenuto da un DAC della Belcanto).
Ad ogni modo, tornando all’apparente impossibilità di funzionamento dei monobit, se i valori limite del PCM sembrano attraenti, quelli del DSD sembrano catastrofici: cosa ci facciamo di una banda di 1,4 milioni di hertz se già a quarant’anni udiamo a malapena 14 migliaia di hertz… E soprattutto cosa ce ne facciamo di un rapporto segnale/rumore di appena 7,8 dB quando già un (indiscutibilmente rumoroso, per quanto possa piacere per molti altri versi) disco in vinile può raggiungerne una quarantina?
È vero che si tratta di un rumore distribuito su una banda 64 volte quella del CD, ovvero quella udibile, per cui – senza troppo complicare il discorso – dal punto di vista acustico vanno aggiunti altri 18,1 dB, ma siamo sempre su valori scadenti. La soluzione si chiama “modellamento del rumore”, e fa parte dello standard: riportando opportunamente indietro il segnale digitale di uscita è possibile “spostare” in frequenza il contenuto del rumore, “liberando” la parte inferiore ed udibile dello spettro. Ma dove e quanto va ad agire questa operazione?
Qui crediamo che gli audiofili “consapevoli” siano una minoranza, e per gli altri la Figura 2 rappresenterà un sorpresa, forse nemmeno molto gradita. Vediamo infatti l’andamento spettrale della densità di rumore per un segnale DSD64 (quello per l’appunto del SACD): all’interno della banda audio la densità sale ma non monotonicamente, presentando un minimo intorno ai 10 kHz ed un altro a 20 kHz, ma oltre i 20 kHz la salita è ripidissima, e considerando una banda di soli 44 kHz (perché poi si sale ancora) il dislivello di densità supera i 3 ordini di grandezza.

Figura 2. Andamento spettrale della densità lineare di rumore per un segnale DSD64, rappresentazione su scala logaritmica delle frequenze da 20 a 44.100 Hz.
Tutti quelli che come noi sono al contempo tecnici ed audiofili, quando per la prima volta hanno visto questi andamenti hanno pensato qualcosa del genere: “Non c’è nulla da fare, in Philips e Sony sono bravissimi, ma sono prima ingegneri e poi semmai audiofili: trent’anni fa hanno fatto il CD portando la frequenza di campionamento al minimo sindacale per coprire la banda audio, vent’anni dopo hanno fatto di nuovo in modo che la banda privilegiata fosse solo quella audio, visto che al di sopra il rumore sale in modo parossistico. Possibile che un buon fonorivelatore analogico possa in teoria ancora fornire una banda utile più estesa di tecnologie come queste?”.
Di fatto, se colleghiamo l’uscita di un CD ad un oscilloscopio e gli facciamo leggere una sinuoide di massima ampiezza, vediamo un segnale apparentemente perfetto. Ma se facciamo lo stesso con un SACD di prima generazione, di quelli che pretendevano di sfruttare i 100 kHz che lo standard nominalmente permetteva, vediamo un segnale fortemente rumoroso, al limite anche marginalmente pericoloso per l’integrità di qualche tweeter: ecco perché tutti i SACD player delle ultime generazioni presentano una limitazione di banda (ottenuta con filtri attivi in uscita) tra i 30 ed i 50 kHz, e spesso, se si misura l’attenuazione a 20 kHz, la modalità CD spunta una linearità leggermente maggiore rispetto a quella SACD.
Questa salita del rumore oltre i 20 kHz è anche quella che fin dall’inizio ci ha dissuaso dal presentare misure di risoluzione effettiva sui SACD player, perché in molti casi il filtro a 22 kHz della strumentazione di misura non era in grado di abbattere compiutamente il rumore ultrasonico. Con i DAC DSD ad ingresso USB però si cambia, tra breve vedremo perché.

Figura 3. Andamento spettrale della densità lineare di rumore per un segnale DSD128, rappresentazione su scala logaritmica delle frequenze da 40 a 88.200 Hz.

La Combo384 è una scheda di interfaccia USB in grado di agganciare segnali DSD fino a 512x, di fatto almeno una generazione avanti rispetto ai DAC oggi disponibili.
I vantaggi del bit singolo
A parte il loro sviluppo teorico, che data dagli inizi degli anni ‘60 del secolo scorso, la conversione monobit venne impiegata commercialmente ben prima della sua adozione nello standard SACD di Philips e Sony, addirittura quasi 10 anni prima, visto che le tecnologie “bitstream” di Philips e “Mash” di Technics/Panasonic datano proprio al 1990.
In quel caso si trattava di conversione DA dei soli segnali digitali disponibili allora (quelli dei CD, ovvero 44,1 kHz e 16 bit) ma chi visse quel periodo anche dall’interno di un ben attrezzato laboratorio di misure ricorda quel passaggio come una effettiva pietra miliare: di colpo anche macchine economiche iniziarono a presentare una linearità ai bassi livelli strepitosa, quasi sconosciuta ai DAC multibit (qualcuno ricorda il glorioso Burr Brown PCM56 ed il suo trimmer per la calibrazione dello “zero crossing”?), ed ottimi valori di risoluzione integrale.
Non che fosse tutta gloria effettiva: per le limitazioni tecnologiche dell’epoca i noise shaper avevano strutture complesse e comportamenti che dipendevano – tra l’altro – dall’ampiezza del segnale trattato, per cui poteva ad esempio capitare che la distorsione residua variasse in modo anomalo con il livello. Però i vantaggi generali erano notevoli: prestazioni generalmente elevate, elevata costanza degli standard di produzione, costi minori.
Per queste ragioni le tecnologie monobit, che poi diventarono quasi sinonimo di sigma-delta per ragioni facilmente comprensibili dalla Figura 4 (struttura di un modulatore sigma-delta del primo ordine) estesero rapidamente i loro campi di applicazione anche alla conversione AD, ed oggi di fatto tutti i convertitori sono a tecnologia sigma-delta (pur se non tutti sono a singolo bit). Ma qual è il reale vantaggio di operare a frequenze di campionamento altissime? La semplicità con cui può essere effettuata la filtratura, sia in AD (per eliminare l’aliasing) che in DA (per abbattere le spurie ad alta frequenza ed avere un segnale continuo).

Figura 4. Struttura di un modulatore sigma-delta del primo ordine. Come si comprende facilmente il nome deriva dalla presenza di un integratore “sigma” e di un modulatore “delta”, l’intero processo consistendo in sostanza nel “sommare differenze”. In matematica le somme sono associate alla lettera greca “Σ”, le differenze alla lettera “Δ”.
Quando si digitalizza un segnale occorre essere assolutamente certi che al convertitore non arrivino frequenze maggiori della metà della frequenza di campionamento (banda di Nyquist), altrimenti il segnale numerico conterrà degli “alias”, ovvero dei toni corrispondenti a quelli ma di frequenza inferiore e (in generale) nemmeno legati da relazione armonica. Se la banda del segnale è prossima a quella di Nyquist ciò obbliga ad adottare filtri anti-alias estremamente complessi e pendenti. Per dare un’idea di “quanto” complessi possano essere, basti pensare che uno dei primi analizzatori FFT messi in commercio all’inizio degli anni ‘70, il Brüel & Kjær 2031, in ingresso aveva filtri ellittici – ovviamente analogici – a 10 stadi, capaci di oltre 100 dB per ottava di pendenza sopra i 20 kHz: campionando a soli 51.200 Hz non c’erano alternative. Questo però comporta forti alterazioni nella coerenza temporale dei segnali.
Oggi, naturalmente, si può anche campionare a frequenze molto maggiori (spostando quindi molto più in alto la frequenza in cui si inizia a perdere la coerenza temporale) e poi filtrare digitalmente. Questa operazione però, con taluni segnali, introduce una oscillazione (ringing) nel dominio del tempo, che secondo alcuni ascoltatori è udibile e deleteria. Operazione analoga occorre nella complementare conversione DA, in quel caso per abbattere le immagini create dal sovracampionamento a frequenze maggiori di quella di Nyquist.
Con le altissime frequenze di campionamento del DSD tutto ciò si semplifica drasticamente: basta in sostanza un filtro del primo ordine (totalmente coerente in termini di fase) per l’anti-alias, con taglio ben maggiore del limite di udibilità, ed un altro filtro analogo in uscita. Possiamo vedere a confronto questi meccanismi in Figura 5, la stessa che utilizzò Roberto Lucchesi nel 1999 per descrivere su queste pagine lo standard Super Audio CD (AR 192, pagg. 52 e seguenti).
In pratica, dato che già negli anni ‘90 i primi stadi dei convertitori AD erano sempre di tipo sigma-delta (ed in larga misura operavano già a 64x rispetto ad una frequenza di uscita di 44,1 kHz), l’idea – geniale – alla base del SACD fu proprio quella di saltare uno stadio ed immagazzinare su supporto fisico lo stream a bit singolo.
Questo permetteva a Philips e Sony da un lato di risultare più “puristi” del DVD-Audio (che era nato prima ed era quindi lo standard emergente da combattere), e dall’altro di rendere molto difficile la vita ai “pirati”, perché la pirateria si basa sui computer e nessun computer commerciale, per molti anni, è stato in grado di gestire flussi a bit singolo (ed anche oggi nessun player da PC può leggere un SACD). Come contrappeso, con il DSD occorre che la stabilità temporale del clock sia altissima sia in AD che in DA, perché ogni piccola instabilità si traduce direttamente in distorsione.
Il DSD128
Il formato DSD nasce con il DSD64 del Super Audio CD e, non essendo stato previsto in questo standard alcun aggiornamento della frequenza di campionamento, questo supporto potrà continuare ad ospitare solo questo tipo di segnale. Parlando però di DAC USB, ovvero di musica “liquida” veicolata da un PC, non ci sono limiti alla frequenza di campionamento se non quelli tecnologici del momento in cui si osserva la situazione. Oggi lo standard più avanzato è il DSD128, che campiona ovviamente al doppio del DSD64 (ovvero a 5.644.800 Hz) e che ha performance esattamente doppie in termini di banda gestibile in assenza di rumore, come si può ben osservare in Figura 3.
In effetti esiste almeno un DAC professionale capace di AD e DA in DSD a 256x, ed è l’Horus della Merging Technologies, mentre se parliamo di macchine amatoriali allo stato possiamo citare l’interfaccia digitale Combo384 della italianissima Amanero Technologies, in grado di sincronizzarsi con segnali fino a 512x. I DAC USB reperibili oggi in commercio sono ovviamente compatibili con il DSD64, ma in buona parte anche con il DSD128. L’Exasound Ezo mkII è un DAC amatoriale compatibile con il DSD 256.
L’offerta di software
Questo tema meriterà un articolo specifico nel futuro più prossimo, anche perché la situazione sta evolvendo rapidamente. Allo stato l’offerta sui siti di musica liquida è ancora relativamente limitata, sebbene ad esempio Acoustic Sounds renda disponibile un catalogo già abbastanza ampio, oltre che interessante.
Per quanto riguarda i demo da scaricare gratuitamente, oltre al sito che è da anni in cima alla lista (parliamo ovviamente del norvegese 2L, www.2l.no) va citato almeno Channel Classics Record (www.channelclassics.com), che consente un download da 700 megabyte in cui sono incluse quattro versioni in diversi formati lossless HD di uno stesso brano (44/24, 96/24, 192/24 e DSD64).
Non possiamo tuttavia tralasciare una considerazione, altrimenti andremmo contro il nostro dovere di informare. Al boom di richieste per convertitori compatibili con gli stream DSD non è certamente estranea la possibilità di effettuare copie digitali dei Super Audio CD mediante le prime due tipologie di Sony PlayStation 3, unitamente ad un software facilmente reperibile sulla rete da circa 3 anni.
Se ciò è ovviamente un male in sé perché agevola lo scambio illegale di contenuti protetti da copyright, va tuttavia anche detto che, dal punto di vista audiofilo, ciò ha almeno consentito a qualcuno (le PS3 delle prime generazioni sono ovviamente ormai rare) di mettere al sicuro nei propri hard disk il contenuto dei propri preziosi SACD, allontanando il rischio (che tra una ventina d’anni potrebbe diventare una certezza) di non poterli in futuro più riprodurre o per consunzione del supporto o per sparizione dei player.
Alcuni esempi di misure
A parte i normali aggiornamenti che effettuiamo periodicamente, sui DAC DSD eseguiremo le stesse misure che abbiamo finora eseguito sui DAC PCM, inclusa quindi la risoluzione effettiva ed il jitter. Qui riportiamo una breve rassegna di test relativa ad alcuni DAC in prova anche su questo numero. In Figura 6 vediamo la risposta in frequenza del Korg DS-DAC100 in PCM 192/DSD64/DSD128: l’estensione utile è simile in tutte le curve, ma leggermente più estesa e lineare in DSD128.
Anche la linearità nella zona inferiore della gamma dinamica non cambia molto in DSD, ma in Figura 7 abbiamo comunque sovrapposto gli spettri del tono da -70 dB con una banda doppia rispetto a quella usata nel set standard di misure, onde evidenziare la differenza tra DSD64 e DSD128. In Figura 8 vediamo invece il jitter in DSD128, da confrontare con la misura di jitter fatta in PCM a 96 kHz: qui il DSD è lievemente peggiore, anche se la prestazione è comunque ottima in ambo i casi.

Figura 7. Korg DS-DAC100, spettri in banda 48 kHz di un tono da 1 kHz/-70 dB, codifica DSD64 e DSD128.
Dove i due DAC Korg provati (abbiamo esaminato anche il DS-DAC 100m) vanno meglio in DSD è nella risoluzione effettiva, dove il rumore scende di circa 1 dB e quindi il valore in bit sale di circa 0,2 unità (fino a 17,8 bit nel 100 e fino a 17,1 bit nel 100m): potrebbe sembrare poco, ma è un miglioramento significativo, dato che in questa misura il rumore termico (che non può cambiare nelle due modalità) gioca sempre un ruolo preponderante.

Il Merging Technologies Horus, un AD-DA da studio con cui sono state effettuate le prime registrazioni in DSD256.
In Figura 9 vediamo il tono a 1 kHz/-70 dB riprodotto in DSD64 dall’Asus Essence 3: ottimo, il residuo è tanto basso che si riesce ad osservare anche il modellamento del rumore in banda utile. Sul jitter (Figura 10) il PCM ed il DSD divergono nel comportamento anche se poi appaiono simili nelle quantità riscontrate, però a ben guardare il jitter casuale è certamente jitter in modalità PCM (lo spettro del rumore è simmetrico) mentre non è così in DSD64, che “soffre” un poco anche del rialzo nella parte alta dello spettro dovuto al modellamento. Sull’Asus abbiamo fatto misure anche in DSD128, ma in queste condizioni il segnale di uscita presentava microinterruzioni che inficiavano le misure.
Problemi frequenti
L’ultima osservazione relativa all’Asus ci consente di introdurre quello che, a nostro modo di vedere, è il problema pratico più ostico da risolvere nella attuale fase, in cui i costruttori di DAC stanno anche, nella sostanza, accumulando esperienza: la stabilità e la “certezza” della catena di riproduzione. Quando si progetta un hardware stand-alone, si possono fare tutti i test immaginabili ed arrivare ad un assetto stabile, che non creerà sorprese nella pratica totalità delle installazioni. Quando invece un componente deve operare in abbinamento ad un computer… c’è bisogno di dire che le certezze cadono e che per arrivare a risultati appaganti occorre dotarsi di pazienza e disponibilità a studiare le variabili in gioco?
Per quanto abbiamo osservato negli ultimi tre mesi, l’unico caso in cui abbiamo montato i driver, montato il software e tutto ha funzionato affidabilmente al primo colpo è stato quello del Teac U-D501, che viene fornito con un proprio player software. Negli altri casi, il ricorso a Jriver ha permesso di risolvere problemi che sembravano non superabili anche con il software della Casa, ma non senza fare molte prove e studiare le non poche opzioni operative che questo potente player mette a disposizione.
Con Foobar2000, a cui probabilmente ricorrerà la gran parte degli interessati alla materia, i risultati sono ancora più divergenti, e vanno dal successo pieno immediato al mancato successo dopo due ore di tentativi. Per dare un’idea della natura delle problematiche in gioco, siamo riusciti a misurare i DAC Korg solo dopo aver capito che se prima di loro accendevamo l’Audio Precision AP585 (che con il PC comunica mediante una semplice interfaccia USB2) l’hub non liberava abbastanza banda da poter gestire i DAC in modalità DSD… Di certo c’è che per avere risultati più affidabili è bene dotarsi di PC non troppo vecchi, e comunque dotati di processore ed interfacce veloci.
di Fabrizio Montanucci