Siamo pronti per un cambiamento epocale?

Una delle – fondate – critiche fatte dagli audiofili puri, ma anche da tanti progettisti, a quei tecnici che da sempre cercano di correlare misure ed ascolto, consiste nel fatto che i segnali di prova sono troppo diversi da quelli musicali. Laddove i primi hanno una o poche componenti, sono stabili o cercano comunque di approssimare lo stato stazionario anche quando variano in tempi relativamente piccoli, la musica è fatta di segnali numerosissimi e ad evoluzione tumultuosa. Si è scritto che “una sinusoide sta alla musica come l’alfabeto sta a Guerra e Pace di Tolstoj”. Senza voler dibattere la forzatura insita in un simile parallelismo, potremmo dire che la misura che stiamo per introdurre permette di valutare il comportamento di un sistema di altoparlanti quando al suo ingresso è applicato non l’alfabeto, bensì la raccolta integrale delle opere di Shakespeare.

di Fabrizio Montanucci

Nel percorso culturale di ciascuno di noi esistono probabilmente dei momenti chiave, in cui concetti apparentemente misteriosi diventano all’improvviso chiari, dischiudendo visioni inaspettate. Ricordo ad esempio che non capii granché dei concetti di analisi matematica inseriti nel programma dell’ultimo anno di liceo, e come me la classe intera, salvo un solo studente, molto bravo e tendenzialmente autodidatta. Quel compagno di classe lo fu per me anche del biennio di ingegneria, e bastò una mezza mattinata passata con lui per capire il significato effettivo di rapporto incrementale, poi a cascata di limite, derivata ed integrale; oltre che per rendermi conto di quanto danno possa fare un professore sbagliato anche nella materia prediletta. In quell’esame mancai il trenta per un dettaglio, ma concetti e strumenti li avevo ormai ben chiari.

Figura 1. Sistema di altoparlanti dinamici A (full range), spettro della pressione di uscita. Tensione efficace applicata 1 volt, frequenza 1 kHz.

Figura 2. Come figura 1, ma segnale a due toni (950+1050 Hz). La distorsione totale quasi raddoppia.

In modo analogo ricordo con precisione altri due episodi coincidenti con altrettanti articoli, del pari illuminanti. Il primo era un documento della ESS Loudspeakers del 1974, redatto con ogni probabilità da Oskar Heil in persona, in cui l’autore introduceva il concetto di “distorsione mascherante”, definita qualitativamente come quel suono caratteristico di ogni materiale (dipendente dalle “risonanze molecolari interne”) che viene prodotto quando viene applicata una sollecitazione meccanica esterna. È persino banale considerare che ciascuno di noi è in grado di riconoscere ad occhi chiusi se un colpetto con le nocche viene assestato ad una superficie metallica, ad un foglio di carta, ad una parete plastica, ad un vetro e così via, e ciò avviene perché ogni materiale aggiunge le proprie risonanze caratteristiche – che, si noti bene, NON sono solo componenti armoniche – al medesimo stimolo. Anche se teso a magnificare le doti del famoso tweeter AMT (Air Motion Transformer) dello stesso Heil, in quanto unico oggetto tecnologico in grado di soddisfare tutti e 4 i requisiti di base di un altoparlante ideale (bassa velocità di diaframma, uniformità di distribuzione della forza, materiale mobile intrinsecamente silenzioso, massa mobile ridotta), quell’articolo era assolutamente geniale e potrebbe essere ripubblicato ad oltre trent’anni di distanza con il medesimo grado di attualità, dati anche i concetti che circolano in molti forum dedicati all’hi-fi. Sebbene non suggerisse alcunché in tema di misurazioni, e sebbene il sottoscritto non l’abbia mai visto citato in nessun lavoro successivo, le implicazioni di quell’articolo furono assolutamente pervasive: non si spiegherebbe altrimenti che, da allora, la prima azione di un qualsiasi “esperto” di altoparlanti di fronte ad un nuovo driver a cono sia quella di dargli dei colpetti sulla membrana, per non parlare del fatto che – sempre da quel periodo – woofer e midrange vennero impregnati di sostanze altamente viscose od integralmente assemblati con materiali inerti.

Figura 3. Come figura 1, ma segnale a quattro toni (850+950+1050+1150 Hz). La distorsione totale aumenta ancora.

Figura 4. Come figura 1, ma segnale ad otto toni (da 650 a 1350 Hz). La distorsione armonica sale, quella totale scende leggermente.

Se la distorsione non era solo armonica, e se per farla emergere occorrevano sollecitazioni impulsive (o comunque “irregolari” rispetto alla perfetta ciclicità di un segnale semplice e continuo), come si poteva evidenziarla e misurarla? La risposta era insita in un articolo del 1976 del nostro fondatore Paolo Nuti (SUONO stereo hi-fi n. 54, pag. 100), in cui venivano vagliate le proposte sulle tecniche di misura della distorsione di intermodulazione dinamica degli amplificatori: la soluzione di Matti Otala (“Possible methods for the measurements of Transient Intermodulation Distortion”) prevedeva l’impiego di rumore bianco “bucato” da un filtro elimina-banda strettissimo. Se l’amplificatore distorceva, l’intermodulazione conseguente avrebbe “riempito” il buco e l’effetto sarebbe stato osservabile con un analizzatore di spettro ad alta risoluzione. Per motivi sia teorici (la difficoltà di ridurre tutto ad un numero) che pratici (la Fast Fourier Transform era stata scoperta solo da 10 anni, e non esistevano analizzatori in tempo reale abbastanza risoluti) quella proposta venne abbandonata in favore del ben noto (ed ancor oggi utilizzato) metodo seno+quadra, ma quell’idea si annidò in un angolino della mente di chi scrive e vi rimase in apparenza quiescente fino al giorno in cui (estate 2004) il nostro buon Gian Piero Matarazzo non fece al sottoscritto un discorso di questo tipo: “Dopo aver provato centinaia di sistemi di altoparlanti, c’è un dilemma cui non so dare una spiegazione soddisfacente: perché sistemi molto simili quanto a misure standard possono divergere nettamente nella capacità di restituire i dettagli? Non potremmo creare un test in cui inviamo molte sinusoidi di livello elevato unite a sinusoidi più deboli e verificare se le prime “cancellano” la presenza delle seconde?”.
Sarà che nel frattempo, grazie soprattutto alle ricerche di Roberto Lucchesi sui segnali a compressione percettuale, avevamo accumulato idee abbastanza precise sugli effetti del mascheramento dei suoni “secondari, sarà che il cervello umano opera anche con qualche forma di “task” subconscio, quel che proposi in alternativa a Gian Piero fu direttamente la metodica qui descritta, i cui risultati ci hanno lasciato sin dal primo momento, e più di una volta, davvero sorpresi.

Uno più uno non fa due, almeno con la distorsione

Figura 5. Sistema di altoparlanti dinamici B (due vie), spettro della pressione di uscita. Tensione efficace applicata 1 volt, frequenza 1 kHz.

Se ad un sistema di altoparlanti (a questi faremo riferimento perché solo su di essi eseguiremo per ora il nuovo test, ma il discorso vale in generale) applichiamo una sinusoide, questo produrrà pressione acustica distorta, in modo più o meno marcato. La distorsione sarà di tipo armonico, ovvero costituita da componenti legate alla frequenza della sinusoide da un fattore moltiplicativo intero. Se applichiamo due sinusoidi troveremo ancora le armoniche, ma anche suoni a frequenza diversa, che sono legati alle frequenze dei suoni di ingresso non più solo da relazioni moltiplicative, ma anche di somma e sottrazione: si parla in questo caso di distorsione da “intermodulazione”. Un primo elemento da valutare è che, se per la distorsione armonica si può parlare di “eufonicità” (i prodotti di ordine due, quattro ed otto, per limitarsi agli inferiori, sono percepiti come lo stesso segnale scalato ad ottave superiori, con effetti anche gradevoli), ciò non è possibile per la intermodulazione, che può essere più o meno dissonante (molto dipende dalla collocazione delle singole componenti rispetto ai suoni entranti) ma è sempre percepita come qualcosa di “spurio”. Se quindi abbiamo, ad esempio, un sistema che distorce soprattutto come secondo ordine, in presenza di musica questo produrrà suoni che il nostro sistema uditivo inquadrerà come eufonici, insieme ad altri che saranno percepiti come sgradevoli. Un secondo elemento di rilievo è che un sistema che distorce è descritto da una funzione complessa (sia nel senso comune che in quello matematico) che è molto difficile (al limite impossibile) modellizzare in modo esauriente.

Figura 6. Come figura 5, ma segnale a due toni (950+1050 Hz). La distorsione armonica cambia poco, quella totale aumenta.

Figura 7. Come figura 5, ma segnale a quattro toni (850+950+1050+1150 Hz). Sia la distorsione armonica che quella totale aumentano.

Figura 8. Come figura 8, ma segnale ad otto toni (da 650 a 1350 Hz). Tutte le distorsioni scendono, ed è un caso più unico che raro dovuto ad una combinazione di fattori valida in pratica solo per il particolare segnale applicato.

Data la pratica difficoltà di prevedere con carta e matita, o con un computer, quanto e come un altoparlante distorcerà, sussiste quindi un interrogativo di grande interesse che può essere risolto solo per via empirica, ovvero facendo misure: cosa succede alla distorsione se, data una certa potenza costante immessa (od alternativamente una certa velocità media della membrana, od un certo spostamento massimo), aumento la complessità del segnale per cercare di farlo somigliare sempre più ad un segnale reale? La distorsione sale o scende? Ed è più armonica o di intermodulazione?
Per verificarlo abbiamo creato, con un normale programma di editing audio, quattro segnali aventi tutti la stessa potenza efficace: il primo contenente una singola sinusoide (1 kHz), il secondo due sinusoidi (950+1050 Hz), il terzo quattro sinusoidi (850+950+1050+1150 Hz) ed il quarto otto sinusoidi (da 650 a 1350 Hz). Lo scopo era quello di avere componenti abbastanza vicine da produrre sollecitazioni meccaniche non troppo dissimili, e spaziate in modo da poter discernere facilmente le componenti di distorsione armonica da quelle di intermodulazione. Abbiamo applicato questi segnali ad una decina di sistemi di altoparlanti, di varia natura e classe di prezzo, per tensioni relativamente basse (tra 1 e 2 volt efficaci), in modo da farli lavorare in un range dinamico di tutto riposo, poi abbiamo rilevato gli spettri della pressione e da questi calcolato la distorsione armonica, la distorsione di intermodulazione e la somma di queste, ovvero la distorsione totale. Nelle figure da 1 a 12 possiamo vedere i risultati relativi a tre sistemi scelti come campioni: in generale, all’aumentare della complessità del segnale la distorsione armonica scende e quella totale aumenta, grazie al contributo preponderante dell’intermodulazione. Un caso fa parziale eccezione (e proprio per questo è stato riportato) ma la regola è che segnali complessi inducono più distorsione, e tale distorsione si “sparpaglia” in modi non elementarmente predicibili (ovvero produrrà effetti ben differenziati all’ascolto).

Da una sinusoide ad infinite

Figura 9. Sistema di altoparlanti dinamici C (tre vie), spettro della pressione di uscita. Tensione efficace applicata 2 volt, frequenza 1 kHz. Il comportamento generale di questo sistema è analogo a quello del sistema (A), ma la distorsione totale sale fino a quasi 5 volte in presenza di segnali complessi.

Di singole sinusoidi possiamo impiegarne quante ne vogliamo (attualmente il test che ne usa di più è quello di spurie delle sorgenti digitali, con 32 componenti), ma non avremo mai un segnale paragonabile alla complessità di qualsiasi forma di musica. Se anche lo fosse, sarebbe comunque un segnale statico e ciclico: avete mai visto “l’esperto” di cui sopra spingere con delicatezza e regolarità i diaframmi per comprenderne “l’impronta” sonora ? Basta analizzare con accuratezza gli spettri ad otto toni (figg. 4-8-12) per notare che anche la più piccola delle righe spettrali può essere descritta con le suddette operazioni di somma e moltiplicazione delle frequenze d’ingresso, e non sembra davvero esserci speranza di far emergere forme di distorsione mascherante ricorrendo a mere sinusoidi. Abbiamo quindi bisogno di un segnale con componenti numerosissime, per scovare quanta intermodulazione c’è e dove va a concentrarsi, ma al contempo capace di sollecitare le membrane in modo irregolare ed in un certo senso “violento”, perché sono molti i suoni (sia in natura che non) ad avere origine percussiva. Matematicamente un segnale del genere è detto “stocastico”, che si contrappone al “deterministico” dei segnali standard.

Deve inoltre essere energeticamente prevedibile in senso statistico, perché non posso eseguire una misura senza sapere a quale potenza e pressione essa viene condotta. Ne consegue che deve essere anche “ergodico”, perché devo poterne prevedere le proprietà all’interno di un intervallo temporale relativamente breve. Come accennato prima, un segnale del genere esiste ed è ovviamente il rumore, ma non quello “bianco” (caratterizzato da potenza identica per ampiezza di banda identica: vale ad esempio a dire che tra 1000 e 1100 Hz sussiste la stessa potenza media che tra 19900 e 20000 Hz) suggerito a suo tempo per gli amplificatori: i tweeter si romperebbero con pochi watt globali applicati, e non ci sarebbe nessuna congruenza spettrale con la musica.

Figura 10. Come figura 9, ma segnale a due toni (950+1050 Hz.

Dev’essere quindi un rumore “colorato”, ovvero caratterizzato da un certo decadimento energetico al salire della frequenza, e ragioni sia pratiche sia di somiglianza con i segnali musicali portano alla scelta di quello “rosa”, da sempre utilizzato ad esempio nelle risposte mediate perché, dato che la sua densità spettrale varia con l’inverso della frequenza, gode della basilare proprietà di presentare potenza costante per banda percentuale costante. Vale a dire ad esempio che tra 1000 e 1260 Hz (che distano un terzo di ottava) troviamo la stessa potenza media che tra 15874 e 20000 Hz. Se ad esempio applichiamo questo segnale ad un due vie con taglio a 2500 Hz, al tweeter arriverà solo il 30% della potenza immessa (considerando un taglio inferiore del segnale a 20 Hz), il che permette di operare – sia pure con notevoli accortezze, gestite dal programma che esegue la misura – con potenze non piccole. Non così alte come nel caso della distorsione armonica in regime transiente (lì il segnale dura meno di 100 millisecondi, ed è possibile arrivare a centinaia di watt), ma pur sempre realistiche.

Figura 11. Come figura 9, ma segnale a quattro toni (850+950+1050+1150 Hz).

Figura 12. Come figura 9, ma segnale ad otto toni (da 650 a 1350 Hz).

Tralasciamo al momento ogni considerazione sulle tipologie di rumore in funzione delle caratteristiche di ampiezza, per non complicare troppo la discussione.

In cosa consiste la misura

Fare un “buco” in uno spettro continuo e valutarne il “riempimento” ad opera del sistema sotto analisi non è un problema, ma come possiamo ottenere una curva continua, che illustri dove si colloca in frequenza la distorsione e quanto questa vale senza ledere il principio di omogenea e contemporanea copertura della banda audio ? A parere di chi scrive il modo più efficace è quello di sdoppiare l’esecuzione dotandosi di due segnali test ottenuti a partire dal rumore rosa, filtrandoli in modo complementare: in uno ci saranno segmenti di ottava “pieni” alternati a segmenti “vuoti”, nell’altro esattamente l’opposto. La larghezza spettrale dei segmenti non deve essere troppo vasta, altrimenti lo stesso altoparlante potrebbe essere chiamato a funzionare con segnali troppo diversi nelle due fasi, ma nemmeno eccessivamente piccola, altrimenti a bassa frequenza verrebbe richiesta una risoluzione di analisi in frequenza enorme, che come effetto secondario avrebbe quello di richiedere un tempo esecutivo decisamente lungo. E noi non vogliamo scovare la distorsione al costo di rompere gli altoparlanti in prova…

Figura 13. Rappresentazione sinottica della nuova misura. In (1) vediamo lo spettro medio del segnale di prova (rumore rosa) prima della filtratura. In (2) e (3) il rumore viene filtrato drasticamente a terzi d’ottava dai filtri Fa ed Fb, in modo complementare. (D) è il dispositivo sotto test, nel caso specifico un altoparlante. In (4) e (6) vediamo lo spettro della pressione di uscita, ove compare sia il segnale applicato (la parte sommitale dei terzi d’ottava “pieni”) sia tutte le componenti spurie introdotte dal sistema di altoparlanti. Il programma di elaborazione dei risultati, rappresentato da altri due filtri, assiema le bande distorte e costruisce una curva continua. Questa (8) viene rapportata al segnale utile applicato (energeticamente squilibrato dall’altoparlante, anche se per semplicità in figura appare sempre conforme all’ingresso), ottenendo la curva di distorsione ricercata

Supponiamo ad esempio di voler osservare quel che accade fino al limite di 40 Hz. Se il “buco” fosse largo, ad esempio, un dodicesimo di ottava, dovremmo poter osservare quel che accade nell’intervallo da 38.86 a 41.17 Hz, pari a 2.31 Hz. Trascurando in prima battuta il problema del segnale di prova, bisogna considerare che quando si parla di analisi di Fourier la progressione in frequenza che si considera è quella lineare, ed in quei poco più di 2 Hz dobbiamo poter disporre di un buon numero di “canali” di analisi, sprecando per di più almeno i 2 più esterni per la necessità di impiego di una finestra di pesatura. Ne conseguirebbe alla fine la necessità di risolvere almeno 0.2 Hz, ovvero un segnale di prova che persiste per non meno di 5 secondi: troppi, se non vogliamo limitarci a pressioni troppo modeste. Il miglior compromesso sono i terzi di ottava, ed è con questo passo che abbiamo costruito la procedura di misura.
L’altro problema da risolvere riguardava la filtratura del segnale di prova, che per non incidere sulla risoluzione di misura doveva essere filtrato con una pendenza nettamente maggiore di quella necessaria a bassa frequenza all’analizzatore di spettro. Chi scrive prima tentò con i classici programmi di elaborazione di segnali, con risultati scadenti sia per risoluzione che per altezza dei segmenti abbattuti, poi con un filtraggio FIR, verificando che anche con un Pentium 4 a 3 GHz sarebbero occorsi anni per ottenere i 5 minuti di segnale necessari in pratica. Alla fine ho dovuto scomodare il più audiofilo dei matematici, ovvero il prof. Francesco Romani, ordinario di Algoritmi e Strutture Dati all’università di Pisa e ben noto ai nostri lettori perché da molti anni collabora con AUDIOreview. Lo stesso Romani, che merita non solo un ringraziamento ma un vero plauso da tutto il nostro team, descrive la soluzione da lui messa a punto per la filtratura in un box di questo articolo.
Dopo aver impostato il livello di prova (corrispondente ad una pressione di rumore rosa calcolata in base al dato di sensibilità misurata), il programma redatto per il nostro Audio Precision System 2C esegue il test nelle due tornate sopra descritte, poi le “incrocia” per calcolare la distorsione equivalente: per ogni punto in frequenza rappresentato (la scalatura finale è a trentesimi di ottava) esisterà solo segnale utile in una acquisizione e solo segnale distorto nell’altra, e rapportando questi valori si ottiene una curva continua, come si può osservare nella rappresentazione sintetica del test di figura 13. Una possibile critica quasi “epistemologica”, che ovviamente il sottoscritto ha considerato sin dall’inizio, riguarda il fatto che il test è condotto in due fasi separate e con segnali diversi, ma la rappresentazione finale è unica: non c’era garanzia a priori che i meccanismi distorsivi eccitati fossero equivalenti. Il fatto però che nelle curve non si noti discontinuità alcuna è proprio la maggiore garanzia che quanto osserviamo è un residuo caratteristico dell’altoparlante, poco dipendente dalla momentanea distribuzione del segnale di prova. In più di un caso (anche negli esempi descritti di seguito) abbiamo peraltro osservato aumenti di distorsione ai confini tra le bande a frequenza media ed alta, e questo è un elemento interessante che intendiamo approfondire nella prossima puntata.
Siccome l’oggetto della misura è una distorsione non lineare complessiva, e poiché per rilevarla viene impiegata una forma di rumore, abbiamo denominato questo test “distorsione totale da rumore”, ovvero TND se sfruttiamo l’acronimo inglese.

Primi esempi di risultati

Sul prossimo AUDIOreview pubblicheremo una casistica di risultati ben più vasta, associata a sessioni di ascolto di ogni altoparlante misurato. Qui intanto riportiamo tre esempi preliminari, relativi a test condotti a 95 dB di pressione media su un sistema dinamico (figura 14), uno ibrido dinamico-elettrostatico (figura 15) ed uno elettrostatico puro (figura 16). Quello più interessante è forse l’ibrido: quante volte abbiamo detto e sentito che la parte debole degli elettrostatici asserviti da woofer dinamici è proprio la gamma bassa?

Figura 14. Esempio di Total Noise Distortion di un sistema dinamico a due vie.

Figura 15. Esempio di TND di un sistema ibrido (woofer dinamico, unità medi ed alti elettrostatica).

Figura 16. Esempio di TND di un sistema interamente elettrostatico.

Nulla potrebbe essere più tecnicamente rappresentativo di questo concetto di una curva che viaggia in media sullo 0.2% oltre il kHz e sale invece fino a cento volte di più (venti per cento – ! – e con potenze applicate di pochi watt) man mano che il cono subentra all’emissione planare. Da notare poi che, sebbene l’escursione media del woofer fosse minore rispetto alla misura effettuata con treni d’onde sinusoidali, la relativa misura non aveva condotto a valori altrettanto elevati. Il sistema dinamico è nettamente inferiore agli altri ed intermodula consistentemente un po’ ovunque: per quanto notato sino ad oggi i risultati analoghi non sono pochi, ma bisogna anche dire che di dinamici a bassa e bassissima TND ne abbiamo comunque già incontrati, pur se in genere a costi piuttosto elevati. L’elettrostatico puro è sotto vari aspetti eccezionale, distorce poco a bassa frequenza e pochissimo in gamma media ed alta, anche se rispetto al sistema ibrido presenta una salita spesso consistente della distorsione ai confini delle bande.

Anche se di ascolto parleremo soprattutto nel prossimo numero di AUDIOreview, non possiamo ovviamente qui trascurare quello che è poi la prova del nove di ogni lavoro di ricerca effettuato in ambito audio. Quello che teoricamente ci si dovrebbe aspettare in presenza di TND è qualcosa di simile a quello che avviene con la compressione percettuale: in quel caso il computer che presiede al processo è costretto a “lesinare” i vettori dell’informazione in alcune bande sonore, all’interno delle quali il rumore sale e la “grana sonora” diviene di dimensioni maggiori. L’effetto pratico lo conosciamo bene: i dettagli fini diventano più eterei o non sono più percepibili del tutto, la “scena sonora” tende a restringersi od a svuotarsi. Ebbene, è da sempre “vox audiofili” che i sistemi elettrostatici siano dotati di una grande capacità di scandagliare i dettagli, ed effettivamente sia l’elettrostatico puro sia l’ibrido hanno manifestato qualità elevatissime in questo senso; l’ibrido è poi forse il sistema più radiografante in assoluto mai ascoltato da chi scrive, e sarebbe davvero strano se fosse un caso che la sua TND è la più bassa e regolare in assoluto sulle note medie ed alte. Molto interessante è anche notare che, sebbene per il sottoscritto sia comunque qualitativamente lontana dalla sezione elettrostatica, la sezione bassi di questo sistema non era poi così male come il grafico potrebbe indurre a pensare. Forse una TND elevata a frequenza bassa non ha effetti così deleteri, ed anche questo torna molto bene con quanto sappiamo della capacità di discriminazione del nostro sistema uditivo. Il sistema dinamico era un due vie economico, ma di buona fattura e sana progettazione. All’ascolto era più che dignitoso, ma il confronto con gli altri sistemi era davvero improponibile.

Prime conclusioni

Ci sono altri aspetti da descrivere sulle misure di distorsione con segnali stocastici, e lo farò nella prossima puntata. Uno però lo accenno subito, anche per solleticare un po’ di curiosità: il rumore non è il solo segnale di questo tipo, ce n’è un altro che lo è per eccellenza…
Sulla base della casistica osservata fino ad oggi, è legittimo affermare che la misura di TND permette di valutare in modo semplice (la curva riportata è unica, ed esprime una percentuale di distorsione) quello che fino ad oggi richiedeva una rappresentazione più complessa e con un contenuto informativo enormemente inferiore, ed è per questo che sostituirà la classica misura di IMD bitonale. È una tecnica sensibile contemporaneamente a tutte le forme di distorsione non lineare generate da un altoparlante, e può essere condotta con segnali anche molto diversi, offrendo in tal modo la possibilità di “specializzare” il test in funzione di scopi specifici (ad esempio per individuare in modo non ottimistico la minima frequenza di taglio di un trasduttore). I suoi risultati appaiono promettentemente concordi con molte sessioni d’ascolto condotte finora, e l’autore ne è particolarmente contento, ma al contempo non credo affatto che questa sia la misura “finale”. Un diffusore acustico resta un sistema che opera in uno spazio a tre dimensioni, ed anche se ne avessimo un modello psicoacustico completamente esauriente (il che ovviamente non è) non potrebbe bastare un solo parametro per delinearlo in modo completo.

da AUDIOREVIEW n. 268 maggio 2006

BOX

Generazione di segnali test

di Francesco Romani

Quando raccomando ai miei studenti del corso di Introduzione all’Audio Digitale la lettura di AUDIOreview aggiungo sempre che non sto facendo la pubblicità a questa rivista perché ci scrivo ma che ci scrivo perché AUDIOreview è una rivista “seria”, una delle poche al mondo nel campo dell’Alta Fedeltà che per lunga tradizione fa vera ricerca nel campo delle misure degli apparati audio.
È stato quindi con grande piacere che ho accolto l’invito dell’amico Fabrizio a fornirgli alcuni segnali speciali per il nuovo test di distorsione “dinamica” che ha messo a punto.

Il problema del filtraggio

Sia s(t) un qualunque segnale e F(s) un filtro passa-banda che copra la banda audio (per esempio 18-18000 Hz). Sono richiesti due filtri complementari Fa e Fb tali che

Fa(s) + Fb(s) = F(s)

Fa(Fb(s)) = Fb(Fa(s)) = 0

Per ognuno dei due filtri una caratteristica essenziale è una pendenza elevatissima nel passaggio tra la banda passante e la banda soppressa.
La prima soluzione che viene in mente è la realizzazione con i FIR; purtroppo sintetizzare un FIR di elevata pendenza a bassa frequenza (intorno ai 20 Hz) richiede un numero elevatissimo di tappe, il che a sua volta porta ad un tempo di calcolo inaccettabile anche sulle macchine di oggi. Per esempio 500000 tappe (per una risoluzione dell’ordine di 0.5 Hz) richiederebbero per 5 minuti di segnale mono in qualità CD un numero di operazioni pari a 300 x 44100 x 500000 (dell’ordine dei 5000 miliardi).
Una seconda soluzione possibile è usare un IIR, infatti, mentre la risposta di un FIR corrisponde ad un’approssimazione polinomiale nel dominio della frequenza, un IIR implementa un’approssimazione razionale che è molto più versatile. Purtroppo quest’ultima è estremamente difficile da sintetizzare in modo preciso e stabile.
Una terza alternativa è dividere il segnale tagliandolo con opportune finestre (per esempio Hamming, o Blackman), applicare un filtro FFT ad ogni pezzetto e ricomporre il tutto. È anche necessaria una decisa sovrapposizione tra le finestre perché ognuna di esse fornisce un segnale accettabile solo nella parte centrale. Questa tecnica è ormai standard quando si devono trattare in tempo reale stream di lunghezza imprecisata, teoricamente infinita, per esempio negli equalizzatori, nei riduttori di rumore dinamici o negli algoritmi di compressione/decompressione. La complessità si abbassa di svariati ordini di grandezza ma la programmazione non è banale e il risultato affetto da inevitabili imprecisioni dovute alla ricostruzione.
Nel nostro caso, dovendo lavorare su segnali test preesistenti e di lunghezza nota a priori, la soluzione migliore (resa possibile dalla potenza di calcolo e dalla capacità di memoria delle macchine attuali) è quella di applicare la tecnica di Fourier all’intero segnale. Lavorando su almeno 100 secondi di segnale la risoluzione del filtro viene così dell’ordine del centesimo di Hz e i tempi sono più che accettabili (poche decine di secondi).
L’algoritmo di filtraggio è stato quindi strutturato come segue.

Si imbottisce il segnale originario (prima un po’ di zeri, poi il segnale, poi altri zeri) in modo da avere un numero di campioni pari ad una potenza di 2 (per esempio 16 x 1024 x 1024), in questo modo si può usare un algoritmo FFT semplice ed efficiente e si aumenta la risoluzione.
Si applica la trasformata di Fourier e si fanno due copie del segnale espresso nel dominio della frequenza.
In ciascuna delle copie si azzerano i valori corrispondenti alle frequenze che si vogliono eliminare (la banda soppressa in una copia è la banda passante nell’altra).
Si applica alle due copie la trasformata inversa e si buttano gli zeri precedentemente introdotti in testa e in coda ottenendo i due segnali filtrati.

Nel caso si voglia provare il dispositivo con un segnale musicale basta applicare a questo l’algoritmo di cui sopra per produrre due segnali di prova complementari Fa(s) e Fb(s) pronti per l’uso.

Generazione di segnali di prova sintetici

Un segnale di test artificiale molto usato è il rumore rosa, che ha molte buone proprietà tra cui la larga banda, una potenza costante nelle varie ottave (o nei terzi di ottava) e un andamento spettrale simile al segnale musicale. Nulla impedirebbe quindi di applicare i filtri Fa e Fb ad un rumore rosa preso da un disco test o generato per l’occasione.

Figura 1. Spettro del rumore pseudo-rosa a basso FdC filtrato con Fa.

Esiste però un problema di ordine pratico che suggerisce un’ulteriore riflessione. Dato un qualsiasi segnale il suo Fattore di Cresta (FdC) si può definire come il rapporto tra la massima tensione picco-picco e la tensione media RMS. Il quadrato di questo rapporto rappresenta il rapporto tra la potenza che esprimerebbe un amplificatore pilotato (al limite del clipping) con un’onda quadra e quella che esprime pilotato (al limite del clipping) dal nostro segnale. A questa seconda misura espressa in dB faremo riferimento in seguito quando parleremo di FdC.

Figura 2. Spettro del rumore pseudo-rosa a basso FdC filtrato con Fb.

In genere la potenza massima RMS che un amplificatore può erogare viene misurata con segnali sinusoidali che hanno un FdC di 3 dB. Quando si usa un amplificatore con segnali reali (o con segnali test a larga banda) la potenza massima che si può ottenere è molto inferiore. È per questo motivo che la multiamplificazione permette una maggiore efficienza di pilotaggio di sistemi di altoparlanti multivia.
Per esempio nel nostro caso riuscire a produrre un segnale di test simile al rumore rosa filtrato ma con un FdC di 10 dB invece che 13 dB permetterebbe, a parità di amplificatore, di fare un test con una potenza effettiva doppia.

Le specifiche del segnale da generare sono quindi:

risposta rosa in banda
risposta nulla fuori banda
pendenza di attenuazione ripidissima
basso fattore di cresta.

Da un punto di vista matematico questo può essere considerato come un problema di minimizzazione globale ma l’eccessivo numero di variabili in gioco (ogni singolo campione è una variabile) rende impossibile un approccio rigoroso e suggerisce di adottare invece un algoritmo di tipo euristico.
Io ho provato ad assemblare un certo numero di frammenti che esibiscono le proprietà desiderate scelti con cura tra molte migliaia generate casualmente.
L’algoritmo è strutturato come segue:

si stabilisce la durata del segnale finale (per esempio 8M campioni = 3 minuti e 10 secondi) e il numero di frammenti (per esempio 32).
Si genera un frammento di 8M/32 = 256K campioni con distribuzione casuale indipendente e uniforme. Questo produce un segnale abbastanza simile al rumore bianco.
Si filtra a -3 dB/ottava per avere una risposta rosa, e si applicano i filtri complementari (per risparmiare tempo di calcolo queste due operazioni vengono effettuate insieme con una doppia passata di FFT).
Si eliminano i campioni dal valore più alto (abbassando quindi il fattore di cresta) e si applicano di nuovo i filtri complementari per “uccidere” le frequenze fuori banda che, come il prezzemolo, sono rispuntate fuori.
Si calcola il fattore di cresta (FdC) e la deviazione dalla risposta rosa ideale (ripple), se questi parametri soddisfano due soglie prefissate si accetta il frammento, altrimenti lo si scarta e se ne genera un altro.
Quando sono stati generati 32 frammenti “buoni” questi vengono giustapposti e il segnale risultante viene filtrato di nuovo con i filtri complementari. Un fenomeno interessante è che, nel mettere insieme i pezzi, il FdC peggiora (questo è inevitabile) ma il ripple migliora nettamente.

L’intero procedimento può essere ripetuto più volte. Attualmente il miglior risultato che ho ottenuto (in 20 ore di tempo di calcolo) è una coppia di segnali di 8M campioni filtrati in modo complementare a terzi di ottava tra 17.677 Hz e 18101.933 Hz con ripple entro 0.76 dB e un fattore di cresta di 9.82 dB. Il passaggio dalla banda passante alla banda soppressa avviene in meno di un duecentesimo di Hz per 96 dB di attenuazione.
Gli spettri della coppia sono riportati nelle Figure 1 e 2. I grafici sono stati ottenuti con CoolEdit e la finestra di analisi di 64K campioni non è assolutamente sufficiente a mostrare la bontà del segnale test, d’altra parte ho pensato che fosse più “neutrale” (e rapido) usare un analizzatore standard piuttosto che scriverne apposta uno ad alta risoluzione.

Tecnica di programmazione

Una volta la scrittura di programmi e il loro utilizzo era compito riservato agli esperti: i computer erano strumenti professionali come le gru da venti tonnellate. Col passare del tempo i computer sono diventati sempre più simili alle automobili, ovvero macchine sofisticate ma che vengono utilizzate da chiunque, ma solo una piccola parte degli utenti di computer ha la necessità di programmarli. D’altra parte solo potendo scrivere applicazioni progettate da noi stessi si riesce a sfruttare veramente la versatilità del computer per adattarla alle nostre esigenze.
Java è un linguaggio pensato all’origine per i sistemi embedded (i computer incorporati in lavatrici, palmari, telefonini, televisori, ecc). Il suo punto di forza sta nell’essere indipendente dal tipo di macchina e dal sistema operativo. Lo stesso programma Java deve girare su qualunque computer senza modifiche, riducendo così notevolmente le risorse umane necessarie per scrivere applicazioni. Se si aggiunge la considerazione che gli strumenti base per operare in Java sono distribuiti gratuitamente, si deduce facilmente che questo è il linguaggio ideale per chi voglia affrontare la programmazione in modo semplice ma ben organizzato.
Per quanto riguarda l’audio Java fornisce una libreria che permette di acquisire segnali e di leggere e scrivere file in qualunque formato, questo mi ha permesso di concentrarmi sugli algoritmi senza perdere tempo con le specifiche del formato WAV.
Gli algoritmi sono stati implementati in Java 1.4. A livello di programma si lavora con una risoluzione fino a 32 bit e con qualunque frequenza di campionamento desiderata, ma l’uscita viene salvata a 24 bit/44100 Hz.
Anche per quanto riguarda le bande di filtraggio non vi sono vincoli dalla mia parte e posso implementare qualunque schema sembri opportuno a chi progetta le misure (per esempio si potrebbe filtrare ad ottave a bassa frequenza per avere più risoluzione nell’analizzatore di laboratorio che usa finestre FFT molto più strette).
La misura dal punto di vista matematico

Mentre nel caso dello studio dei sistemi lineari (per esempio un filtro RC) si può avere (almeno in teoria) un’informazione completa con una sola misura (risposta in frequenza, risposta all’impulso, all’onda quadra, ecc.) per le distorsioni non lineari non esiste una teoria universale e in genere si cerca di evidenziare le non linearità in funzione del problema che si sta studiando (distorsione armonica, intermodulazione, per differenza di frequenze, intermodulazione dinamica, curve di carico limite, ecc.).
Una misura di distorsione con segnali musicali o con segnali a larga banda (rumore rosa, rumore bianco) è estremamente difficile perché il segnale va a mascherare la distorsione.
L’idea di Fabrizio consiste nel filtrare un segnale a larga banda con due filtri complementari andando poi a misurare le distorsioni indotte nelle banda soppresse.

La teoria del test

Dato un dispositivo che abbia un effetto D(s) e i due filtri complementari Fa e Fb, la linearità di D può essere misurata con

E(s) = Fa (D(Fb(s))) + Fb(D(Fa (s)))

infatti se D è una trasformazione lineare vale

E(s) = D(Fa (Fb(s))) + D(Fb (Fa (s))) = D(Fa (Fb(s)) + Fb(Fa (s))) = 0,

se invece D non è lineare E(s) è tipicamente non nulla e rappresenta una buona approssimazione della distorsione di D quando lo si applichi al segnale s(t).
Per chi non si diverte con le formule lo stesso concetto può essere esemplificato in Figura 13.

Total Noise Distortion

Siamo pronti per un cambiamento epocale?

Uno più uno non fa due, almeno con la distorsione

Da una sinusoide ad infinite

In cosa consiste la misura

Primi esempi di risultati

Prime conclusioni

Generazione di segnali test

Il problema del filtraggio

Generazione di segnali di prova sintetici

Tecnica di programmazione

La teoria del test

Circa l'autore

Redazione

Lascia un commento Annulla risposta

Gran Galà dell’Alta Fedeltà 2025

EISA Awards

Newsletter

Total Noise Distortion

Siamo pronti per un cambiamento epocale?

Uno più uno non fa due, almeno con la distorsione

Da una sinusoide ad infinite

In cosa consiste la misura

Primi esempi di risultati

Prime conclusioni

Generazione di segnali test

Il problema del filtraggio

Generazione di segnali di prova sintetici

Tecnica di programmazione

La teoria del test

Circa l'autore

Redazione

Post correlati

Diffrazione ai bordi del pannello

Il carico simmetrico

Audio per Windows (parte quinta)

Bracci e testine le caratteristiche di interfaccia

Lascia un commento Annulla risposta

Gran Galà dell’Alta Fedeltà 2025

EISA Awards

Newsletter