AudioLezioni – La Compressione Audio Digitale

Dopo il notevole successo delle nostre AudioLezioni pubblicate nel 2012, abbiamo deciso di continuare con questa serie di articoli nel 2014, nella speranza di cogliere nuovamente lo stesso interessamento e feedback positivo che hanno riscosso i contributi precedenti.

Nel primo articolo AudioLezioni di quest’anno parleremo della compressione digitale, in particolare quella che riguarda l’audio.

compressione audioLa compressione digitale (o anche compressione dati) racchiude tutte le tecniche usate per ridurre la quantità di dati per rappresentare una determinata informazione. L’impiego di queste tecniche è vastissimo, e non si limita solo al campo multimediale. Basti pensare a programmi come Winzip o Winrar. Comunque le applicazioni primarie sono i video e, quello che ci interessa di più, l’audio digitale.

La compressione audio è una tecnica di elaborazione dati, che permette tramite un codec audio (un programma o un dispositivo elettronico che codifica un flusso audio sotto forma di dati numerici) di ridurre anche di molto le dimensioni di un file audio o la banda passante nel caso volessi trasmettere audio su un canale di comunicazione. Questo è possibile perché un file audio non è niente altro che una sequenza di numeri binari. Comprimerlo significa ridurre il numero di queste cifre binarie, i famosi “bit” che costituiscono la sequenza, tentando di alterare l’informazione originale il meno possibile.

psicoLa psicoacustica ci dimostra come l’uomo non sia sensibile allo stesso modo a tutte le frequenze e che, ad esempio, un suono ad alta intensità ne maschera uno con frequenza vicina ma di intensità più bassa. L’idea base della compressione audio sta quindi nell’eliminare l’informazione che non verrebbe comunque percepita ed ottenere quindi un buon rapporto di compressione.

Il motivo e i vantaggi della una compressione digitale sono facili da intuire: il file compresso occupa infatti meno spazio in fase di immagazzinamento. Visto che pesa di meno, ovviamente impiega anche minor tempo in fase di trasmissione dati.

Quali sono gli svantaggi, invece? A parte l’aumento dei tempi di lettura/scrittura legati rispettivamente ai tempi di decompressione/compressione, nel caso dei file audio si perde in qualità. Il grado di perdita che subisce un file audio durante la fase di compressione viene determinato dal tipo di codec e dal rapporto di compressione scelto.

Esistono algoritmi di compressione audio senza perdita, chiamati lossless, che permettono di riottenere tutta l’informazione originaria, ma la riduzione massima in questi casi non supera il 50% in termini di spazio e funziona solo con alcuni tipi di suono.

digital_compressionCompressioni maggiori vanno sempre a discapito della qualità sonora. In questi casi si parla appunto di compressione lossy, ovvero l’informazione contenuta nel file compresso è minore di quella contenuta nel file di origine.

Senza entrare troppo nei particolari, i principali algoritmi di compressione lossy funzionano in questo modo: il segnale audio viene scomposto in finestre temporali e processato da un banco di filtri digitali, al fine di rappresentarlo in molteplici sotto-bande nello spettro audio. Poi ogni sotto-banda viene quantizzata, considerando sia la potenza, la sensibilità dell’udito umano, nonché gli effetti psicoacustici. Uno dei più grossi problemi di questi algoritmi lossy è il rumore di quantizzazione che viene introdotto in ciascuna sotto-banda durante la compressione, perché può indurre degli effetti distorsivi anche gravi.

encoders

I più usati codec del tipo “lossy” sono:

  • mp3 (MPEG-1 Layer III): algoritmo storico (anni ’80), è sicuramente il più popolare ma spesso anche il peggiore in termini di qualità.
  • WMA (Windows Media Audio) è molto diffuso sui sistemi Windows.
  • AAC (Advanced Audio Coding): è un formato di compressione audio creato dal consorzio MPEG e incluso ufficialmente negli standard MPEG-4 ed MPEG-2. L’AAC fornisce una qualità audio superiore al formato MP3 a parità di fattore di compressione. Apple’s iTunes Music Store dal 2003 ha fatto uso di file compressi AAC CBR, con un bit-rate di 128Kbps. Grazie al nuovo AAC encoder introdotto recentemente, tutto il catalogo adesso viene invece offerto nel formato iTunes Plus: un formato di encoding AAC con VBR (variable bit rate) a 256 kbps.

Altri codec meno utilizzati sono:

  • Ogg Vorbis: più efficiente dell’mp3 ed è open source (ossia liberamente distribuibile e modificabile)
  • Dolby Digital (AC3) può comprimere fino a 6 canali audio, di cui 5 a piena larghezza di banda ed uno per gli effetti a bassa frequenza (LFE), fino a 384 kbit/s. Viene utilizzato nei DVD e nel sistema americano ATSC DTV.
  • MPC o Musepack è un formato open-source con una qualità maggiore dell’mp3 a parità di bit-rate.

Nella registrazione digitale ad alta risoluzione per rappresentare l’audio generalmente viene utilizzata una tecnologia chiamata Linear Pulse Code Modulation (cioè LPCM, spesso viene chiamata solo PCM).

linear PCMLa risoluzione di una registrazione Linear PCM è determinata dalla frequenza di campionamento (quante volte al secondo vengono generati dei sample) e dalla profondità di bit (quanti bit vengono utilizzati per rappresentare un sample, ovvero la lunghezza del numero binario che lo rappresenta). Sample rate più alte possono ‘catturare’ frequenze più alte, invece valori di bit depth più elevati possono rappresentare in modo più accurato un range dinamico più ampio e maggiore risoluzione.

Facciamo un esempio semplice per capire meglio: la risoluzione standard dei CD è 16-bit e 44.1kHz. Significa che il segnale analogico viene campionato 44.100 volte al secondo.
Per poter rappresentare accuratamente un segnale ci vuole una frequenza di campionamento doppia rispetto alla frequenza più alta che viene rappresentata, almeno così ci insegna il teorema di Nyquist. Siccome la frequenza più alta udibile dall’essere umano più dotato sta intorno ai 20kHz, la frequenza di campionamento richiesta per catturare accuratamente la banda delle frequenze udibili deve essere almeno di 40 kHz. Ecco perché si è convenuto di utilizzare per il formato compact disc un sampling rate di 44.1kHz.
Comunque tanti professionisti preferiscono lavorare con risoluzioni dei file PCM più elevate durante la produzione. La risoluzione di 96kHz/24-bit sta diventando praticamente uno standard nell’industria, e non è raro vedere dei file in alta risoluzione, come 192kHz/24bit.

loudness_knobTanti artisti e produttori pensano che “più alto è il volume, meglio è”. Questo modo di pensare ha scatenato la loudness war, la grande guerra del volume, che come tutte le guerre ha fatto danni ingenti. In poco tempo si è arrivati alla convinzione di dover produrre master con il volume più alto possible, sacrificando in molti casi tutta la dinamica dei pezzi. Personalmente preferisco ascoltare mix che hanno un può di respiro e dinamica, ma posso anche capire chi fa della loudness una propria scelta artistica e estetica, in particolare in certi generi di musica.

Se nei master tradizionali analogici il livello di volume era settato più alto possibile per ottimizzare il rapporto segnale/rumore, con i master digitali si cerca di raggiungere il guadagno massimo senza perdere informazioni del file originale, causato dal tanto temuto clipping”, perché per i file digitali esiste un limite di volume massimo: cioè 0dBFS. Tutto quello che va oltre comporta distorsioni e perdita nel range dinamico.

clippingChe ci sia un file compresso come l’AAC o uno non compresso come quello del CD: il materiale digitale viene sottoposto a vari processi per essere convertito in un segnale analogico per l’ascolto. Uno di questi processi è chiamato “oversampling”, che per migliorare la qualità del segnale audio digitale moltiplica per quattro i sample dei digital data rispetto alla frequenza di campionamento originale. Se il file audio digitale è a 0dBFS, l’oversampling può causare clipping indesiderato. E se il materiale originale aveva già dei clip, l’oversampling non può che peggiorare la situazione. Per questa ragione ultimamente si sta diffondendo sempre di più l’abitudine di lasciare ai master digitali una piccola quantità di headroom (più o meno 1dB), proprio per evitare questo tipo di clipping.

Qui finisce la prima parte di questo articolo, che è da considerare un’ introduzione al contributo che uscirà tra 10 giorni.

mastered_for_iTunes_1Nella seconda parte impareremo quale formato scegliere per il mastering digitale e perchè, secondo le applicazioni più usate. Avremo dei consigli da esperti come Alberto Cutolo e Zoran Matejevic per la produzione di master ottimizzati per i formati digitali, e in particolare parleremo di Mastered for iTunes, visto che la Apple da poco ha reso disponibile agli studi di mastering il software che da la possibilità di effettuare compressioni con il codec AAC utilizzato dall’azienda con la mela, permettendo di creare ad hoc mastering per iTunes.

Assieme ad Alberto Cutolo del Massive Arts di Milano abbiamo fatto dei test veramente interessanti, perciò vi invitiamo caldamente di non perdervi la seconda parte del nostro articolo sulla compressione audio digitale!

Leggi altre notizie con:
Vai alla barra degli strumenti