Tot ce trebuie să știți despre eșantioane și biți

Am inceput sa intru in adancimea bitului si rata de eșantionare în tutunul meu final de amestecare / mastering și, deși nu suntem neapărat ingineri audio digitali, unele informații de bază despre ceea ce exact adâncimea de biți și rata de eșantionare sunt informații bune pentru oricine este implicat în digital muzică. Este ceva cu care lucrați întotdeauna, indiferent dacă îl cunoașteți sau nu, și este o informație de fundal extraordinară pentru a afla dacă este vorba de a înțelege blocurile de bază ale audio digital pentru câștig personal sau doar pentru a putea arăta inteligent dacă conversația să apară vreodată.


Vizualizare rapidă

Deci, primul lucru pe care trebuie să îl înțelegeți este faptul că adâncimea bitului și rata de eșantionare există doar în audio digital. În audio digital, adâncimea de biți descrie amplitudinea (axa verticală), iar rata de eșantionare descrie frecvența (axa orizontală). Deci, atunci când creștem numărul de biți pe care îl folosim, creștem rezoluția amplitudinii sunetului nostru și în creșterea numărului de probe pe secundă pe care le folosim, creștem rezoluția frecvenței sunetului.

Într-un sistem analogic (și în natură), sunetul este continuu și neted. Într-un sistem digital, forma de undă analogică netedă este aproximată numai prin eșantioane și trebuie fixată la un număr limitat de valori ale amplitudinii. Când eșantionăm un sunet, sunetul este împărțit în fâșii mici (eșantioane) și aceste probe sunt apoi fixate la unul dintre nivelele de amplitudine disponibile. Procesul de fixare a semnalului la un nivel de amplitudine se numește cuantizare, iar procesul de creare a felii de probă este desigur numit eșantionare.

În diagrama de mai jos, puteți vedea o vizualizare a acestui lucru în cazul în care există un undă organică sinusoidală care se joacă pentru o secundă. Începe la 0 secunde și se termină la o secundă. Barele albastre reprezintă aproximarea digitală a undei sinusoidale în care fiecare bara este o probă și a fost fixată la unul dintre nivelele de amplitudine disponibile. (Această diagramă este, desigur, mult mai accentuată decât în ​​viața reală.)

Această secundă de audio ar avea eșantioane de 44,1K, 48K etc. care merg de la stânga la dreapta, în funcție de rata de eșantionare selectată în timpul înregistrării și ar acoperi -144 dB la 0 dB la 24 biți (sau -96 dB la 0 dB la 16 pic). Rezoluția intervalului dinamic (numărul de nivele posibile de amplitudine pentru care eșantionul se va odihni) ar fi 65,536 la 16 biți și, dacă este înregistrat la 24 biți, 16,777,216,.

Așadar, creșterea adâncimii de biți marește în mod semnificativ rezoluția amplitudinii și intervalul dinamic. Ceea ce nu este atât de evident este locul în care are loc creșterea intervalului dinamic. DBS adăugate se adaugă la mai moale parte a sunetului, deoarece amplitudinea nu poate depăși niciodată 0 dB. Ceea ce face acest lucru este să se audă sunete mai delicate (de exemplu, o coadă de reverb trailing la -130 dB) care ar fi putut fi tăiate altfel la un eșantion de 16 biți și -96 dB.


Rotunjire și trunchiere

În audio digital, fiecare eșantion este analizat, procesat, convertit înapoi la sunet și împins prin difuzoare. Atunci când o mostră este procesată (schimbare de câștig, distorsiune, etc.) în DAW, este trimis printr-un algoritm de înmulțire sau divizare de bază, iar numărul reprezentând eșantionul este modificat în conformitate cu și scuipat. Simplu dacă nu ar fi fost faptul că nu avem de-a face cu numere simple sau rotunde (o amplificare a câștigului de 1 dB necesită multiplicarea cu 1.122018454), astfel încât chiar și un eșantion de 8 sau 4 biți poate fi ușor extins mult dincolo de spațiul eșantionului de 24 de biți.

Deoarece avem doar 24 de biți, aceste numere lungi trebuie să se potrivească în spațiul respectiv. Pentru a face acest lucru, DSP folosesc fie o rotunjire sau o trunchiere a bitului cel mai puțin semnificativ (LSB - ultimul bit într-un cuvânt digital - de exemplu, al 16-lea număr într-un eșantion de 16 biți). Rotunjirea este destul de dreaptă și se comportă așa cum vă puteți aștepta în aritmetica de bază. Trunchierea scade pur și simplu informațiile după LSB fără o altă analiză.

Acest lucru este în mod evident problematic prin faptul că ambele procese introduc eroare în ecuație și aceste erori se multiplică pe măsură ce procesul este acumulat în proces prin intermediul lanțului de semnal. Partea pozitivă a acestui lucru este că LSB într-un cuvânt digital este cea mai mică amplitudine a cuvântului respectiv, deci într-un eșantion de 16 biți eroarea este de -96 dB și la -144 dB pentru o probă de 24 de biți. Chiar și așa, diferența dintre un DSP cu o arhitectură bună și unul care pare groaznic se bazează în mare măsură pe modul în care DSP gestionează aceste cuvinte lungi și procese complexe.


oscila

Deci, acum știm că DSP-urile sunt în mod necesar pline de eroare; că chiar și aproximările brute pe care le fac din cauza fenomenelor care apar în mod natural sunt ele însele erodate. Aceste erori nu numai că fac ca sunetul audio să fie mai puțin originar ca altfel, dar poate introduce și artefacte audibile acolo.

Pentru a contracara aceste artefacte, un tip de amplitudine scăzută, zgomot calculat matematic (aleatorie) numit dither este aplicat semnalului. Această aleatorie rupă orice erori periodice ale semnalului care pot crea noi frecvențe sau alte artefacte. Zgomotul dither este o amplitudine foarte scăzută și, deși este ușor audibil la niveluri înalte, se creează încă un produs final mult mai bine decât fără.

O formă de undă arătând efectele dither. Dither a fost aplicată la forma de undă de sus.

Un lucru de remarcat este că zgomotul este acumulator. În adăugarea zgomotului la semnal, escaladați esențial raportul semnal / zgomot (raportul dintre semnalul utilizabil și zgomot). Dacă se face în mod repetat, acest raport continuă să scadă, adăugând o nouă randomizare unui semnal care nu mai are nevoie de el. Acesta este motivul pentru care dither este întotdeauna aplicat ca ultimul pas al procesului de mastering și aplicat doar o singură dată.

Dither are o istorie relativ colorată:

Una dintre primele [cereri] de dither a venit în al doilea război mondial. Avioanele de avion au folosit computerele mecanice pentru a efectua calcule de navigație și trasee de bombe. În mod curios, aceste computere (cutii pline cu sute de trepte de viteză și roți) au fost efectuate mai precis când zboară la bordul aeronavei și mai puțin bine la sol. Inginerii au dat seama că vibrația din aeronavă a redus eroarea de la piesele în mișcare lipicioase. În loc să se miște în jignițe scurte, se mișcau mai mult în mod continuu. Motoarele cu vibrații mici au fost construite în computere și vibrația lor a fost numită "diadema" din verbul englezesc mijlociu "didderen", adică "tremurând". Dicționarele moderne definesc dither-ul ca pe o stare extrem de nervoasă, confuză sau agitată. În cantitatile minime, amestecul face cu succes un sistem de digitizare un pic mai analogic.

- Ken Pohlmann, Principiile audio digitale


Rata simpla

Conform teoriei, eșantioanele de 44,1 K pe secundă ar trebui să fie mai mult decât suficiente pentru a acoperi fiecare frecvență din (și puțin în afara) intervalului de auz uman. S-ar putea să fi întâlnit teorema lui Nyquist înaintea căreia să afirmi că pentru a evita aliasingul (un tip de distorsiune) și pentru a recrea cu exactitate toate frecvențele în timpul prelevării, trebuie să eșantionați cel puțin de două ori frecvența celei mai mari frecvențe conținute într-un semnal dat se aplică la mass-media în afara audio, dar nu vom intra în asta aici).

Urechea umană se poate auzi până la 20K (cele mai multe studii indică faptul că este mai bine în jur de 17K) cicluri pe secundă (Hz), deci în mod corespunzător, o rată de eșantionare de 40K probe pe secundă ar trebui să fie suficientă pentru a auzi fiecare frecvență posibilă. 44.1K este standardul din industrie, a fost făcut în acest fel din mai multe motive și, în cele din urmă, ales de oligarhia cunoscută sub numele de Sony.

Pentru a face o scurtă poveste scurtă, eșantioanele audio digitale trebuie să fie mai presus de Frecvența Nyquist, deoarece în practică probele trebuie să fie de asemenea filtrate în timpul conversiei A / D și D / A pentru a evita aliasingul la acel pas. Cu cât este mai înclinat panta filtrului low-pass, cu atât este mai ușor să se facă (mai ieftin). Astfel, un semnal audio cu un filtru de trecere scăzut, care are o panta ușoară care acoperă de exemplu 2 kHz și începe la 20 kHz pentru a permite întregul spectru de frecvență, trebuie prelevată la eșantioane de 44K pe secundă (20K (cea mai înaltă frecvență) + 2K (panta LPF) x 2 (teorema Nyquist) = 44K).

În cele din urmă, standardul de 44.1K a fost ales după o luptă între Sony și Philips (ambele aveau propuneri finale similare) și a fost aleasă pe baza matematicii din spatele anatomiei audio a antenei și a benzii video; astfel încât audio și video ar putea locui pe aceeași casetă video într-un raport de bună fidelitate cu prețul. Cu toate acestea, 48K este acum standardul pentru audio video asociat. CD-ul rămâne la 44.1K.

Această imagine prezintă nivelul de eșantionare al unei înregistrări "ecologice" cu tambur în Logic. Puteți vedea cum a fost prelevat și cuantificat sunetul din apropierea dreptunghiulară ascuțită a formei de undă. Sunetul tamburului original nu ar fi avut o astfel de distorsiune.


Poți să-l auzi?

Unii oameni pretind că au posibilitatea de a auzi o diferență distinctă între o rată de eșantionare de 44.1K și, de exemplu, o rată de eșantionare de 96K. Majoritatea oamenilor atribuie această diferență la lărgimea de bandă crescută (96K ar reprezenta frecvențe de până la 48 kHz). Deși și eu am observat schimbări de claritate subtilă atunci când eșantionăm, este incorect să credem că aceste diferențe sunt prezente datorită frecvențelor mai mari prezente (sau cel puțin nu sunt direct legate de acestea).

S-a arătat prin diverse teste că, de fapt, filtrarea cu trecere joasă generează diferențe audibile, iar la rate mai mari de eșantionare, aceste artefacte LPF cad în afara spectrului audibil. În creșterea cutoff-ului de la 22 kHz la 48 kHz la prelevare, scăderea cererii de pe filtru pentru a acționa în intervalul audibil, asigurându-se astfel că mai mult dacă nu toate artefactele de filtru rămân în spectrul ultrasonic.

Acest lucru clarifică spectrul audibil și dă iluzia că o lățime de bandă mai mare / rată de eșantionare creează un sunet mai clar. Deși se creează un sunet mai original, efectul ratei de eșantionare este suficient de ridicat pentru a contracara artefactele unui filtru slab proiectat (din păcate un standard) în timpul conversiei A / D și D / A.


Destul de informații?

Deci, asta o acoperă. Îmi dau seama că acest lucru ar fi fost mai mult o lecție decât un tutorial, dar este o informație bună să nu aibă mai puțin. Cunoașterea instrumentelor cu care lucrați nu este niciodată un lucru rău și acest lucru este la fel de detaliat ca și cum veți fi vreodată să cunoașteți subiectul pentru orice scop practic ca producător de muzică. Maestrii ingineri și audiofili ar putea avea nevoie să caute în altă parte cu toate acestea;)

Pana data viitoare.

-W