Téměř vše o formátu MP3 - 1. kapitola

px

Sotva byste dnes mezi uživateli internetu a počítačů našli někoho, kdo by neslyšel o MP3, pokud byste se ovšem zeptali na nějaké podrobnosti, popřípadě chtěli vysvětlení, o co vlastně jde, bylo by to podstatně horší. V tomto článku se pokusím, seznámit vás blíže s formátem MP3, jeho principy a problematikou, která se ho týká.

Narození MP3 a její představení

MP3 je digitální formát komprese dat, určený pro ukládání zvukových nahrávek v kompaktní podobě. Magická zkratka MP3, která rozezní struny v duši každého hudebního fanouška, je zkráceným označením MPEG Layer 3. Mptrojka se narodila v roce 1991 v rodině formátů pro kompresi zvukového záznamu a mají ji na svědomí odborníci z Fraunhofer Institut Integrierte Schaltungen. Její celé jméno zní MPEG Layer 3 (Moving Pictures Experts Group) původně měla tvořit zvukovou složku formátu pro kódování videozáznamu. Její základ je tedy ve formátu pro zpracování videa, který používá ztrátový algoritmus s velmi příznivým kompresním poměrem. Hlavním motorem vývinu komprimovaných formátů byl samozřejmě prudký rozvoj informačních technologií a s ním neustále vzrůstající nároky na kapacitu, což se dalo řešit dvěma způsoby, buď kupovat a vyrábět neustále větší a větší harddisky, nebo se snažit co nejvíce zmenšit soubory.

Princip fungování MPtrojky

Ti, kteří se před chvílí vyděsili, když jsem mluvil o ztrátové kompresi, se mohou zase pomalu uklidnit, nepřijdete ve své oblíbené skladbě o milované housle. Ztrátová komprese je založená na ořezání redundantních (nadbytečných)
složek zvuku. Je zkrátka a dobře založena na lidské nedokonalosti. Zvuková stopa Audio CD obsahuje kromě samotné skladby, kterou můžeme slyšet i spoustu "zvuků", které slyšet nemůžeme. Ztrátová komprese pak není nic jiného, než vynechání toho, co stejně neslyšíme.

Schopnosti lidského vnímání zvuku jsou vůbec značně omezené. V poměrně složitém sluchovém ústrojí dochází při průchodu zvuku k mnoha zkreslením, další mohou vznikat při převodu signálu z mechanického vlnění na nervové vzruchy a nakonec při zpracovávání a vyhodnocování zvuku ve sluchovém centru mozku.
V průběhu tisíciletého vývoje se lidské ucho adaptovalo na určité typy zvuku, které dnes tvoří hranice jeho schopností. Vnímání intenzity zvuku například závisí na zvukové frekvenci (dva zvuky se stejnou amplitudou, ale různou frekvencí budou znít různě intenzivně). S největší intenzitou vnímáme frekvence v rozmezí 1000 - 5000 Hz. Průměrné lidské ucho je schopno zachytit zvuk v těchto mezích: frekvenční rozsah 20Hz - 20kHz, dynamický rozsah (ticho - hluk) asi 98 dB. V decibelech se měří dynamický rozsah lidského sluchu (udávají rozdíl tlaku vzduchu), nejmenší rozdíl tlaku zvuku postižitelný lidským sluchem je 20mP, tento rozdíl je brán jako referenční hodnota - 0dB (pro zajímavost: hlasitost normální konverzace okolo nás je asi 50 dB, rušná ulice je 80dB a mezní hodnota na prahu bolesti je 130 dB).

Vše, co je nad a pod hranicí lidské slyšitelnosti (20Hz - 20 kHz), se při kompresi odstraní. Kromě meze slyšitelnosti se ke komprimaci používají i metody FREQUNCE MASKING a TEMPORAL MASKING. Mají sice vědecké názvy, ale jejich princip je jednoduchý. FREQUNCE MASKING využívá toho, že se ve skladbě ve stejnou dobu překrývají různé frekvence o různé intenzitě a lidské ucho to není schopno postřehnout. Představte si to tak, že vedle spuštěné cirkulárky také neuslyšíte zvonění svého mobilního telefonu. TEMPORAL MASKING jde ještě o kousek dál. Vy totiž ten telefon neuslyšíte nejenom, za chodu cirkulárky, ale neuslyšíte ho ještě chvíli po té, co ji vypnete. Ucho tu chvilku totiž potřebuje než se adaptuje na nový zvuk. Tyto metody opět vyberou z audio stopy tóny, které nejsou potřeba a výsledkem je potom empétrojka.

Na následujícím grafu je vidět horní ořez neslyšitelných frekvencí a dále jakou část zvuku si ze skladby vezme temporal masking při využití premaskingu a postmaskingu.

Kompresní poměr, tedy poměr mezi původní velikostí a velikostí souboru prošlého kompresním algoritmem závisí také na požadované kvalitě výstupního signálu. Pro posouzení kvality signálu nám nejlépe poslouží bitrate (datový tok), který určuje kolik bitů se spotřebovává každou sekundu přehrávání. U audio CD (tedy digitálního audio signálu) je to 1400 kbit/s. To je slušná cifra ne? Zkuste si představit těch peněz, které byste museli měsíčně platit za připojení, na kterém si poslechnete on-line rádio v téhle kvalitě a vítám vás v milionářském klubu. Naštěstí existuje ztrátová komprese. Po použití MPEG 1 layer III kódování se datový tok zmenší asi tak dvanáctinásobně a samozřejmě se ve stejném poměru zmenší i výsledná velikost souboru. Poměr mezi audiostopou a empétrojkou je 12 : 1 ve srovnatelné zvukové kvalitě, přičemž bitrate Mp3 souboru bude 128 kbit/s a jeho velikost asi 3,5 MB oproti 40 MB, které by měl po nagrabování (zkopírování audiostop na počítač) audiotrack. To je docela rozdíl ne?

Pokračování příště…

Komentáře

Poslat nový komentář

Obsah tohoto pole je soukromý a nebude veřejně zobrazen.
  • Webové a e-mailové adresy jsou automaticky převedeny na odkazy.
  • Povolené HTML tagy: <a> <em> <strong>
  • Řádky a odstavce se zalomí automaticky.

Více informací o možnostech formátování