本文转载自花火学园 原贴地址 【新提醒】【科普向】音频编码与格式的科普 – 动画音乐 (sayhuahuo.com)
在本篇科普中,只会对较为主流的编码及格式进行简要的科普,如有错误欢迎(务必)指正。
首先,我们要明白,作为一个存储声音内容的文件,一个音频文件是由声音内容、编码与封装等部分组成。
在potplayer里打开详细信息,
我们可以看到,信息由以下几个部分组成:
1. 音频编码
2. 采样率
3. 位深(位率)
4. 声道数
5. 比特率
那么下面,我们就对这五点进行详细的解释。
一. 音频编码
从信息论的观点来看,描述信源的数据是信息和数据冗余之和,即:数据=信息+数据冗余。音频信号在时域和频域上具有相关性,也即存在数据冗余。将音频作为一个信源,音频编码的实质是减少音频中的冗余。
所有的音频编码都不能做到真正的无损,这里的“无损”“有损”只是相对而言。
相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。 ——摘自百度百科
1. 有损编码
(1)MP3
MP3是一种音频压缩技术,其全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III),简称为MP3。它被设计用来大幅度地降低音频数据量。利用 MPEG Audio Layer 3 的技术,将音乐以1:10 甚至 1:12 的压缩率,压缩成容量较小的文件,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。用MP3形式存储的音乐就叫作MP3音乐,能播放MP3音乐的机器就叫作MP3播放器。
MP3是利用人耳对高频声音信号不敏感的特性,将时域波形信号转换成频域信号,并划分成多个频段,对不同的频段使用不同的压缩率,对高频加大压缩比(甚至忽略信号)对低频信号使用小压缩比,保证信号不失真。这样一来就相当于抛弃人耳基本听不到的高频声音,只保留能听到的低频部分,并按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。
举个例子,拿hires的天气之子ost作为源文件:
以192Kbps的比特率和320Kbps的比特率文件大小作为对比
(左:192k 右:320k )
可以看到,比特率越大,文件的体积也越大,真实的听感也就更接近无损的编码。
再从波形图来看,还是拿天气之子的ost来做对比:
天气之子源文件
压缩后(320k)的波形图
可以明显的看到,15k以上的部分,源文件是自然地延伸上去,细节也比较丰富;但mp3这边就像是横砍了一刀,高频细节完全丢失。
换一首歌,我们可以得到相似的情况:
总结:mp3压缩率大,文件体积小,且可以根据码率需求变化文件大小,兼容性好;但是高频细节损失较多。
(2)ogg编码
ogg不算特别流行,且大体与mp3相似,在此不多赘述。
(3)AAC编码
AAC,全称Advanced Audio Coding,是一种专为声音数据设计的文件压缩格式。与MP3不同,它采用了全新的算法进行编码,更加高效,具有更高的“性价比”。利用AAC格式,可使人感觉声音质量没有明显降低的前提下,文件体积更加小巧。
2.无损编码
(1)pcm编码
由这张示意图我们可以看出PCM的工作原理:在音频波形上采样并量化编码。
因此,pcm编码是现在最接近无损的一种编码方式。但是PCM也有它的缺点,就是文件体积太大了。
例如这个文件,3分15秒的一首歌就要32.8M(不过比特率也提升了,就相当于用文件体积换质量)
总结:pcm是现阶段最好的编码,能最大程度的还原,但是未经压缩的文件体积很恐怖。
(1)pcm编码
由这张示意图我们可以看出PCM的工作原理:在音频波形上采样并量化编码。
因此,pcm编码是现在最接近无损的一种编码方式。但是PCM也有它的缺点,就是文件体积太大了。
例如这个文件,3分15秒的一首歌就要32.8M(不过比特率也提升了,就相当于用文件体积换质量)
总结:pcm是现阶段最好的编码,能最大程度的还原,但是未经压缩的文件体积很恐怖。
(2)FLAC编码
FLAC与MP3不同,MP3是有损音频压缩编码,但FLAC是无损压缩,也就是说音频以FLAC编码压缩后不会丢失任何信息,将FLAC文件还原为WAV文件后,与压缩前的WAV文件内容相同。这种压缩与ZIP的方式类似,但FLAC的压缩比率大于ZIP和RAR,因为FLAC是专门针对PCM音频的特点设计的压缩方式。
这次以天气之子的ost作为对比: 这是wav
这是flac
FLAC与MP3不同,MP3是有损音频压缩编码,但FLAC是无损压缩,也就是说音频以FLAC编码压缩后不会丢失任何信息,将FLAC文件还原为WAV文件后,与压缩前的WAV文件内容相同。这种压缩与ZIP的方式类似,但FLAC的压缩比率大于ZIP和RAR,因为FLAC是专门针对PCM音频的特点设计的压缩方式。
这次以天气之子的ost作为对比: 这是wav
这是flac
可以看到文件的体积大幅减小,但数据却并没有损失,将其转换为wav后体积和原wav一样。
总结:flac作为现在最主流的无损编码之一,具有相比PCM更小的体积,但一旦源文件体积巨大,flac也难hold住
flac是无损编码 不是无损音乐!!!
(3)ape编码
APE是流行的数字音乐无损压缩格式之一,因出现较早,在全世界特别是中国大陆有着广泛的用户群。与MP3这类有损压缩格式不可逆转地删除(人耳听力不敏感的)数据以缩减源文件体积不同,APE这类无损压缩格式,是以更精炼的记录方式来缩减体积,还原后数据与源文件一样,从而保证了文件的完整性。APE由软件Monkey‘ studio压制得到,开发者为Matthew T.Ashland,源代码开放,因其界面上有只“猴子”标志而出名。相较同类文件格式FLAC,ape有查错能力但不提供纠错功能,以保证文件的无损和纯正;其另一个特色是压缩率约为55%,比FLAC高,体积大概为原CD的一半,便于存储。
作为对比,还是用你的名字的ost以flac和ape两种。
这是flac
这是ape
此外,还有alac这种苹果公司的编码,在这里不赘述了。
总结,无损编码里,ape体积最小,flac最主流,pcm体积最大。
这个时候可能有人要问了,你这说的这些不都是格式的名字吗?有什么区别呢?我们来打个比方
格式就是一个箱子,一个容器,里面装着你所有的内容,包括音频啊歌曲信息啊乱七八糟 例如这张图,里面就有歌曲的信息
那编码呢,就是对你要放进去的东西处理一下。以面包为例子
mp3这种有损编码,就相当于把面包压扁放进箱子,的确体积小了,但是面包本身也遭到了损害,就是不好吃了
而pcm这种编码,虽然无损,但是体积太大了,就相当于同样的面包你需要更大的箱子装
flac这种无损压缩编码呢,通过规划箱子里面的空间,以最小的体积塞下了最多的面包
格式就是一个箱子,一个容器,里面装着你所有的内容,包括音频啊歌曲信息啊乱七八糟 例如这张图,里面就有歌曲的信息
那编码呢,就是对你要放进去的东西处理一下。以面包为例子
mp3这种有损编码,就相当于把面包压扁放进箱子,的确体积小了,但是面包本身也遭到了损害,就是不好吃了
而pcm这种编码,虽然无损,但是体积太大了,就相当于同样的面包你需要更大的箱子装
flac这种无损压缩编码呢,通过规划箱子里面的空间,以最小的体积塞下了最多的面包
二.采样率(三.位深)声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。
说人话:越大越好(也越占空间)
说人话:越大越好(也越占空间)
四.声道数
这。。。没啥好说的
五.比特率
要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,以此类推。
无损我们说完了,那么再说说CD和Hi-res小金标。
CD数字声频信号(CDDA)是由索尼和飞利浦在1980年期间作为音乐传播的一个形式来介绍的,它的标准说白了就是44100Hz(44.1khz),16bit。当然,现在基本上大多数音乐都是这个标准。我们在音乐区看到的“自抓”或者“EAC”,就是从CD上直接抓取封装的。
Hi-Res全称为High Resolution Audio,又称为高解析音频,Hi-Res Audio是由索尼提出并定义、由JAS(日本音频协会)和CEA(消费电子协会)制定的高品质音频产品设计标准。Hi-Res音频的目的是表现音乐品质极致和原音重现,获得真实感受原唱者或演奏者在现场演出的临场氛围。高解析音乐是指声音信息量超越CD音质的音乐格式,即采样率大于44.1kHz以及比特深度大于16bit。
所以,千万别被“无损”骗了,也许无损只是指无损编码/封装呢23333333
要真的想享受高品质音乐,在看采样率、位深以及认准小金标之外,我们还可以看一个东西,叫做波形图。
CD数字声频信号(CDDA)是由索尼和飞利浦在1980年期间作为音乐传播的一个形式来介绍的,它的标准说白了就是44100Hz(44.1khz),16bit。当然,现在基本上大多数音乐都是这个标准。我们在音乐区看到的“自抓”或者“EAC”,就是从CD上直接抓取封装的。
Hi-Res全称为High Resolution Audio,又称为高解析音频,Hi-Res Audio是由索尼提出并定义、由JAS(日本音频协会)和CEA(消费电子协会)制定的高品质音频产品设计标准。Hi-Res音频的目的是表现音乐品质极致和原音重现,获得真实感受原唱者或演奏者在现场演出的临场氛围。高解析音乐是指声音信息量超越CD音质的音乐格式,即采样率大于44.1kHz以及比特深度大于16bit。
所以,千万别被“无损”骗了,也许无损只是指无损编码/封装呢23333333
要真的想享受高品质音乐,在看采样率、位深以及认准小金标之外,我们还可以看一个东西,叫做波形图。
DfallsLV3
可以的
一只火梨LV4
我都是下mp3格式的音乐,放手机上播放。无损在手机上听不出音质区别