音乐爱好者必须要知道的知识我来我网·5come5 Forum

本页主题: 音乐爱好者必须要知道的知识	显示签名 \| 打印 \| 加为IE收藏 \| 收藏主题 \| 上一主题 \| 下一主题

花开不败

∷ 性别:

∷ 状态:

∷ 头衔: 要滚蛋了^_^

∷ 等级: 荣誉会员

∷ 家族: 拜银教

∷ 发贴: 25705

∷ 威望: 1

∷ 浮云: 378

∷ 在线等级:

∷ 注册时间: 2007-05-11

∷ 最后登陆: 2009-05-07

【复制此帖地址只看此人回复】

5come5帮你背单词 [ wallet // n. 钱包 ]

音乐爱好者必须要知道的知识

文章很长，但若你有耐心看完，你一定会学习到很多：

本文
　　数位化是电脑发明以后不可阻挡的潮流，也是二十世纪人类文明的的重大[屏蔽]，影响现代生活的各个层面，反映在音乐方面，最明显的产物就是CD 。自音乐CD 成为主流音乐储存媒体之后，数位音乐已与你我的生活密不可分。本篇文章希望以深入浅出的方式，带领读者探索各种数位音乐的储存格式与处理技巧。
何谓数位化？
　　从字面上来说，数位化(Digital) 就是以数字来表示，例如用数字去纪录一张桌子的长宽尺寸，各木料间的角度，这就是一种数位化。跟数位常常一起被提到的字是模拟(Analog/Analogue) ，模拟的意思就是用一种相似的东西去表达，例如将桌子用传统相机将
视图拍下来，就是一种模拟的纪录方式。
音乐如何数位化？
　　将音乐数位化，其实就是将声音数位化。将音讯数位化的方式有很多，最常见的方式
是透过PCM(Pulse Code Modulation脉冲编码调制) 。音乐CD 即是纪录此种格式的数位讯号，运作原理如下。首先我们考虑声音经过MIC，转换成一连串电压变化的讯号，如图一所示。这张图的横座标为秒，纵座标为电压大小。要将这样的讯号转为PCM 格式的方法，是先以
等时距分割。我们假设用每0.01 秒分割。我们把分割线与讯号图形交叉处的座标位置纪录下来，可以得到如下资料，(0.01,11.65) 、(0.02,14.00) 、(0.03,16.00) 、(0.04,17.74) … ..(0.18,15.94) 、(0.19,17.7) 、(0.20,20) 。好了，我们现在已经把这个波形以数字纪录下来了。由于我们已经知道时间间隔是固定的0.01 秒，因此我们只要把纵座标纪录下来就可以了，得到的结果就是11.65 14.00 16.00 17.74 19.00 19.89 20.34 20.07 19.44 18.59 17.47 16.31 15.23 14.43 13.89 13.71 14.49 15.94 17.70 20.00 这一数列。这一串数字就是将以上讯号数位化的结果。看吧，我们确实用数字纪录了事物。在以上的范例中，我们的取样频率是100Hz(1/0.01 秒) 。其实电脑中的WAV 文件的内容就是类似这个样子，档头纪录了取样频率和可容许最[屏蔽]录振幅，后面就是一连串表示振幅大小的数字，有正有负。前面提到音乐CD 是以PCM 格式纪录，而它的取样频率(Sample Rate) 是44100Hz ，振幅纪录精度是16Bits ，也就是说振幅最小可达-32768(-2^16/2) ，最大可达+32767(2^16/2-1) 。在这里我们可以发现无论使用多么高的纪录精度，纪录的数字跟实际的讯号大小总是有误差，因此数位化无法完全纪录原始讯号。我们称这个数位化造成失真称为量化失真。
为什么要数位化？
　　数位化的最大好处是资料传输与保存的不易失真。纪录的资料只要数字大小不改变，纪录的资料内容就不会改变。如果我们用传统模拟的方式纪录以上讯号，例如使用LP表面的凹凸起伏或是录音带表面的磁场强度来表达振幅大小，我们在复制资料时，无论电路设计多么严谨，总是无法避免杂讯的介入。这些杂讯会变成复制后资料的一部份，造成失真，且复制越多次讯噪比( 讯号大小与杂讯大小的比值) 会越来越低，资料的细节也越来越少。如果读者曾经复制过录音带或是录影带，对以上的经验应该不陌生。在数位化的世界里，这串数字转换为二进位，以电压的高低来判读1 与0 ，还可以加上各种检查码，使得出错机率很低，因此在一般的情况下无论复制多少次，资料的内容都是相同，达到不失真的目的。或许读者会问，既然CD 是数位化的储存媒体，为什么我用烧录机复制的烧片放到CD Player 中音质常比比原版片来得差呢？不是都是数位化的复制不会失真吗？这个问题我们留到后面再解答。
　　那么，数位化的资料如何转换成原来的音乐讯号呢？这时候我们需要一项装置叫做DAC(Digital to Analog Converter) ，中文称数模转换器。DAC 的功能是把数位讯号转换回类比讯号，在我们的CD Player ，音效卡中都有这装置，而在许多电路中也经常被用到，例如显示卡的RAMDAC 。我们可以把CD Player 中的DAC 想像成16 个小电阻，各个电阻值是以二的倍数增大。当DAC 接受到来自CD 读取机构的二进位PCM讯号，遇到0 时相对应的电阻就开启，遇到1 相对应的电阻不作用，如此每一批16Bits 数位讯号都可以转换回相对应的电压大小。我们可以想像这个电压大小看起来似乎会像阶梯一样一格一格，跟原来平滑的讯号有些差异，因此再输出前还要通过一个低通滤波器，将高次谐波滤除，这样声音就会变得比较平滑了。在音响的术语中，我们将读取CD 且输出模拟音讯的器材叫做CD 唱盘，单纯读出CD 资料输出数位讯号的器材叫做CD 转盘。我们可以把CD 唱盘当作CD 转盘+DAC 。在Hi-End 音响的领域大部分倾向将CD 读取分成转盘+DAC 。值得一提的是，虽然CD 转盘和DAC 间传递的是纯粹的数位讯号，但是我们往往可以发现更换之间的线材( 常用规格S/PDIF 为阻抗75 欧姆的同轴电缆或是Toslink 塑胶光纤) ，却可以影响音质，这部分的问题我们也留到后面再说明。
细说音乐CD(Compact Disc Digital Audio)
　　关于音乐CD 实在是有太多可以聊了，这个于1982 年由Sony 和Philips 共同制定于红皮书的储存媒体，便于携带音质又比录音带好，流行至今毫无颓势。关于它的规格有许多有趣的故事，例如为什么一片标准长度的CD 是74 分钟呢？话说这是因为设计者想要把贝多芬第九号交响曲存进一片CD 中，于是开始估计CD 的直径，另一套说法是著名指挥家卡拉扬这样要求，也有人说是Sony 公司当时主席的太太这样要求，另一套说法是Sony 当时的Mr. Oga 所决定的。另外要补充的是卡拉扬指挥的贝九交响曲总长度大概在68 分钟左右，一般的版本大概在65~74 分中间分布。CD 是以螺旋状由内到外储存资料，在一片标准74 分钟的CD 中，从里绕到外总共有22188 圈，把它们全部伸展开来长达5.7km 。CD 读取的方式是等线速度(CLV) ，每秒有1.2m 长的资料经过雷射头，雷射在真空中波长为780nm ，以侦测CD 表面的凹凸变化判读讯号。表面的凹凸刻痕宽0.5um ，深度为0.11um( 约为780nm 雷射在CD 塑胶材质内波长的1/4) ，长度为0.8 到3.1um 。CD 是以由凹变凸和由凸变凹定义为1 ，平坦的部分为0 ，所以改变刻痕的长度可以改变资料内容。
　　音乐CD 的规格为什么是44.1kHz 、16Bits 呢？关于44.1kHz 这个数字的选取分为两个层面。首先我们知道人耳的聆听范围是20Hz 到20kHz ，根据Nyquist Functions ，理论上我们只要用40kHz 以上的取样率就可以完整纪录20kHz 以下的讯号。那么为什么要用44.1kHz 这个数字呢？那是因为在CD 发明前硬碟还很贵，所以主要数位音讯储存媒体是录影带，用黑白来记录0 与1 。而当时的录影带格式为每秒30 张，而一张图又可以分为490 条线，每一条线又可以储存三个取样讯号，因此每秒有30*490*3=44100 个取样点，而为了研发的方便， CD 也继承了这个规格，这就是44.1kHz 的由来。
　　我们可以发现一张刮痕累累的CD 放到CD Player 中往往听起来似乎没有什么问题，这又是什么原因呢？这是一个非常复杂的问题，我们必须从CD 的讯号储存格式说起。首先要引入的名词是block ， CD 每秒钟的资料被分成7350 个block 。每个block 内有588bits 的资料。可是这588bits 无法全部用来储存有意义的资料，因为过度密集的凹凸变化会造成硬体设计难度的增加，因此每14 个bits 中只有8 个bits 是有意义的，这就是所谓EFM(Eight-to-Fourteen-Modulation) 的目的。扣除掉6bits 无意义的资料，每个block 剩下588*8/14=336bits ，再扣除掉同步与合并(merge) 资讯，剩下264bits ，等于264/8=33bytes 。在这33 个data bytes 中，有1 个sub-code byte 、12 个oddaudiobytes 、4 个Q-redundancy bytes 、12 个even-audio bytes 和4 个Predundancybytes 。其中最有意义的就是那12+12=24 个音讯bytes ，每个block 共有24*8=192bits ，我们知道CD 以16bits 纪录资料大小，因此我们得知每个block 有6 个立体声取样点资料(6*16*2=192) 。好啦，还记得前面说过每秒钟有7350 个block 吗？我们由此可以得之每秒钟有6*7350=44100 个立体声取样点！没错，就是这个数字。顺带一提的是每98 个block 组成一个frame ，每秒有75 个frame(98*75=7350) 。好了，我们还没讲到重点，为什么有轻微刮痕的CD 听起来还是很正常呢？
　　答案就在于这24bits 的音讯资料，并非单纯按照出现顺序储存在单一的block 中，而是打散顺序离散分布在接下来109 个block 中，因此若有刮痕造成一部份的资料无[屏蔽]确读出，可以藉由前面提到的P-redundancy bytes 和Q-redundancy bytes 作同位检查确保资料正确性，进而重建资料，还可利用声音连续变化的特性，由问题资料的前后取样点来内插恢复资料。实际编码时，是先将12bytes 的even samples 重新排列然后经由C2 编码计算出4 bytes 的Q-redundancy 得到28bytes 的资料，然后由这28bytes 的资料来决定这24bytes 的音讯要如何分布在0 到108 个block 中。再来将这28Bytes 的资料经过C1 编码，我们就得到4bytes 的P-redundancy 。P-redundancy 另外的用途是确保当取样点都为0 时这block 中的32bits 仍不都为零。另外每个block 还有一个subcodebyte ，其用途非常广泛，在lead-in 的区域sub-code 纪录了这张CD 有几轨、总长度多少；在音轨的部分则记录了从这轨开头已经经历了多少时间、从第一轨开头又经历了多少时间、这音轨是二声道还是四声道( 不过从来没看过四声道的CD) 、是否允许复制、以及该音轨是否有经过Pre-emphasis 处理还有一些侦错资讯。另外sub-code （子码）也可以用来记录该CD 的UPC(Universal Product Code通用产品编码) 与该音轨的ISRC(International Standard Recording Code) 。ISRC 由IFPI 统一发放，前两码英文是国名，再来三码英文为发行者，最后五码是数字。
　　我们常在古典音乐CD 上看到DDD ， ADD ， AAD 字样，又代表了什么意思呢？这三个英文其实是Digital 或Analog 的缩写，第一个英文表示录音时的母带为数位或是类比格式，第二的英文代表混音及剪辑时母带使用数位或是类比格式，最后一个英文字代表最终的Master 母带是数位还是类比格式储存，由于音乐CD 的母带一定是数位化的，因此最后一个英文字都是D 。
　　接下来想要介绍一些CD 的衍生物如HDCD ， XRCD，SACD 等，但是不可避免要提到一些
数位录音著专业术语，因此我们先解释一下这些术语。
数位音讯处理名词解释
Pre-emphasis
Pre-emphasis 就是在录音的时候将高频讯号放大，放音时再把讯号用同样的倍率缩小以还原波形(De-emphasis) ，在类比录音的时代，这个技巧的主要用途是作为提高讯噪比。例如广播发送时将频率1500Hz to 2000Hz 以上以每八度音6dB 的倍率提高讯号，或是LP唱片在录制时的RIAA( 美国唱片工业协会) 等化曲线( 不过这曲线的制定目的主要与LP 的结构有关且放大讯号不只高频而已) ，以及录音带用的杜比抑噪系统，都是使用同样的原理。在数位的领域， Pre-emphasis 的主要用意在于降低量化失真，因为一般的音乐讯号高频段往往振幅比较小，而且越高的频率振幅越小，所以从PCM 取样的原理中我们可以发现这些小振幅会被分配到较少数的bits 来记录，这样有效描述振幅的数字就变小了，与原波型的误差就变大了，因此我们使用Pre-emphasis 的技巧先增加高频振幅再取样来降低高频量化失真。使用这功能的音乐CD 非常少见，推测是因为Pre-emphasis 和De-emphasis 这一来一回的计算，反而造成了更大的失真。就笔者所知原版风之谷原声带就有用到Pre-Emphasis 的技巧。而之前提到的.wav 档头也有纪录这项资讯。
Supersampling(Oversampling)
Supersampling 字面上的翻译叫做超取样，原理是从已有的数位讯号经过内插补点计算得到取样点间的讯号大小，例如把44.1kHz 的讯号转成88.2kHz 的讯号。超取样并不能帮我们把更多的细节从量化失真中找回来，它的主要用意是帮助我们获得更正确的类比讯号。怎么说是更正确的呢？从之前关于PCM 取样的介绍我们知道越高频的讯号被取样的次数就会越少，想像一个20kHz 的正弦波经过44.1kHz 的取样，一个周期分不到三个取样点，要从这三个取样点算出原来的正弦波理论上是可以办到的，问题是对于实际上的数位电路这样的计算是非常繁杂的，因此发展出来了各种取巧的方式希望能藉由较简单的计算得到接近原波型的结果，超取样算是其中的一种方法，用意是为了重建高频讯号。我们通常会听到几倍几倍超取样的字眼，所谓的几倍就是原来取样率的几倍，一般较常听到的是八倍超取样。
Dynamic range
　　中文叫做动态范围，就是容许纪录资料最大值与最小值的比值，例如16Bits 纪录精度的音乐CD 其动态范围最大就是20*log[(2^16)/1]=96.3dB 。用越多bit 纪录，我们就可以得到越大的动态范围。如果能纪录越大的动态范围，我们就能纪录越多的细节，并且更能保存[屏蔽]声等大音量声音的波形。当动态范围不足时，为了不造成破音，我们只好降低录音音量，可是小范围的声音变化可以分配的bit 就减少了，因此会造成量化失真更为严重。
Peak Level
　　我们把一段波型的最大振幅叫做Peak ， peak level 则是这最大振幅与最大可容许纪录振幅的比值。在16bits 的例子中，最大振幅就是32767 ， 20bits 的例子中就是524287 。在之前PCM 取样原理的介绍中我们可以发现越大的振幅可以分配到越多的bit去纪录，因此同样的一段波型只要Peak Level 不超过1( 超过可能会爆音) ，则音量越[屏蔽]录得波型越精准。
Normalize
Normalize 就是将一段波型音量放大，放大的目的是让原波型的最大振幅(peak) 等于最大可容许振幅。我们常常会抱怨自做精选集CD 这一首音量好大，下一首音量又太小，这时将每首都经过Normalize 处理可以改善这个问题。不过由于经放大过后的振幅大小可能不是整数，最后不可避免要用到四舍五入之类的技巧，因此处理过的波型和原波型造成非线性放大产生误差，再度导致量化失真。所以为了保留音色与相位的正确性，在数位音乐的处理中我们尽量避免Normalize 。
Dither
Dither 是数位音乐中非常神奇的技巧，它的目的是用少数的bits 达到与较多bits 纪录波形同样的听觉效果，方法是在最后一个bit(LSBeast Significant Bit) 动手脚。例如用16bits 纪录听起来好似20bits 的资料，听到用原先16Bits 无法纪录的微小资讯。举例来说，今天我有个20Bits 的取样资料，我现在想把它烧到CDR 里面，所以我必须要将20Bits转为16Bits 。转档的方法最简单的方式就是直接把后面的四个Bits 直接去掉，但是这样就失去用20Bits 录音／混音的意义了。比较技巧性的方法是在第17~20Bits 中加入一些噪音，这段噪音就叫做dither 。这些噪音加入后，可能会进位而改变第16 个Bit 的资料，然后我们再把最后四个bits 删掉，这个过程我们称为redithering ，用意是让后面四个bits 的资料线性地反映在第16 个bit 上。由于人耳具有轻易将噪音与乐音分离的能力，所以虽然我们加入了噪音，实际上我们却听到了更多音乐的细节。
　　关于dither 有种比喻是说我们透过手指间的细缝只能看到眼前部分的图形，但是如果我们前后挥动手掌，我们就可以透过不同时刻看到的各个图形的一小部份，在脑中建构出完整的图形资讯，这是大脑神奇的地方，不是简单的理论就可以说得通的，在此我提供一个网址，该网页内有经过dither 和没有经过dither 的wav 档可以提供下载，内容是一个固定频率的声音以等比例逐渐降低音量，我们可以发现经过dither 处理过的声音听起来持续比较久，也就是可以让我们听到更小的音量与细节。该网页还附有dither 前后的波型图示，网址如下： http://www.mtsu.edu/~dsmitche/rim420/reading/rim420_Dither.html 。在众多的dither 技术中， Sony 公司的SBM(Super Bit Mapping) ， LIVE STUDIO RECORDINGS的ULTRA MATRIX PROCESSING ，都是专攻20bits 转16bits 的技术。Dither 在数位音讯处理用途非常广泛，举凡两个波型的相加、振幅的缩放、Normalize 都会用到。现在的录音室已经进展到24bits 录音，在CD 还是主流储存媒体的时代， dither 还是非常重要的技术。顺道一提，在影像处理领域，将24bits 的全彩图形以16bits 的高彩画面显示也会用到dither 的技术。
Jitter
Jitter 一般翻译作时基误差，是数位音讯音质劣化的[屏蔽]。Jitter 造成声音的改变可是成因却非资料本身的错误，而是资料的时间部分出错了。在之前数位化的过程中我们知道一个取样点包括振幅和时间这两项资料，而jitter 造成振幅没有在准确的时间呈现出来，因此造成波型扭曲。在普通的CD Player 中，由于读取机构是由资料流量来判断转速是否合宜，而电路的工作时脉又是以读出的一连串数位讯号的多少来决定，因此当转速不稳定时，每秒读出的资料数量就有误差，而电路工作时脉就受到影响，由电路工作时间所决定的各个取样点的出现时间与实际的时间就产生误差，这就是jitter 的成因。还有很多影响工作时脉的原因都可能造成jitter ，例如CD 的重量与厚度是否均匀影响转动稳定性，反射面的材质， CD 转盘到DAC 之间的连接线，都会造成jitter 而影响音质。要避免jitter发生最直接的方法就是re-clock ，将接收的数位讯号先存到缓冲记忆体中，然后用一个精准的时钟重新排列这些数位讯号，并且让后续的数位电路都以这个时钟为运作基准。有些Hi-End 器材使用不同于一般S/PDIF 的单线数位传输介面，加入包含时钟讯号的接线用意即在此。
　　或许读者仍对于所谓资料正确但是音质受到影响感到疑惑，为了让读者对jitter 有更深刻的认识在此提出一个实验结果。先准备一张音乐CD ，然后复制成另外一张，并用抓音轨软体保证这两张CD 的资料内容是相同的，可是放到CD Player 中聆听，却发现两张CD 的音质有很大差异。我们怀疑CD Player 的读取机制不如电脑光碟机精准，因此准备了专业用音效卡CardDeluxe 来做数位录音，将CD Player 的数位输出(SPDIF Out)接至音效卡上。经过多次的比对，我们发现数位录音的结果与直接抓音轨的资料内容相同，也就是说CD Player 读取并没有问题，影响音质的主要原因是jitter 。单位时间资料流量不稳定的变动造成jitter ，但这些资料内容本身并没有出错，因此不能单从数位录音的资料发现错误。一般来讲，除非设计上有瑕疵， jitter 要大到使资料内容出错是不可能的。

音乐CD 的衍生物与接替产品
HDCD(High Definition Compatible Digital)
　　别给这个产品名称给吓到了， HDCD 本质上还是CD ，放到一般的CD Player 中播放完全没有问题。HDCD 是Pacific Microsonics（美国太平洋微音唱片公司）创始人Keith Johnson 和Pflash Pflaumer于1995 年提出的规格，其技术本身也包含从20Bits 的原始母带dither 至16Bits 的技术，但其独特的地方在于比dither 更有效利用CD 的第16 个Bits(LSB) ，它不但用
dither 技术处理LSB ，使得音质比一般CD 好，甚至将LSB 以固定的数字排列，当作是一种指令，这种指令在一般的CD Player 对于听觉没有影响，可是在搭载HDCD 解码晶片的CD Player 上，这些特殊的指令就可以改变声音的特性，例如增加某频段的音量，提升整体动态范围，或是音场调整。这些加料的功能使得声音听起来细节更多，定位更加精准，这正是HDCD 特色。常见的CD 如孙燕姿的几张专辑都经过HDCD 处理过。HDCD 的技术并非限于音乐CD ，在DVD-Audio 上也有发挥的空间。

xrcd(extended resolution compact disc)
Xrcd 也是不折不扣的音乐CD ，由JVC 所提出。Xrcd 的特色是以DIGITAL K2技术制作。这套技术不光是以20bits 128 倍超取样将类比讯号转为数位讯号，也不单纯是另一套20Bits 转16bits 的dither 技巧，而是将CD 制作过程的每一个步骤最佳化！不但非常注重各个器材的供电品质，器材的连接线材，配送系统，且为了降低jitter 对音质的影响，所有的数位讯号都改用SDIF-2 传输，有别于一般所使用的AES/EBU 工业标准，并对于时钟的运作精度做过特别的校正，而最后的CD 母带资料储存于Sony PCM9000 MO ，送至位于日本横滨全世界唯一一条生产线制作。Xrcd 另外一个特色是以铝作为反射面( 与一般CD 相同) ， JVC 宣称是因为使用铝可以达到比较低的jitter 。Xrcd 价位相当高，卖个一千三百元以上是习以为常的事，但是音质与音场表现的确有其独到之处，因此仍有其市场。

DVD-Audio
是以DVD 作为媒介的新型音乐媒体，于1999 年三月提出。取样方式为LPCM(Linear Pulse Code Modulation) ，可选择性采用MLP(Meridian Lossless Packing)这套无失真压缩技术减少庞大的资料容量。DVD-Audio 的取样率有44.1kHz 、48kHz 、88.2kHz 、96kHz 、176.4kHz 、192kHz 等，可以16Bits 、20Bits 、24Bits 取样，使用立体声录制时最大资料流量可达192kHz 24Bits ，采用5.1 声道( 中置一颗扬声器，前置两颗，后置两颗，超低音一颗合称5.1 声道) 录制时最大取样率可达96kHz 。DVD-Audio 在播放时可以有画面配合音乐输出。DVD-Audio 如此高的取样率最大的好处在于不需要太复杂的演算法就可以得到比较正确的音讯波型，超取样的优势降低，另一个好处是jitter 对于音质的影响随之减少。DVD-Audio 目前的价位为一千两百元以上。

SACD(Super Audio Compact Disc)
SACD 是Sony 公司所提出的以DVD 为储存媒体的下一代音乐储存规格。SACD的最大特色在于摒弃PCM 的取样方式，改用Delta-Sigma Modulation ，属于PWM(脉宽调制,Pulse Width Modulation) 的一种。其实Delta-Sigma Modulation 是非常常见的技术，廉价的CD Player ，床头音响， CD 随身听，音效卡，都是先将PCM 讯号先经过Delta-Sigma Modulation 然后再转为类比讯号。Delta-Sigma Modulation 之所以受欢迎是因为可以用较低的成本，比较少的数位滤波器达到较高品质的声音水准，因此大受欢迎。Sony将其改良的Delta-Sigma Modulation 技术命名为DSD(Direct Stream Digital) 。PWM 不同于PCM 取样以讯号大小为主，而是改为纪录目前资料数值大于或是小于前一个资料，是个相当复杂的技术。SACD 所以使用DSD 的最大好处是从录音到播放全部都以Delta-Sigma Modulation 处理数位讯号，不用在录音时先用PWM 取样再转回PCM 储存，放音时又要把PCM 经过PWM 处理再经DAC 转回类比讯号的层层手续( 听起来很笨，可是绝大部分的CD 都是这样运作的) ，因此可以降低失真。SACD 同样也有立体声和5.1 声道的规格。由于SACD 并非PCM 编码，所以没有用多少bits 储存振幅的规格，只要一个bit 就够了，但使用高达2822.4KHz 的取样率。SACD 如同DVD-Audio 有单面单层和单面双层的规格，比较特殊的是混合光碟(Hybrid Disc) ，此种格式第一层资料与普通CD 相同，可以放到CD Player 中播放，第二层则是存放正统的DSD 讯号，供SACD 专用Player 播放。Delta-Sigma Modulation 是相当专业的技术，如果想要进一步认识请参考以下文件，内容取自高传真233 期P.63 ，作者为黄克强先生。
http://freehomepage.taconet.com. ... Hotech/article4.doc

DTS CD
其资料格式与一般CD 相同，都是16bits ， 44.1kHz ，可是纪录的资料内容并非PCM 取样讯号，而是经过dts(Digital Theater Systems) 编码后的5.1 声道讯号。Dts CD 聆赏时必须将CD 转盘的数位输出接至支援dts 的解码器以获得5.1 声道类比讯号。由于dts CD 格式与普通CD 相同，因此与HDCD 、xrcd 一样都可以用普通的方法复制。

音乐CD 复制技术
　　音乐CD 的复制，终极目标是音质与来源CD 相同，要达到这个目的要分为两个层面讨论，首先是资料的正确性，再来是降低Jitter 。
　　音乐CD 的主要侦错机制在于C1/C2 编码和subcode(子码) ，虽然没有CD-ROM 的ECC/EDC 编码严谨，但只要是轻微的刮伤，还是能重建完整的资料。在复制音乐CD 时，最好的办法是先将音轨资料抓到硬碟里，然后再从硬碟烧录。直接对烧的坏处在于当光碟机发现音轨有问题时，没有充裕的时间可以多读几次确定资料内容，因此很容易烧出爆音，而且刮痕太严重时，过多无法读出的资料甚至会造成烧录中断，变成杯垫一张。抓音轨时光碟机的品质与抓取模式对资料的正确性影响甚大。有些光碟机抓音轨的速度很慢，也有些光碟机抓得很快却爆音连连。当光碟机抓取的资料量超过本身cache 负荷时，光碟机必须暂停读取，等cache 有空间了才能继续。有些光碟机在经历这暂停再读取的过程，再次读取的位置会跟停止前的位置不同，造成资料的断层，也就是爆音的出现，这就是抓音轨不宜一味求快的主因。要有优良的抓音轨能力，光碟机必须要具备Accurate Stream 的功能，这样就能避免以上缓冲区满载重读出错的问题发生，更进阶的功能是C2 错误资讯撷取功能，也就是当光碟机再抓音轨时会同时侦测C2 编码，如果出错的话会自动重新读取，没有错的话就继续向下读，这对于资料的正确性与速度有显著帮助。综合以上要求，笔者推荐TEAC 和Plextor 出品的CDROM 作为抓音轨的来源，尤其是Plextor 的机种，速度特别出众。另外在抓音轨时很多人喜欢用Burst Mode 求其速度快，但是这种读取方式是只读一次不回头的，如果片子很乾净的话还不会出什么问题，如果有刮痕的话就难保不会爆音连连，何况当遇到刮痕时光碟机常常要降速，读过了又加速，反覆加速减速严重影响光碟机寿命，因此实在不建议使用Burst Mode 。
　　除此之外，我们可以发现将烧好的片子中的音轨抓出来跟从来源片的音轨做比较，来[屏蔽]片的wav 档音乐资料前面总是多了一些为0 的sample ，可是档案总长度却没有改变。我们称这种情形叫做offset 。这些0 的来源有两个，分别是抓音轨的光碟机的Read Offset 和烧录机的Write Offset 。之所以会有Read Offset 是因为光碟机读写头认为自己所在的位置跟实际上资料出现的位置有误差，而这个误差是个定值，因此当音轨抓出来的时候，总是与原始资料产生位移，于档案开头多个几个0 或是少了几个0( 以上是以假设这片CD 每一轨之间都是静音来讨论) ，而在这些0 之后的资料又跟原始波型完全相同。同理烧录机的Write Offset 成因也是一样。这些Offset 并不会影响音质，只是资料和来源有了些微的差异，但大体上资料还是相同的。目前能够克服offset 问题的抓音轨软体和烧录软体非常少见，个人推荐使用免费软体Exact Audio Copy( 网页http://www.exactaudiocopy.de/ ) ，不但可以单独设定各光碟机与烧录机的offset ，又有独特的抓音轨方式Secure Mode 将每个frame 至少重复读取两次，如果资料不同会重复读取到最多82 次直到确定资料内容，以确保资料的正确性。因此将EAC 可以做出无论用什么软体抓音轨内容都与来源片完全一样的烧片，将其誉为烧录音乐CD 资料正确性的第一解决方案并不为过。
　　接下来要解决的是jitter 的问题。影响到jitter的层面很广，举凡烧录的速度，空片的材质，烧录机的电源等都会影响。笔者参考日本的烧片测试网站http://www.ne.jp/asahi/fa/efu/media/media.html 后发现以水蓝片的jitter 较小，金片最大，而不同的烧录机各有jitter 最低的烧录倍速。为了降低jitter 我们建议购买日制That's 水蓝片或是三菱湛蓝片并且调整烧录速度求取最佳状况，而且避免开启Just-Link 或是Burn-Proof 以免造成资料断层。很可惜的是虽然经过这一连串的努力，烧录出来的片子跟原版CD 还是有所差异，所以为了尊重著作权与音质表现，请大家还是支持原版CD 。不过台湾很多盗版音乐CD 的jitter 很大造成音质跟原版片有很大的差异，我们发现用以上的方法烧出来的片子声音还比较好。这也告诉我们jitter 是可以在事后处理加以改善的。
　　有一点要补充的就是有些烧录或是抓音轨软体上会有Jitter Correction 的选项，但是我们从上面的文章可以知道jitter 其实不会影响资料的正确性，也就是说jitter 大小并不会改变抓出来的的音轨资料内容。这些软体所谓的Jitter Correction 其实是指光碟机会藉由反覆读取比对资料来确保资料内容的正确性，主要是用来对付有刮痕或是压制时有问题的CD ，这个Jitter Correction 的处理层面跟上述数位音乐的jitter 不同，个人倾向改称为Error Correction 。
　　讲了半天都在讲CD ，数位音乐并不只包含CD ，接下来就来介绍其他的数位音乐格式，就从我们常看的VCD 和前一阵子[屏蔽]全台住宿大学生的话题格式MP3 开始吧。

MPEG 与MP3 的压缩方式
MP3 是当前最流行的音讯压缩格式，全名为MPEG Audio Layer 3 ，为MPEG(Moving Pictures Expert Group) 这个团体当初和影像压缩格式同时研发的音讯压缩格式。举凡一般VCD 影像压缩所使用的MPEG1 ，音讯所使用的MP2 编码，以及DVDVideo影像压缩所使用的MPEG2 编码都是这个团体的研发产物。以上无论是影像或是音讯的编码都是属与失真( 破坏性) 压缩。相较于CD 和DVD 的容量，未压缩的影响和音讯资料容量是非常庞大的。想像一片音乐CD 本来只可以储存74 分钟的声音( 其实超过74 分钟的音乐CD 也很多啦，超过80 分钟的不是买不到) ，在VCD 中不但要储存差不多长度的音效还有画面，可见压缩率必须要相当高，而且必然是破坏性的。DVD-Video 的声音格式常用的有LPCM ， Dolby Digital ， dts ，其中LPCM 通常是16Bits ， 48kHz 立体声讯号，与Dolby Digital 同属与DVD 标准音讯规格。Dolby Digital如同MP2 ， MP3 也是一种破坏性压缩编码，特色为声道数从立体声到5.1 声道( 最新的资料是9.1 声道) 都有，压缩流量最大可达448kbps(kilo bits per second) ，将这个数字除以三对喇叭的的资料，我们可以算出每对喇叭( 前置或后置) 可以分到的流量约为149.3kbps ，与时下流行的128kbps MP3 大不了多少，因此其实大家不用对DVD-Video 的Dolby Digital 声音品质存有太大的遐想，其实流量只比普通的MP3 大一点点而已，何况448kbps 只是最大流量，很多DVD-Video 根本没有用到这么大的流量。DVD-Video 的dts 与音轨前面提到的dts CD 使用同样的编码技术，最大流量与立体声LPCM 相同，也就是每秒48000*16*2=1536000bps=1536kbps ，远比Dolby Digital 所提供的448kbps 来得大，也就是说破坏性压缩的失真较少，因此我们可以想见dts DVD 的音质一定比Dolby Digital 来得好，这也就是为什么市面上经过dts 编码的DVD 总是卖得比较贵，身价高人一等的原因。一般支援dts 的DVD-Video 为了在不支援dts 的设备上也可以播放所以通常会同时搭载二声道的Dolby Digital 编码音效。
　　扯了半天还是没有讲为什么MP3 的容量可以那么小，音乐CD 的流量每秒44100*16*2=1411200bps=1411.2kbps ，而我们常用的MP3 流量只有128kbps（最大的也就是384K），压缩后的容量小于原先的十分之一，而听起来声音却没有差到哪去(顶你个肺啦)。MP3 压缩时运用到五个重要的技巧，分别是最小听觉gate槛判定(The minimal audition threshold) ，遮蔽效应(The Masking effect) ，位元储存槽(The reservoir of byres) ， The Joint Stereo ，和Huffman编码。
　　最小听觉gate槛判定是一种减少资料量的手段，因为人耳对不同频率的声音听到的音量反应不是平直的，因此我们可以将大部分的纪录资讯集中在人耳最灵敏的2kHz 到5kHz ，其余频率分配比较少的容量纪录。
　　遮蔽效应也是听觉心理学模型(Psychoacoustic models) 的一种，在视觉上呈现的效果就是在大太阳下你比较难看到天空中飞翔的鸟，听觉上的涵义就是当有一个音量或音色特别突出的声音出现，其他细小的声音就比较难被察觉，就像是管弦乐团齐奏时我们很难发现有观众的咳嗽声，尽管咳嗽的音量与没有其他声音时其实是相同的（不好意思，我只金耳朵就是能在交响乐团齐奏时都听到咳嗽声，所以我会冲去把那个咳嗽的人打个半死）。因此在编码时我们不需要把所有的声音细节都编进去，而该把资料拿去纪录比较突出容易引起注意的声音。
　　位元储存槽是个很烂的翻译，在解释前要先说明MP3 的两个属性：CBR 和VBR 。CBR 是Constant Bitrate RATE的缩写，也就是说该MP3 每秒钟的资料流量是固定的，常见的MP3 都是以CBR 编码，好处是压缩速度快。相对的VBR 是Variable Bitrate RATE的缩写，每秒钟的流量是可以变化的，好处是在讯号复杂时用比较多的容量去纪录，波型简单时就用比较低的流量，以有效利用空间。CBR 的缺点就是每秒钟的流量都相同，很容易造成空间的浪费，因此有reservoir of byres 的出现，用途就是当波型简单时就不要用那么大的流量，把多余的空间保留下来储存将来比较复杂的波性资料，维持流量的大小，达到类似VBR 的效果。VBR 的MP3 并不需要reservoir of byres 。Joint Stereo 是一种立体声编码技巧，主要分为Intensity Stereo(IS) 和Mid/Side (M/S) stereo 两种。IS 的是在比较低流量时使用，利用了人耳对于低频讯号指向性分辨能力的不足，将音讯资料中的低频分解出来合成单声道资料，剩余的高频资料则合成另一个单声道资料，并另外纪录高频资料的位置资讯，来重建立体声的效果。例如钢琴独奏的录音就可以利用这种方法在有限的资料流量中减少音场资讯却大幅增加音色资讯。Mid/Side (M/S) stereo 在左右声道资料相似度大时常被用到，纪录方式是将左右声道音讯合并(L+R) 得到新的一轨，再将左右声道音讯相减(L-R) 得到另外一轨，然后再将这两轨资料用上面提到听觉心理学模型与滤波器处理。Mid/Side (M/S) stereo 与IS 一样的是利用部分相位(phase) 资讯的损失来换得较高的音色纪录资讯。一般的MP3 是
Mid/Side stereo 和Intensity Stereo 交替使用的，视资料内容与流量而定。如果是更高流量如160kbps 以上的MP3 ，则可以单独将立体声的两个声道[屏蔽]编码，以保存相位资讯。Huffman 编码(coding) 是一种常见的无失真压缩方案。当PCM 讯号被分成好几个频段并经过以上的处理之后，最后就是经过一种类似FFT(Fast Fourier Transforms) 的运算称为MDCT(Modified Discrete Cosine Transform) ，将波型转换为一连串的系数。这些系数最后就要经过Huffman 编码来做最后的压缩。Huffman 编码的原理是将比较常出现的字串用特定的符号表示，压缩后就得到一个纪录每个符号代表的字串的编码表以及一连串由各符号组成的资料内容。Huffman 编码可以节省约20% 的空间，而也因为经过了Huffman编码，我们可以发现用WinZip 、WinRAR 之类的压缩软体并没有办法把MP3 档缩小多少，理由就是因为这些压缩软体也是利用类似Huffman 编码的技巧，因此压缩程度有限。以上关于MP3 编码的资料取自http://www.mp3-tech.org/tech.html 。MP3 播放时的运算远比编码时简单，只要先经过Huffman 解码再由MDTC 的逆运算重建波型就可以了，值得注意的是MP3 不同于PCM 没有bits 的概念，我们可以自由使用16bits 或是20bits 甚至24bits 的运算精度来重建波型。一般的MP3 Player 都是以16bits 运算精度，而Winamp 的MP3 解码[屏蔽]MAD( 作者网页http://www.mars.org/home/rob/proj/mpeg/mad-plugin/ ) 则是用24bits 运算精度处理，如果使用的音效卡DAC 支援24bits 格式的PCM ，就可以直接输出24bits 的讯号。一般的娱乐用音效卡都只有16bits 数类转换能力，因此讯号送给音效卡前必须要先经过re-dithering的过程，我们从之前的介绍可以知道经过这样的处理可以听到比16bits 更多的声音资讯与动态范围，因此MAD 在一般的音效卡上仍有其使用价值。笔者使用MAD 与Winamp 2.74内建的MP3 decoder 比较，发现MAD 音质的确比较好，声音开阔，小提琴擦弦感与钢琴力度都比内建decoder 好很多，强烈建议各位听MP3 时搭配使用。
　　网路上有相当多的MP3 压缩软体，有的强调速度快，有的强调使用介面间单易用。我个人是以音质作为第一考量，趁此几会再次向各位推荐一个免费的MP3 压缩程式LAME( 下载位

Posted: 2007-07-27 22:40 | [楼主]