书签分享收藏举报版权申诉 / 23

立即下载加入VIP,免费下载

当前位置：首页 > 幼儿教育 > 幼儿读物 > 郑州大学优秀毕业论文---数字化音频领域的未来.doc

郑州大学优秀毕业论文---数字化音频领域的未来.doc

文档编号：4880834
上传时间：2023-05-07
格式：DOC
页数：23
大小：457KB

《郑州大学优秀毕业论文---数字化音频领域的未来.doc》由会员分享，可在线阅读，更多相关《郑州大学优秀毕业论文---数字化音频领域的未来.doc（23页珍藏版）》请在冰点文库上搜索。

郑州大学优秀毕业论文---数字化音频领域的未来.doc

郑州大学优秀毕业论文

数字化音频领域的未来

Thefutureofdigitalaudiofield

学号：

学生姓名：

专业：

电子信息工程

指导教师：

提交时间：

2012.4.1

摘要

随着数字信号处理技术的日益推进，IT领域的科技成果越来越普遍的应用于视音频领域并大大的推动了视音频科技的进步，传统的模拟视音频产品如今逐渐退出，采用数字化技术及其相应产品已呈不可抵挡的趋势。

数字化的视音频产品必将涉及将类比信号转换成数字信号后加以传输的问题。

而在这种转换的过程中需要做大量的数学运算，因此必须选择运算快速的微处理器才能完成实时（real-time）的数位信号处理。

而市面上的微处理有成百上千种，各有其特色及对应的应用场合，DSP以其特有的优势更加适合于完成上述任务。

关键词：

数字化音频DSP多媒体

ABSTRACT

Alongwiththedailyadvancementofdigitalsignalprocessingtechnology,scientificandtechnologicalachievementsinthefieldofITisbecomingmoreandmorecommonusedinaudiofieldandgreatlypushtheprogressoftheaudiotechnology,traditionalanalogaudioproductsnowgraduallyexit,usingdigitaltechnologyanditscorrespondingproductsisatrendwhichcannotresist.Digitalaudioproductswillinvolvethetransmissionproblemofwhenanalogysignalisconvertedintodigitalsignals.Andinthiskindofconversionofprocessneededtodoalotofmathematicaloperation,sowemustchooseoperationquickmicroprocessortocompletereal-timedigitalsignalprocessing.Andthemicroinmarkethashundredsofkinds,eachhaveitscharacteristicsandcorrespondingapplications,DSP,withitsspecialadvantagesisbecomingmoresuitabletoaccomplishthesetasks.

Keywords:

digitalaudioDSPmultimedia

第一章绪论 4

1.1模拟音频数字化的过程 4

1.2数字化音频领域的未来 6

第二章数字音频协议与芯片功能介绍 10

2.1TDM数字音频协议 10

2.2在基于AD1941时分复用多通道数字音频处理模块设计 11

2.3音频处理模块编写 13

第三章多媒体中数字化音频技术的应用 14

3.1计算机音乐的应用现状 14

第四章数字化音频的未来-DSP 18

4.1DSP的优势 18

4.2DSP技术的发展趋势 22

第五章结论 23

致谢 23

第一章绪论

1.1音频数字化的概念

从字面上来说，数字化（Digital）就是以数字来表示，例如用数字去记录一张桌子的长宽尺寸，各木料间的角度，这就是一种数字化。

跟数位常常一起被提到的字是模拟（Analog/Analogue），模拟的意思就是用一种相似的东西去表达，例如将桌子用传统相机将三视图拍下来，就是一种模拟的记录方式。

两个概念：

1、分贝（dB）:

声波振幅的度量单位，非绝对、非线性、对数式度量方式。

以人耳所能听到的最静的声音为1dB,那么会造成人耳听觉损伤的最大声音为100dB。

人们正常语音交谈大约为20dB。

10dB意味着音量放大10倍，而20dB却不是20倍，而是100倍（10的2次方）。

2、频率（Hz）:

人们能感知的声音音高。

男性语音为180Hz，女性歌声为600Hz，钢琴上C调至A调间为440Hz,电视机发出人所能听到的声音是17kHz，人耳能够感知的最高声音频率为20kHz。

将音频数字化，其实就是将声音数字化。

最常见的方式是透过脉冲编码调制PCM（PulseCodeModulation）。

运作原理如下。

首先我们考虑声音经过麦克风，转换成一连串电压变化的信号，如图一所示。

这张图的横座标为秒，纵座标为电压大小。

要将这样的信号转为PCM格式的方法，是先以等时距分割。

我们假设用每0.01秒分割，则得到图二。

图一

图二

我们把分割线与信号图形交叉处的座标位置记录下来，可以得到如下资料，（0.01,11.65）,（0.02,14.00）,（0.03,16.00）、（0.04,17.74）…..（0.18,15.94）、（0.19,17.7）,（0.20,20）。

由于我们已经知道时间间隔是固定的0.01秒，因此我们只要把纵座标记录下来就可以了，得到的结果就是11.6514.0016.0017.7419.0019.8920.3420.0719.4418.5917.4716.3115.2314.4313.8913.7114.4915.9417.7020.00这一数列。

这一串数字就是将以上信号数字化的结果。

在以上的范例中，我们的采样频率是100Hz（1/0.01秒）。

其实电脑中的.WAV档的内容就是类似这个样子，文件头中记录了采样频率和可容许最大记录振幅，后面就是一连串表示振幅大小的数字，有正有负。

常见CD唱盘是以PCM格式记录，而它的采样频率（SampleRate）是44100Hz，振幅采样精度/数位是16Bits，也就是说振幅最小可达-32768，最大可达+32767。

CD唱盘是以螺旋状由内到外储存资料，可以存储74分钟的音乐。

CD唱盘的规格为什么是44.1kHz、16Bits呢？

关于44.1kHz这个数字的选取分为两个层面。

首先人耳的聆听范围是20Hz到20kHz，根据NyquistFunctions，理论上只要用40kHz以上的采样频率就可以完整记录20kHz以下的信号。

那么为什么要用44.1kHz这个数字呢？

那是因为在CD发明前硬盘还很贵，所以主要将数字音频信号储存媒体是录像带，用黑白来记录0与1。

而当时的录像带格式为每秒30张，而一张图又可以分为490条线，每一条线又可以储存三个取样信号，因此每秒有30*490*3=44100个取样点，而为了研发的方便，CD唱盘也继承了这个规格，这就是44.1kHz的由来。

在这里我们可以发现无论使用多么高的采样精度/数位，记录的数字跟实际的信号大小总是有误差，因此数字化无法完全记录原始信号。

我们称这个数字化造成失真称为量化失真。

数字化的最大好处是资料传输与保存的不易失真。

记录的资料只要数字大小不改变，记录的资料内容就不会改变。

如果我们用传统类比的方式记录以上信号，例如使用录音带表面的磁场强度来表达振幅大小，我们在复制资料时，无论电路设计多么严谨，总是无法避免杂讯的介入。

这些杂讯会变成复制后资料的一部份，造成失真，且复制越多次信噪比（信号大小与噪音大小的比值）会越来越低，资料的细节也越来越少。

如果多次复制过录音带，对以上的经验应该不陌生。

在数字化的世界里，这串数字转换为二进制，以电压的高低来判读1与0，还可以加上各种检查码，使得出错机率很低，因此在一般的情况下无论复制多少次，资料的内容都是相同，达到不失真的目的。

那么，数字化的资料如何转换成原来的音频信号呢？

在计算机的声卡中一块芯片叫做DAC（DigitaltoAnalogConverter），中文称数模转换器。

DAC的功能如其名是把数字信号转换回模拟信号。

我们可以把DAC想像成16个小电阻，各个电阻值是以二的倍数增大。

当DAC接受到来自计算机中的二进制PCM信号，遇到0时相对应的电阻就开启，遇到1相对应的电阻不作用，如此每一批16Bits数字信号都可以转换回相对应的电压大小。

我们可以想像这个电压大小看起来似乎会像阶梯一样一格一格，跟原来平滑的信号有些差异，因此再输出前还要通过一个低通滤波器，将高次谐波滤除，这样声音就会变得比较平滑了。

从前面的内容可以看出，音频数字化就是将模拟的（连续的）声音波形数字化（离散化），以便利用数字计算机进行处理的过程，主要包参数括采样频率（SampleRate）和采样数位/采样精度（Quantizing，也称量化级）两个方面，这二者决定了数字化音频的质量。

采样频率是对声音波形每秒钟进采样的次数。

根据这种采样方法，采样频率是能够再现声音频率的一倍。

人耳听觉的频率上限在2OkHz左右，为了保证声音不失真，采样频率应在4OkHz左右。

经常使用的采样频率有11.025kHz、22.05kHz和44.lkHz等。

采样频率越高，声音失真越小、音频数据量越大。

采样数位是每个采样点的振幅动态响应数据范围，经常采用的有8位、12位和16位。

例如，8位量化级表示每个采样点可以表示256个（0-255）不同量化值，而16位量化级则可表示65536个不同量化值。

采样量化位数越高音质越好，数据量也越大。

反映音频数字化质量的另一个因素是通道（或声道）个数。

记录声音时，如果每次生成一个声波数据，称为单声道；每次生成二个声波数据，称为立体声（双声道），立体声更能反映人的听觉感受。

除了上述因素外，数字化音频的质量还受其它一些因素（如扬声器质量，麦克风优劣，计算机声卡A/D与D/A（模/数、数/模）转换芯片品质，各个设备连接线屏蔽效果好坏等）的影响。

综上所述，声音数字化的采样频率和量化级越高，结果越接近原始声音，但记录数字声音所需存储空间也随之增加。

可以用下面的公式估算声音数字化后每秒所需的存储量（假定不经压缩）:

存储量=（采样频率*采样数位）/8（字节数）

若采用双声道录音，存储量再增加一倍。

例如，数字激光唱盘（CD－DA，红皮书标准）的标准采样频率为44.lkHz，采样数位为16位，立体声，可以几乎无失真地播出频率高达22kHz的声音，这也是人类所能听到的最高频率声音。

激光唱盘一分钟音乐需要的存储量为:

44.1*1000*l6*2*60/8=10，584，000（字节）=10.584MBytes

这个数值就是微软Windows系统中WAVE（.WAV）声音文件在硬盘中所占磁盘空间的存储量。

由MICROSOFT公司开发的WAV声音文件格式，是如今计算机中最为常见的声音文件类型之一，它符合RIFF文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台机器应用程序所广泛支持。

另外，WAVE格式支持MSADPCM、CCIPTALAW、CCIPT-LAW和其他压缩算法，支持多种音频位数，采样频率和声道，但其缺点是文件体积较大，所以不适合长时间记录。

因此，才会出现各种音频压缩编/解码技术的出现，例如，MP3，RM，WMA,VQF,ASF等等它们各自有自己的应用领域，并且不断在竞争中求得发展。

1.2数字化音频领域的未来

数字化时代对人类的发展产生了巨大的变化，我们亲身经历了数字技术的蓬勃发展，目睹了它以惊人的速度，渗透到社会与生活的方方面面。

数字化技术已全面的进入到广播影视领域，正对我们的行业带来实质性的变革。

清楚地把握数字音频技术的发展动向，对正确推进广播影视领域的数字化进程将有极其重要的意义。

一、模拟与数字音频技术的关系和互补性

把握数字音频技术发展的方向，我们必须对数字音频与模拟音频技术之间有一个科学的认识，并清楚这样一个概念：

数字化是一种手段，但我们始终离不开这个模拟的世界，所以我们要清楚模拟与数字音频技术的优势和弱点。

对音频的质量上来说，数字音频通过模数/数模转换后，越接近模拟音质就越好。

但是，数字化技术在音频的编辑、合成、效果处理，存储、传输和网络化，以及在价格等方面，有极大的优势。

半导体技术高速发展的今天，在专业音频领域，为了得到温暖的模拟音质，仍旧需要采用电子管器件，如电子管话筒、电子管前置放大器和压缩器，以及功率放大器。

为了与数字化音频系统配合使用，不少最新的音频专业电子管产品带有了数字接口。

所以，数字化时代的音频技术，并不是弃模变数，而是两者有机的结合，取长补短，用数字化技术去追求模拟的音质，用数字化手段来弥补传统音频设备的弱点。

目前世界上公认音质最好的调音台，如AMEK9098和SSL9000J系列，就是模拟数控台，即模拟信号流，数字化的控制系统，另外还配置了模数转换接口，这就是模拟音频技术与数字技术结合的实例。

电脑技术已将人们带入了一个虚拟世界。

音频领域也不例外，音频工作站的发展已越来越成熟，人们已称它为虚拟录音棚。

虚拟音频制作系统中，包括了录音机、调音台、周边信号发生器、非线性编辑和数据库等。

这种虚拟系统不仅有价格的优势，而且功能齐全，符合数字化，网络化发展的要求，其音频的质量可与一些高级传统音频设备抗衡。

它符合数字化、网络化的要求，其价格与传统设备相比，则更有优势。

近年来，虚拟音频制作系统对界面的外控操作上，正逐步向传统设备的操作概念发展。

还与传统调音台有机结合。

除Protools音频工作站已有了ProControls外控操作台外，索尼公司已将DMX-100调音台与Pyramix虚拟音频制作系统结合，DMX-100调音台的48路数字音频通道可通过MADI模数/数模转换器与Pyramix连接，Pyramix可通过DMX-100的24个电动马达推子实现外部自动化控制。

另外SSL9000J系列高级模拟数控台也可与Pyramix虚拟音频制作系统配合使用，音频信号可通过PCM/MADI转换器或DSD转换器与Pyramix连接，SSL9000J系列调音台上的控制键钮和推子可通过索尼422协议与Pyramix连接。

上述种种可以看到，数字时代音频的发展，从音质上讲，数字与模拟的追求是一致的；从数字技术在音频领域的应用来看，它仍然依托着传统的模拟设备而向前发展。

二、数字音频格式PCM和DSD的发展状况

PCM脉码调制数字音频格式是70年代末发展起来的，记录媒体之一的CD，80年代初由飞利浦和索尼公司共同推出。

PCM的音频格式也被DVD-A所采用，它支持立体声和5.1环绕声，1999年由DVD讨论会发布和推出的。

PCM的比特率，从14-bit发展到16-bit、18-bit、20-bit直到24-bit；采样频率从44.1kHz发展到192kHz。

到目前为止PCM这项技术可以改善和提高的方面则越来越来小。

只是简单的增加PCM比特率和采样率，不能根本的改善它的根本问题。

其原因是PCM的主要问题在于：

1）任何PCM数字音频系统需要在其输入端设置急剧升降的滤波器，仅让20Hz-22.05kHz的频率通过（高端22.05kHz是由于CD44.1kHz的一半频率而确定），这是一项非常困难的任务。

2）在录音时采用多级或者串联抽选的数字滤波器（减低采样率），在重放时采用多级的内插的数字滤波器（提高采样率），为了控制小信号在编码时的失真，两者又都需要加入重复定量噪声。

这样就限制了PCM技术在音频还原时的保真度。

为了全面改善PCM数字音频技术，获得更好的声音质量，就需要有新的技术来替换。

近年来飞利浦和索尼公司再次联手，共同推出一种称为直接流数字编码技术DSD的格式,其记录媒体为超级音频CD即SACD，支持立体声和5.1环绕声。

DSD音频格式简化了信号流程，去掉了PCM使用的多级滤波器，将模拟音频直接以2.8224MHz的高采样频率，按1-bit的数字脉冲来记录。

虽然DSD格式表示的声音信号是数字化数据，但是它又与真正的声波非常接近，可完整的记录当今最佳模拟系统的信息。

最好的30ips半英寸模拟录音机能记录的频率能超过50KHz，而DSD格式的频率响应指标为从DC到100KHz。

能覆盖高级模拟调音台的动态范围，通过其音频频段的剩余噪声功率，保持在-120dB。

DSD的频率响应和动态范围，是任何数字和模拟的录音系统无法与之比拟的。

从声音的质量上来说,数字音频技术是为了接近模拟声音的质量。

DSD音频格式的发展将更有利的与模拟音频系统配合。

三、为何DSD音频格式是最好的数字音频格式

2001年AES110年会的报告指出DSD是最好的音频格式选择。

环球而顾,EMI和Virgin也新加入了索尼和飞利浦的SACD/DSD的行列，除了华纳之外，几乎所有大唱片公司都支持SACD/DSD的格式。

当前还没有真正的直接24/192kHz录音，仅仅是从24/48kHz录音转换的。

真正的DVD-A出版非常少，目前还没有这种格式的市场。

而在北美已超过400多版的SACD的出版，并且继续在发展。

按照Stereophile（在北美高档音频杂志）的最新统计指出有高达30%的读者表示将在2001年底加入SACD的行列，或者在明年初有31%的读者加入此行列。

而DVD-A的百分比是12%。

当问及读者支持哪一种格式时，回答是SACD。

几乎所有主要的DVD-A与SACD格式的试听评价中，都由SACD取胜。

这包括Stereophile、AbsoulteSound、SurroundSoundReview和WidescreenReview音频发烧杂志以及如BobLudwig那样的，对录音工业有非常影响的专业工程师。

在今后若干月有几个发展动向，将会有新的芯片出现可同时播放SACD和DVD-A格式，这将被用到新的DVD播放机中。

主要的问题是这种多功能的芯片要兼容多格式对解码的音频质量不会太好。

除了音质方面的改善外，SACD的另一个关键要点是有完善的防盗版保护方式，在SACD上同时有可见和不可见的水印，SACD播放机要读到水印才能工作。

SACD具有SACD和CD两层，仍旧可以汽车里的CD中播放，而DVD-A则不行。

对音乐存储媒体来说，74分钟的容量是十分重要的。

4.7GB的SACD能存储74分钟DSD8个通道（2通道立体声和DSD6通道的环绕声）。

采用了一种被称为直接流数字转换（DirectStreamTransfer）无损编码方式的飞利浦技术。

这种无损编码可节省50%的存储空间。

DVD-A采用的是一种被称为MLP无损包装（MeridianLosslessPacking）的编码技术。

4.7GB的DVD-A能存储55分钟20bit,192kHzPCM6通道的环绕声。

这种无损编码可节省35%-50%的存储空间。

四、DSD的应用范围

DSD的脉冲序列可以直接下转为传统的PCM数字音频。

目前在PCM和DSD共存的期，采用DSD下转运算技术，可以尽量保证音频信号的质量，消除内部重复量化错误，抑制波动，将混淆误差控制在最小。

将DSD比特流下转为16-bit/44.1kHz数字音频，直接记录在普通的CD上，可使16-bit的数字音频接近20到24-bit的精度，使得16-bit的CD尽可能的保持DSD的音质。

DSD选取2.8224MHz高采样频率，其优势是可高精度的按整数的乘法和除法下转当前所有PCM采样频率。

以DSD格式记录既能保证音频质量，又能通过下转满足不同的应用和要求。

除了用于音乐录音外，也适用于影视的音频制作，最终合成的节目可通过下转，用来传输或记录在媒体上，如5.1的节目需要进行AC-3或DTS的编码。

DSD音频格式与现有的音频设备配合，不仅仅可以改善当前节目的音频质量，而且对高清晰数字电影和高清晰数字电视的音频是一个极大的支持。

DSD是理想的节目素材存储格式，用于母版的保存或数据库的建立。

DSD的采样频率是CD的64倍即2,822,400Hz。

但是DSD每个采样仅占用1bit，因此每个通道每秒的比特率为1x2,822,400Hz或2,822,400bits。

而CD每个采样占用16bits，因此每个通道每秒的比特率为16x44,100Hz或705,600bits。

实际上，DSD总的数据流只大于普通CD的4倍，数据量可以被当前的磁带和硬盘容纳。

DSD也是保存节目的理想格式。

各国音响资料馆都面临着一个共同的问题，磁带只有30年的保存期，而每种版权则有100年的保护。

选择哪种方案可将原始资料较理想的保存下来？

这个问题一直得不到解决的方案，而资料越积越多，部分老化的资料已无法恢复。

直到SACD的出现，美国国会所属的国家档案馆首先决定采用。

DSD的录音制作与传统的录音制作，对设备和技术上没有重要的区别。

需要增加的是DSD的模数/数模转换器和DSD录音编辑工作站，不少录音棚已经采用高级模拟调音台和现存的PCM录音设备成功的进行了DSD的录音。

飞利浦发展了一种DSD录音技术的P3D的转换格式，即可以将64DSDbits描述成3x24-bitAES-EBU数字节，有可能将一台24轨/24-bit44.1kHzPCM录音机改变成为一台8路的DSD录音机。

五、Pyramix虚拟音频制作系统

目前SACD和DVD-A都在推广之中，PCM与DSD两种数字音频格式需要一段共存期。

我们必须考虑PCM/DSD的兼容和转换。

因此Pyramix虚拟音频制作系统有很大的优势，它是当前仅有一个完善系统可同时完成DVD-A（24/192kHz）和SACD/DSD（1bit/2.8Mhz）的音频制作系统。

上述文章已经提到索尼公司已将DMX-100调音台与Pyramix虚拟音频制作系统结合，另外，世界数字和模拟音频设计大师EdMeitner也为Pyramix配置了当今世界最好的8路模数/数模转换器,支持DSD和PCM两种格式。

由加拿大专业传媒公司和瑞士MergingTechnologies共同推出的Pyramix4全中文版已经正式上市。

Pyramix在功能上的综合优势有：

兼容PCM与DSD两种数字音频格式；基于高度稳定的Win2000专业工作平台，可单系统独立使用，也符合多系统网络化建设；其DSD编码格式有利与高级模拟音频系统配合；包括5.1环绕声的AC-3和DTS合成和编码；具有全套的不丢帧同步能力，支持电视、电影以及目前市场上唯一支持高清晰电视HDTVTrilevel的声音同步。

再加上所有的VITC及LTC设置，可锁定于任何视频或音频设备。

Pyramix4中文版除了它的全新的全中文介面、全面的编辑功能、全实时的专业效果器组合、全部可自行配置及自动化控制的虚拟调音台之外，Pyramix4还添加了：

1.DSD1bit,2.8Mhz（SACD）录音、制作及母版制作功能

2.支持192kHz到384kHz高采样频率录音、制作及母版制作功能

3.特别为工作于96kHz到384kHz及DSD采样频率而特别