换一换

冰点文库 > 资源分类 > DOCX文档下载

预览

基于机器学习的数字音频分类方法研究Word文档下载推荐.docx

资源ID：4963238 资源大小：343.31KB 全文页数：55页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

基于机器学习的数字音频分类方法研究Word文档下载推荐.docx

1、第一章绪论 51.1 语音信号处理发展前景 51.2 语音识别技术概述 51.2.1 语音识别技术的发展历史回顾 61.2.2 音频识别系统的基本原理 61.2.3 语音识别的意义 71.3 项目的主要研究内容 71.4本文的主要章节安排 7第二章信号的预处理 82.1 信号的预加重 82.2音频信号的加窗分帧 92.3音频信号的端点检测 102.3.1 音频信号的短时能量分析 102.3.2 音频信号的短时过零率分析 112.3.3 基于短时平均能量和短时平均过零率的双门限端点检测 12第三章音频信号的特征矢量提取 133.1 信号的倒谱分析 133.2 梅尔倒谱参数 14第四章基于

2、BP神经网络的音频信号数据分类 194.1BP神经网络概述 194.1.1 BP神经网络 194.1.2 语音特征信号分类 204.2BP 网络的MATLAB实现 214.2.1 归一化方法及MATLAB实现 214.2.2 数据选择选择和归一化 214.2.4 仿真结果分析 22第五章利用SVM建立分类器来对语音特征信号进行分类预测 255.1svm技术简述 255.1.1 SVM的原理和优点 255.1.2SVM技术在本案例中的应用 265.1.3实验的仿真结果与分析 26第六章总结与展望 29致谢 30毕业设计小结 31参考文献 32附录 33附录1：相关文献的翻译 33第一章绪论

3、通过语音传递信息是人类最重要、最有效、最常用和方便的交换信息的形式。语音是人类特有的功能，声音是人类最常用的工具，是相互传递信息的最主要的手段。因此，语音信号是人们构成思想沟通和感情交流的途径。1.1 语音信号处理发展前景让计算机能听懂人类的语言，是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展，以及计算环境的日趋复杂化，人们越来越迫切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。尤其是汉语，它的汉字输入一直是计算机应用普及的障碍，因此利用汉语语音进行人机交换是一个极其重要的研究课题。作为高科技应用领域的研究热点，语音信号处理技术从理论的

4、研究到产品的开发已经走过了几十个春秋平且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游的行业的语音咨询与管理，工业生产部门的语音控制，电话-电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活志愿系统等各种实际应用领域相接轨，并且有望成为下一代操作系统和应用程序的用户界面。可见，语音信号处理技术的研究将是一项极具市场价值和挑战性的生活。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走入人们的日常生活当中，并不断朝向更高目标而努力。语音信号处理这门学科之所以能够长期地、深深地吸引广大科学工作者不断地对其进行研究和探讨，除了它的实用性之外，另一个重要原因是，

5、它始终与当时信息科学中最活跃的前沿学科保持密切的联系，并且一起发展。语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科都有着非常密切的关系。对语音信号处理的研究一直是数字信号处理技术发展的重要推动力量。因为许多的处理的新方法的提出，首先是在语音处理中获得成功，然后在推广到其他领域的2。1.2 语音识别技术概述语音识别是指机器对人类说话的语句或命令进行识别和理解并做出相应的反应。它是涉及语言学、计算机科学、生理学等诸多领域的一门交叉学科。随着计算机软硬件和信息技术的飞速发展，以语音识别技术开发出的产品也广泛地应用于声控电话交换、信息网络查询、医疗服务、银行服务、工

6、业控制等社会和人们生活的每个方面。1.2.1 语音识别技术的发展历史回顾对语音识别技术的研究距今已有半个多世纪的历史。1952 年，AT&Tbell 实验室的Davis 等人成功研制的Audry 系统标志着语音识别研究工作的开始。它是世界上第一个能识别十个英文数字发音的实验系统。进入20 世纪60 年代，计算机的应用推动了语音识别的发展。在这一时期产生了动态规划（DP,Dynamic Programming）和线性预测分析技术（LP,Linear Prediction）两大重要理论，较好地解决了语音信号产生模型的问题，对语音识别的发展产生了深远影响。70 年代，语音识别领域取得了较大的突破

7、。动态时间归正技术（DTW）基本成熟，有效地解决了语音信号特征提取和不等长语音匹配问题，同时还提出了矢量量化（VQ），隐马尔可夫模型（HMM）理论。80 年代语音识别研究进一步走向深入，各种连接词语音识别算法被开发，并从模板匹配技术转向基于统计模型技术，特别是在实践开发中成功应用了HMM 模型和人工神经网络（ANN）。1988 年Kai-FuLee 等用VQ/HMM 方法实现了997 个词汇的非特定人连续语音识别系统SPHINX，这是世界上第一个高性能的非特定人、大词汇量、连续语音识别系统。进入90 年代后,语音识别技术开始向市场提供产品。具代表性的是IBM 的Via Voice 和Drago

8、n 公司的Dragon Dictate系统，这些语音识别系统具有说话人自适应能力，新用户不需要对全部词汇进行训练便可在使用中不断提高识别率。进入21 世纪，语音识别的研究重点包括即兴口语的识别和理解，自然口语对话，以及多语种的语音同声翻译。而基于语音识别芯片的嵌入式产品也越来越多，如Infineon 公司的Unispeech 和Unilite 语音芯片等。我国对语音识别的研究也较早。20 世纪50 年代后期，中科院声学所用频谱分析的方法研究了汉语10 个元音的语音识别；20 世纪70 年代后期，构建了基于模板匹配的孤立词语音识别系统；20 世纪80 年代后期，研究了八五期间中科院人机语音对话

9、研究项目。目前我国语音识别技术的研究水平已经基本上与国际相当。如以中国科学院自动化研究所模式识别国家重点实验室为依托的中科模识，其汉语连续语音、非特定人听写机系统的普通话系统的错误率可以控制在10%以内。1.2.2 音频识别系统的基本原理语音识别属于模式识别的范畴。根据模式识别的原理，未知语音的模式与己知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果。语音识别系统的工作过程可以描述如下：待识别语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，包括反混叠失真滤波、预加重和端点检测从而将语音信号的特征被提取出来。常用的特征包括：短时平均能量或幅度、短时平均过零率、短时

10、自相关函数、线性预测系数、倒谱、共振峰等。根据实际需要选择语音特征参数，这些特征参数的时间序列便构成了待识别语音的模式，将其与己经存储在计算机内的参考模式逐一进行比较，获得最佳匹配的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的，为此，要输入一系列已知语音信号，提取它们的特征作为参考模式，这一过程称为训练过程。1.2.3 语音识别的意义语音识别（Speech Recognition）主要指让机器听懂人说的话，即在各种情况下，准确地识别出语音的内容，从而根据其信息，执行人的各种意图。它是一门涉及很广的交叉学科，与计算机、通信、语音语音学、数理统计、信号处理、神经生理学、神经心理学和

11、人工智能等学科都有着密切的关系。随着计算机技术、模式识别和信号处理技术及声学技术等的发展，使得能满足各种需要的语音识别的实现成为可能。近二三十年来，语音识别在工业、军事、交通、医学、民用诸方面，特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的引用。当今，语音识别在人机交换应用中，已经占到了越来越大的比例。主要是有下面的例子：语音打印机、数据库检索。特定的环境所需的语音命令。目前在语音识别中，如何充分借鉴和利用人在语音识别和理解时所利用的方法和原理的一个重要课题1。1.3 项目的主要研究内容通过本次毕业设计应能够熟练掌握数字信号处理、信息论、语音信号处理、模式识别等课程的相

12、关理论知识，并将其运用到实际的工程设计中。掌握科学研究的一般方法，提高查阅文献和算法设计的能力，为今后的科学研究和工程设计打下基础。语音特征信号识别是语音识别研究领域的一个重要方面，一般采用模式匹配的方法解决。将该模型与已知的参考模型相比较，获得最佳匹配的参考模式作为识别结果。要求基于神经网络相关理论，编程实现对不同类型音频信号的通用分类算法。1.4本文的主要章节安排第1章绪论:语音信号的简介、语音识别简介、课题安排、章节设置第2章语音识别技术综述：语音识别的系统简介和模型设计、对目前主流的语音识别技术介绍第3章信号的预处理：介绍音频信号的预处理技术，包括预加重，加窗分帧，端点检测等。

13、第4章音频信号的特征矢量提取：讨论音频信号的MFCC特征矢量提取方法，并给出适合本项目的MFCC矢量特征提取方案。第五章基于BP神经网络的音频信号数据分类：建立BP网络对语音特征数据进行分类、对仿真结果进行分析第六章利用SVM建立分类器来对语音特征信号进行分类预测：利用SVM建立分类器对特征型号进行、并对仿真结果进行分类第七章总结与展望：对两个方法进行比较、总结本项目的主要工作，给出结论及进一步的工作设想。第二章信号的预处理在对音频信号进行分析和处理之前，必须要对所采集的语音信号进行预处理。信号的预处理包括预加重，加窗分帧，短时能量，短时过零率计算以及在此基础上进行的端点检测。2

14、.1 信号的预加重对音频信号进行分析之前，一般要对信号加以提升（预加重）。预加重的目的是滤除低频干扰，尤其是50Hz或者60Hz的工频干扰，提升对音频识别有用的高频部分，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析。语音信号的预加重一般在模/数转化后进行，利用6db/倍频的一阶数字预加重滤波器实现。其函数为: （2-1）、时域表达式为：（2-2）其中，的取值范围是0.950.97。图2-1预加重时域效果图2-2预加重频域效果对一帧信号的预加重时域效果如图2-1，频域效果如图2-2，从频域对比可以看出，信号经过预加重之后频谱相对平坦了一些，信号的高频分量得到了提升。2.2音频

15、信号的加窗分帧由于音频信号是一种典型的非平稳信号，其特性是随时间变化的。但是可假定在1030ms这样的时间段内，音频信号是平稳信号，其频谱特性和某些物理特征参量可近似地看作不变。目前，几乎所有的音频信号处理方法都是基于这个假定将语音信号分成若干个短段，每一短段称为一个分析帧。对该分析帧进行处理就相当于对固定特性的持续语音进行处理。分析帧可以是连续的，也可以采用交叠分帧的方法。经过处理后将从原始语音序列产生一个新的依赖于时间的序列，用于描述语音信号的特征2。同时分帧也是整个识别流程的前提后面的MFCC特征矢量提取，矢量量化等都是以一帧信号为单位进行计算。为了减小音频数据帧的截断效应，降低帧两端的

16、坡度，使音频帧的两端不引起急剧变化而平滑过渡到0，就要让音频帧乘以一个窗函数。理想窗函数的频率响应要求主瓣无限狭窄且没有旁瓣（即无频谱泄漏），但这种窗函数在实际工程中是无法实现的。窗函数越宽，对信号的平滑作用越显著，窗函数过窄，对信号平滑作用越不明显。一般需要窗函数具有以下的性质: （l）频率分辨率高，主瓣狭窄、尖锐; （2）频谱泄漏少，旁瓣衰减速度快。这里使用目前常用的Hamming窗：（2-3）其中N为每帧的采样点数。设长度为N的一帧信号为，则加窗后的帧信号为：（2-4）2.3音频信号的端点检测语音的端点检测在语音的编码、语音识别、语音增强、说话人识别中起着非常重要的作用，直接影

17、响着后续工作的正确率。在本项目中要依靠端点检测确定出一个广告音频信号处理分析的开始点。目前常用的端点检测方法有如下几种：基于短时能量的、基于短时过零率的、基于倒谱特征的、基于信息熵的端点检测的方法等5。考虑到所处理的广告音频信号是从电视机里直接引出的音频信号，一般情况下可以有可靠的信噪比（目前数字电视的音频输出信噪比可以达到80dB以上），这里采用比较简单的基于短时能量和短时过零率的端点检测13。2.3.1 音频信号的短时能量分析语音信号的能量分析是基于语音信号能量随时间有相当大的变化，特别是清音段的能量一般比浊音段的能量小得多。能量分析包括能量和幅度两个方面。n 时刻某音频信号的短时平均能

18、量定义为: （2-5）其中为上述分帧加窗所用的窗函数2。实际操作时计算一帧信号的短时平均能量作为端点检测的依据。一帧信号的短时平均能量可以用加窗分帧之后的信号这样描述：（2-6）短时能量可用来区分清音段和浊音段。En值大的对应于浊音段，而En值小的对应于清音段。对于高信噪比的语音信号，无语音信号的噪声能量En很小，而有语音信号的能量En显著增大到某一数值，由此可以区分语音信号的起始点和结束点。以短时平均能量为特征的起止点算法:根据发音刚开始前己知为“静”态的连续10帧内的数据，计算每帧的短时平均能量，最大值称之为IMX，最小值为IMN，则计算低能量阀值ITL及高能量阀值RTU的经验公式如下。

19、（3-7）（3-8）（3-9）（3-10）由此可以进行起止点判断，做起点判别时：先根据ITL算得一初始起点N1，把它定为最先升到低能量阀值的帧号，但是随着时间的后移，帧平均能量在升到ITU之前又下降到ITL之下，则原N1不作为初始起点，而改称下一个再升到ITL的点为N1，以此类推，在找到第一个平均能量超过ITU的帧时停止比较。2.3.2 音频信号的短时过零率分析短时过零率表示一帧语音信号波形穿过横轴（零电平）的次数。对于连续语音信号，过零即意味着时域波形通过时间轴，而对于离散信号，如果相邻的取样值具有不同的代数符号就称为发生了过零。一段时间内（在本项目中是一帧信号时间长度）的过零率称作

20、平均过零率。窄带信号的过零率反映了该信号的频率。当信号为单一正弦波时，过零率是信号频率的两倍。对于宽带信号，因为过零率是随时间变化的，所以不能采用长时平均过零率，而必须采用短时平均过零率。广告音频信号不仅仅是宽带信号，而且还是时变信号，它的频谱特性是随时间变化的，故短时平均过零率实际上是描述时变频谱的一种最简单的方法。过零率的计算主要是将相邻两取样值的符号进行比较，若考虑噪声的存在，就必须规定一个噪声门限，超过这一门限正值的取样值认为是正，低于该门限负值的取样值被认为是负，界于该门限正负值之间的取样被认为是零。显然，为了能够准确判定各取样值的符号，应要求信号中不含有直流偏移，噪声和电源干扰应尽

21、可能小以及选择合适大小的正负门限值。以短时平均过零率为特征的起止点算法：根据发音刚开始前已知为“静”态的连续10帧内的数据，计算出过零率的阀值IZCT：（2-11），为根据所取样值算得的均值及标准差的估值，IF为固定值，一般取为25。由此可以进行起止点判断：根据IZCT算得一个初始起点N1，把它规定为最先升到平均过零率阀值的帧号，随着时间的后移，过零率下降到IZCT之下，则这时的帧号N2点作为终点。2.3.3 基于短时平均能量和短时平均过零率的双门限端点检测语音端点检测方法可采用测试信号的短时能量或短时对数能量联合过零率等特征参数，并采用双门限判定法来检测音频信号端点。首先为短时能量和过零率

22、分别确定两个门限，一个是较低的门限数值较小，对信号的变化比较敏感，很容易超过;另一个是比较高的门限，数值较大。低门限被超过未必是语音的开始，有可能是很短的噪声引起的，高门限被超过并且接下来的自定义时间段内的语音超过低门限，意味着信号开始。具体方法为：先使用短时能量判别法确定一个高过高能量阈值ITU的开始帧号N1，当N1确定后，从N1帧向前N1-25帧搜索，依次比较各帧的过零率，若有3帧以上的过零率大于或等于过零率门限，则将起点N1定为满足过零率大于等于过零率门限的最前帧的帧号，否则即以原N1为起点。这种起点检测法也称双门限前端检测算法。检测效果如图2-3所示。图2-3双门限端点检测效果第三章

23、音频信号的特征矢量提取音频信号的的特征提取是为了从信号中提取能表示音频特征的信息。在现有的语音识别中主要有三类:时域、频域、倒频域。音频信号的时域分析就是分析和提取语音信号的时域参数。进行音频信号分析时，最先接触到并且也是最直观的是它的时域波形。音频信号本身就是时域信号，因而时域分析是最早使用，也是应用最广泛的一种分析方法，这种方法直接利用语音信号的时域波形。音频信号的时域参数有短时能量、短时过零率、短时自相关函数和短时平均幅度差函数等。音频信号的频域分析就是分析信号的频域特征、从广义上讲，音频信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等，而常用的频域分析方法有带通滤波器组

24、法、傅里叶变换法，线性预测法等几种。音频信号的倒谱分析就是求取信号倒谱特征参数的过程，它可以通过同态处理来实现。同态信号处理也称为同态滤波，它实现了将卷积关系变换为求和关系的分离处理，即解卷。对语音信号进行解卷卷，可将信号的声门激励信息及声道响应信息分离开来，从而求得声道共振特征和基音周期。其中音频信号特征参数的发展也主要是从时域到频域，再到倒频域的过程。广告音频信号是一种冗余度很高的随机信号，在进行信号处理的时候，必须经过特征提取才能有效的降低信号冗余度。所以特征提取实际上是对音频信号进行大幅度压缩的过程。广告音频信号虽然是时变信号，但是若把它分成10ms至30ms之间这样的音频段，则音频段是相对平稳的，这就是所谓的短时平稳性。因此可以把短时音频段的特征提取出来。这里介绍的特征矢量是梅尔倒频谱系数MFCC6。3.1 信号的倒谱分析数字化的音频信号是声道频率特性和激励信号源二

注意事项

本文（基于机器学习的数字音频分类方法研究Word文档下载推荐.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。