模式识别结课论文.doc
- 文档编号:4703446
- 上传时间:2023-05-07
- 格式:DOC
- 页数:6
- 大小:23.50KB
模式识别结课论文.doc
《模式识别结课论文.doc》由会员分享,可在线阅读,更多相关《模式识别结课论文.doc(6页珍藏版)》请在冰点文库上搜索。
模式识别论文
题目基于Matlab的语音识别系统
Title:
thevoicerecognitionsystembasedonmatlab
摘要
语音是人的自然属性之一,是人类信息交流的基本手段。
语音中包含有多种信息,如语义信息、语言信息、说话人信息、情感信息等。
语音识别就是从语音信号中识别出这些信息。
按照任务的不同,语音识别可以分为四个方面:
说话人识别、语种识别、关键词识别和连续语音识别。
语音识别是以声音作为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。
语音识别作为一门兼具理论价值与应用价值的研究课题,得到越来越多研究者的兴趣和关注,各种各样的语音识别方法层出不穷。
本次课程论文通过分析MFCC系数和语音识别的基本原理,应用Matlab设计实验程序并结合VQ矢量量化模型完成语音识别的VQ实现。
本次课程论文通过语音识别的相关的背景、步骤以及原理,设计了一个matlab语音识别实验,并包含了实验的流程和结果。
关键词:
语音识别;Matlab;模式识别
一、引言:
近年来,语音识别作为一门兼具理论价值与应用价值的研究课题,得到越来越多研究者的兴趣和关注,各种各样的语音识别方法层出不穷。
本次课程论文通过语音识别的基本原理,应用Matlab设计实验程序。
语音识别是以声音作为研究对象它是语音信号处理的一个重要研究方向,是模式识别的一个分支涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。
二、.原理分析
1语音识别系统的特征提取
语音识别系统中的特征提取即提出适合分类的某些信息特征(如说话人,或语言特征,或关键词特征),次特征应能有效地区分不同的模式,而且对同种方式的变化保持相对稳定。
目前的语音识别系统主要依靠较低层次的声学特征进行识别。
语音识别特征大致可以分为3类:
(1)线性预测系数及其派生参数,如线性预测系数、线谱对系数、线性预测倒谱系数及其组合参数。
(2)由语音频谱直接导出的参数,如基音及其轮廓、美尔频率倒谱系数、感知线性预测参数、口音敏感倒谱系数。
(3)混合参数。
混合参数由以上不同的参数组成的矢量。
2语音识别系统的分类模型
模型建立是指在训练阶段用合适的模型来表征这些参数,使得模型能够代表该语言的语音特性。
对模型的选择主要应从语音的类型、所期望的性能、训练和更新的难易程度以及计算量和存储量等方面综合考虑。
可分为以下四类:
(1)模板匹配模型:
从每种模型的训练语句中提取相应的特征矢量,这些特征矢量称为模板。
识别时,从语音信号中按同样的处理法提取测试模板,并且与其相应的参考模板相比较。
模板匹配模型的不足之处在于不能全面地反映样本分布及统计特性,适应性较差。
典型的模板匹配模型有最邻近模型、动态时间规整模型和矢量量化模型。
(2)概率统计生成模型(又称参数模型):
语音信号具有短时平稳性,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。
概率统计生成模型采用某种概率密度函数来描述语音特性在特性空间的分布情况,并以该概率密度函数的一组参数作为语音模型。
概率统计生成模型由于考虑了语音的统计特性,能较全面地反映语音的统计信息,其优点是不用对特征参量在时域上进行规整。
典型的概率统计生成模型有隐马尔可夫模型和高斯混合模型。
(3)神经网络模型:
人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的稳健性,其性能近似理想的分类器。
其缺点是训练时间长,动态时间规整哪里弱。
目前常用的神经网络模型有多层次感知器、径向基函数网络、自组织映射网络和支持向量机网络等。
(4)融合模型:
把以上分类方法与不同特征进行有机组合可显著提高语音识别的性能。
三、语音识别系统的结构
1一个完整的语音识别系统包括预处理、特征提取、模型建立、模式匹配和判决规则等5个部分。
语音识别是属于人工智能领域中的一项技术,从本质上讲,语音识别技术是一个语音信号模式识别问题,它由训练(或注册)和识别(或测试)两个阶段完成。
从训练语音中提取语音特征、建立参考模型并储存的过程称为训练阶段;从待识别语音中提取语音特征,依据参考模型进行比较和判决的过程称为识别阶段。
.2语音信号预处理
实际的语音信号是模拟信号,因此在对语音信号进行数字处理之前,首先要将模拟语音信号以采样周期采样,采样周期的选取应根据模拟语音信号的带宽来确定,以避免信号的频域混叠失真。
在对离散后的语音信号进行量化处理过程中会带来一定的量化噪声和失真。
语音信号的预处理包括预加重和加窗分帧处理。
3语音识别的特征提取
语音线性预测的基本思想是:
由于语言样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音信号的抽样值可以用过去若干个取样值得线性组合来逼近。
通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。
4用矢量量化聚类法生成码本
将每个待识别的说话人看作是一个信源,用一个码本来表征。
码本是从该说话人的训练序列中提取的特征矢量聚类而生成。
只要训练的序列足够长,可认为这个码本有效地包含了说话人的个人特征,而与讲话的内容无关。
本系统采用基于分裂的算法设计码本。
4.实验设计
先读入原始语音信号,显示其波形,然后通过预加重滤波器,即可得到预加重语音信号,之后就可以对语音信号进行短时平均幅度和平均过零率分析,同时,也可以通过相应的计算得到语音信号的部分特征参数(LPC谱和LPC倒谱)
5实验结果及总结
经试验,可以显示出应有的波形,得出预期实验结果。
经过本次课程论文学习,我已对语音识别有了一定的研究;本实验在matlab平台上基本实现了说话人的语音;虽然本次实验的结果比较理想,但是语音识别还有很多;本次设计中主要涉及到了语音识别的基本原理、系数的算法、矢量量化聚类法、说话人识别技术以及matlab编程知识。
本实验在matlab平台上基本实现了说话人的语音识别,从实验结果来看,基本上实现了预定的目的。
本实验的程序代码参考了部分参考书籍和网上资料,但它们的代码在matlab上运行均会出现一些错误,无法正常运行,本人通过多次修改调试并改进,终于使程序成功运行,并得到较为理想的结果。
当然,在这个过程中也碰到过很多各种各样的问题,一开始语音录入的时候,打算叫几个人来录音,但是后来觉得太麻烦了,直接用一段音频(mp3音乐)就算了,但是问题来了,有时因为音频时间可能太长了导致程序运行的时间很长,或者电脑直接就死机了,后来想起酷我有个制作铃声的工具,然后就用这个工具将比较长的音频截成一段时间很短的音频,大概就是10秒钟,这样的话,我就只需找几个不同的歌手就可以达到不同说话人的目的了,还挺方便的。
用matlab程序实现相应的功能其实难度还是挺大的,语音识别的大概流程和理论算法我都有一定的了解,但是用matlab语言描述出来,用实现的话很多时候都是无从下手,尤其是涉及比较多的函数的时候,不过经过这次实验,我的matlab编程实现能力又得到了一定的提高。
调程序的时候也真的很需要耐心,因为这个问题解决了,再运行的时候,也继续会有下一个问题的出现,最怕的就是要验证问题是否解决的时候,程序需要运行很长的时间,程序运行完了,问题还没有解决,不断地修改,不断的等待,可能有时候真的会不耐烦,所以调程序需要耐心,我在调试生成码本那个程序的时候就是这样的,还好最终都能实现了。
虽然本次实验的结果比较理想,但是语音识别还有很多的模型、方法和技术。
本次实验只是模拟了说话人的识别,但是语音识别其实还有其它方面的任务,仍然有很大的空间值得去学习和提高。
6参考文献
百度文库及matlab软件
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 论文