毕业论文基于LPCC的病理嗓音细分识别研究V31.docx
- 文档编号:4874495
- 上传时间:2023-05-07
- 格式:DOCX
- 页数:30
- 大小:158.91KB
毕业论文基于LPCC的病理嗓音细分识别研究V31.docx
《毕业论文基于LPCC的病理嗓音细分识别研究V31.docx》由会员分享,可在线阅读,更多相关《毕业论文基于LPCC的病理嗓音细分识别研究V31.docx(30页珍藏版)》请在冰点文库上搜索。
毕业论文基于LPCC的病理嗓音细分识别研究V31
基于LPCC的病理嗓音细分识别研究
中文摘要
语音识别技术是新世纪一门十分热门的技术,涉及多个领域,在社会生活中具有举足轻重的意义,而语音信号特征参数又是语音识别领域的重中之重,选取良好的特征参数有助于提高语音识别率。
在自动检测正常嗓音和病理嗓音时,关键是如何选出有效的特征参数、如何选择合适的识别模型使得对正常嗓音和病理嗓音进行识别得到最好的识别率。
为了能实时、便利地检测正常嗓音和病理嗓音,本课题采用了线性预测倒谱系数(LPCC)声学特征参数,并利用MATLABR2009b和Weka3.7进行参数的提取与数据比较,在利用Weka3.7中的7种方法分类、40种算法后,经过比较发现SimpleLogistic的相对准确率为50%;SMO的相对准确率为50%;ClassificationViaRegression的相对准确率为55.5556%。
故采用ClassificationViaRegression的准确率更高,对语音识别研究更有效。
关键词:
病理嗓音;LPCC参数提取;Weka3.7
BasedonLPCCpathologicalvoicesegmentsofresearchanditparameterextraction
Abstract
Voicerecognitiontechnologyisaverypopulartechnologyinthenewcentury,itinvolvesmanyareasofgreatsignificanceincludesociallife.Thecharacteristicparametersofthespeechsignalisafocusofthespeechrecognition,theselectgoodcharacteristicparametershelptoimprovethespeechrecognitionrate.Automaticdetectionnormalvoiceandpathologyofvoice,thekeyishowtoelecteffectivecharacteristicparameters,howtochoosetheappropriaterecognitionmodelmakesnormalvoiceandpathologicalvoicerecognitiontogetthebestrecognitionrate.Inordertobeabletofacilitatethedetectionofnormalvoiceandpathologicalvoiceusinglinearpredictivecepstralcoefficients(LPCC)Acousticcharacteristicparameters,andusingMATLABR2009bandWeka3.7parameterextractionandcomparisonofdata.ThenitcanfoundSimpleLogisticrelativeaccuracyrateof50%;fortheSMOrelativeaccuracyrateof50%;ClassificationViaRegressionrelativeaccuracyrateof55.5556percentafterbycomparison.Therefore,theaccuraterateofClassificationViaRegressionhigher,it'sforspeechrecognitionresearchmoreeffective.
Keywords:
pathologicalvoice;LPCCparameters;Weka3.7
目录
中文摘要.......................................................................................I
Abstract...................................................................................................II
第一章研究概述.....................................................................................1
1.1研究背景及意义........................................................................1
1.2国内外研究现状........................................................................1
1.3本文研究的的主要工作............................................................2
第二章病理嗓音产生的机理..................................................................3
2.1病理嗓音的产因、特点..............................................................3
2.2语音发音系统............................................................................3
2.3本章总结....................................................................................4
第三章病理嗓音特征参数的提取..........................................................5
3.1预处理........................................................................................5
3.2病理嗓音LPCC参数提取方法.................................................5
3.3本章小结....................................................................................7
第四章实验数据分析..............................................................................8
4.1所用的实验分析工具介绍........................................................8
4.2实验所用的MATLAB程序.......................................................8
4.3实验结果....................................................................................9
4.3.1贝叶斯法........................................................................9
4.3.2functions分析...............................................................11
4.3.3lazy分析.......................................................................13
4.3.4meta分析......................................................................15
4.3.5misc分析......................................................................17
4.3.6rules分析......................................................................17
4.3.7trees分析......................................................................19
4.4实验结果对比与结论............................................................21
4.5本章小结................................................................................22
第五章总结与展望................................................................................23
5.1总结........................................................................................23
5.2展望........................................................................................23
参考文献..................................................................................................24
致谢..........................................................................................................25
第一章研究概述
1.1研究背景及意义
自从人类制造和使用机器以来,就一直有一个想法,就是让各种机器听懂人类语言并且可以直接按照人类口头命令执行任务,从而实现人机交流。
其实早在计算机发明以前,人们就有了自动语音识别的构想,直到1960年代,人工神经网络被引入到了语音识别。
这个年代的两大突破是产生了线性预测编码LinearPredictiveCoding(LPC)和动态时间弯折DynamicTimeWarp(DTW)技术,这两个技术的出现成功的解决了语音信号特征提取和不等长匹配的问题,随着后来技术不断的发展,语音识别(SpeechRecognition)技术又被应用到了医学领域,例如现在非常热门的病理嗓音研究。
众所周知,我国是人口大国,有很多人患有嗓音方面的疾病。
尽管现在医学上有很多的治疗方法,诸如:
喉镜检查、动态检查、肌电图描写等等,但这些诊断治疗方法不但要求患者具有很高的配合意识,而且难免会让患者感觉到痛苦。
随着不断深入研究嗓音中所包含的各类参数,可以客观准确地识别嗓音疾病。
所以,用声学参数的分析方法不但可以有效诊断出患者喉部疾病类型,更为确诊治疗争取了宝贵的时间[1]。
因此,病理嗓音参数的提取对病理嗓音研究有着重要的意义。
1.2国内外研究现状
目前,国内外的病理嗓音研究主要侧重于嗓音的检测分析,以助于对嗓音疾病做出辅助诊断,最主要的手段就分为:
主观心理听觉评估、客观声学监测分析。
众所周知,语音识别一个最根本的问题是合理的选用特征参数,故特征参数的提取目的是对语音信号进行分析处理,去掉与病理嗓音识别无关的冗余信息,获得影响病理嗓音识别的重要信息,同时对语音信号进行压缩。
目前,应用的主要研究参数包括基频、振幅、微扰值、噪声谱、共振峰及其特征等,而且各分析软件间的参数可比性尚待进一步的探讨,最终结果判定还需要多参数综合评定[2-4]。
但是不可否认,线性预测(LP)分析技术仍然是应用最广泛的特征参数提取技术,而线性预测倒谱参数(LPCC)的提取更是被广泛运用在病理嗓音的研究中。
当然,随着语音识别技术的多样化发展,各种算法、参数提取的更新也是日新月异。
1.3本文研究的主要工作
基于本课题的研究内容,本文的结构如下:
第一章:
主要阐述了本课题的研究背景及目前国内外研究现状,并且对本课题重点研究方向做一个简单铺垫。
第二章:
介绍了病理嗓音的产因、特点,并对语音发声器官做了简单地介绍。
第三章:
主要给出了LPCC参数的计算机语言算法和一般提取方法,以及改进后的LPCC参数提取方法,为后面进一步实验、比较打下了基础。
第四章:
主要是对语音库里面的信息数据化,并取出相对有效的数据。
第五章:
对本文LPCC参数提取工作的总结,以及指出不足和还需要改进的地方。
第二章病理嗓音产生的机理
2.1病理嗓音的产因、特点
病理嗓音的临床表现主要体现在嗓音的音质异常,是指任何一种病因(功能性或器质性)使声带振动的规律性下降,使嗓音中出现过多的噪声干扰成分,进而使嗓音言语的清晰度下降。
病理嗓音的产生主要是由于发音滥用、用声不当及不良的生活习惯;局部感染与炎症:
上呼吸道感染,如、扁桃体炎、鼻喉炎、鼻窦炎、咽喉炎、支气管炎等均可因下行感染声带影响发声,同时出现疾病本身的相应症状;反流性喉炎等。
这些产生病理嗓音的因素都伴随着相应的症状,比如:
发音费力、易疲劳;发音中断、无力伴气息音;喉痛、发音时加重、吞咽疼痛等。
嗓音的质量
病理嗓音与正常嗓音不同在于:
1、患者声带闭合的异常2、患者声带柔韧性的异常3、患者声带对称性的异常(正常情况下,双侧声带是对称、包含运动周期、声带的粘膜波等)。
2.2语音发音系统
人的发音器官包括三个部分:
动力区、声源区、调音区(如图1所示)。
1、动力区——肺、横膈膜、气管
肺是呼气流的活动风扇,呼吸的气流是语音的动力。
横隔膜能帮助肺呼吸,通过膈的一张一弛,帮助肺吸入呼出气体。
然后,肺部呼吸的气流通过支气管到达喉头,作用于声带、咽腔、口腔、鼻腔等发音器官。
2、声源区——声带
声带位于喉头的中间,是两片富有弹性的带状薄膜。
两片声带之间的空隙叫声门,肌肉的收缩,杓状软骨活动起来可使声带放松或收紧,使声门打开或关闭,从肺中出来的气流通过声门使声音振动发出声音,控制声带松紧的变化可以发出高低不同的声音来。
3、调音区——口腔、鼻腔、咽腔
口腔(包括唇、齿和舌头)后面是咽腔,咽头上通口腔、鼻腔,下接喉头。
口腔和鼻腔靠软腭和小舌分开。
软腭和小舌上升时鼻腔关闭,口腔畅通,这是发出的声在口腔中共鸣,叫口音。
软腭和小舌下垂,口腔成阻,气流只能从鼻腔中发出,这是发出的音主要在鼻腔中共鸣,叫做鼻音。
如果口腔没有阻碍,气流从口腔和鼻腔同时呼出,发出的音在口腔和鼻腔同时产生共鸣,叫鼻化音(也叫半鼻音或口鼻音),如图1所示。
图1人的发声系统
2.3本章总结
本章首先介绍了病理嗓音产生的原因、特点,即嗓音的病理,接着介绍了,接着介绍了人的发声器官,简单说明了人体的发声部位以及嗓音疾病的多发部位。
第三章病理嗓音特征参数的提取
3.1预处理
预处理[5-6]是对前面录制的语音信号进行去除噪声和端点检测处理,为后续工作提供更加清晰有效的信号。
即除去语音信号在产生、传输及接收的过程中所污染到噪声;端点检测就是找到信号中所有语音成分。
这些工作都是语音信号处理工作所不可缺少的重要环节。
为便于进行频谱分析和声道函数分析,需要对信号进行高频提升(6dB/倍频),因而需要将信号进行预加重处理,其目的是:
一是使用低通滤波器限制信号中频率分量超过采样频率一半的部分,以防止信号的混叠干扰;其次是要通过高频滤波器抑制50Hz的电源干扰。
故通过一个一阶的预加重数字滤波器来实现预加重处理,其传递函数为:
(3.1)
其中,u是预加重滤波器的系数,其取值范围是0.94——0.97。
由于语音是一个短时平稳的,一般为10ms-30ms,所以要对其加窗分帧,在此我们可以利用汉明窗(Hamming)来消除由分帧引起的信号边缘锐变,即用截取数据尾端减幅的方法有效消除了吉布斯现象。
其函数表达式为:
(3.2)
其中,L是窗长。
3.2病理嗓音LPCC参数提取方法
声道模型参数的稳定性取决于语音的平稳性和鲁棒性,而LPCC参数的鲁棒性和可实现性都比较好,所以被广泛应用到自动语音识别研究中。
LPCC的计算方法[7]是由LPC参数到LPC倒谱的递归过程。
具体流程如图2所示。
语音信号
LPCC
图2LPCC系数计算示意
根据全极点模型[8]:
(3.3)
其中,ak为线性预测系数(k=1,2,...,p),A(z)为逆滤波器。
LPC的分析就是求解线性预测系数ak,求解ak的方法主要有自相关法、协方差法等,文中采取基于自相关的递推求解公式法(即Durbin算法)。
所以,LPC系数[9],在加窗处理后,各帧信号间的自相关计算为:
(3.4)
P为LPC分析阶数。
信号经过LPC分析得到P阶的LPC系数,再根据Durbin递推算法求解LPC系数:
(3.5)
(3.6)
(3.7)
(3.8)
公式中,上标(i)表示第i次迭代,每次迭代都要重新更新α1,α2…αi,直到i=p时,结束迭代,p为预测系数的阶数。
最后,再由倒谱特征的统一表达式来获得LPCC,具体算法如下:
(3.9)
(3.10)
(3.11)
式(3.10)中,am是LPC特征向量。
3.3本章总结
在语音识别系统中,提取有效特征参数可以为研究工作提供了很大的帮助。
本章中设计算法并给出了LPCC参数的一般提取方法,为病理嗓音的研究工作奠定了基础。
第四章实验数据分析
4.1实验所用工具介绍
本文所用的实验数据统计、分析的工具为MATLABR2009b和Weka3.7。
MATLAB是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。
它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,并在很大程度上摆脱了传统非交互式程序设计语言(如C、Fortran)的编辑模式,代表了当今国际科学计算软件的先进水平。
Weka的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
4.2实验所用程序
本文章是先利用MATLAB把语音库中的72个语音息(包括甲状腺功能亢进、声带麻痹、胃液逆行、正常嗓音)数据化,再利用Weka进行数据分析,得出准确有效的数据。
在MATLAB中所用的程序为:
1clearall
2clc
3[y,fs]=wavread('F:
\基于LPCC的病理嗓音细分识别研究秦国成\语音库\各项语音信息\78.wav');
4B=[1,-0.95];
5A=[1];
6y=filter(B,A,y);
7framelength=256;
8inc=128;
9p=10;
10wy=enframe(y,hamming(framelength),inc);
11x=lpdp_f(wy,p);
12x=x';
4.3实验结果
4.3.1贝叶斯法分析(如表格4-1至4-3所示)
a.
表4-1BayesNet算法
BayesNet
===Stratifiedcross-validation===
===Summary===
CorrectlyClassifiedInstances
34
47.2222%
IncorrectlyClassifiedInstances
38
52.7778%
Kappastatistic
0.2375
Meanabsoluteerror
0.2921
Rootmeansquarederror
0.4191
Relativeabsoluteerror
80.5323%
Rootrelativesquarederror
98.4014%
Coverageofcases(0.95level)
87.5%
Meanrel.regionsize(0.95level)
71.1806%
TotalNumberofInstances
72
b.
表4-2NaiveBayes算法
NaiveBayes
===Stratifiedcross-validation===
===Summary===
CorrectlyClassifiedInstances
35
48.6111%
IncorrectlyClassifiedInstances
37
51.3889%
Kappastatistic
0.2862
Meanabsoluteerror
0.2699
Rootmeansquarederror
0.4677
Relativeabsoluteerror
74.4069%
Rootrelativesquarederror
109.8132%
Coverageofcases(0.95level)
68.0556%
Meanrel.regionsize(0.95level)
43.7028%
TotalNumberofInstances
72
c.
表4-3NaiveBayesUpdateable算法
NaiveBayesUpdateable
===Stratifiedcross-validation===
===Summary===
CorrectlyClassifiedInstances
35
48.6111%
IncorrectlyClassifiedI
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业论文 基于 LPCC 病理 嗓音 细分 识别 研究 V31