现代测试技术语音识别技术.ppt
- 文档编号:9544080
- 上传时间:2023-05-19
- 格式:PPT
- 页数:44
- 大小:7.51MB
现代测试技术语音识别技术.ppt
《现代测试技术语音识别技术.ppt》由会员分享,可在线阅读,更多相关《现代测试技术语音识别技术.ppt(44页珍藏版)》请在冰点文库上搜索。
现代测试技术,2011.11,第五章语音识别技术,语音识别技术,第一节引言,5.1引言,一、关于声音,声音的三要素,音质,声音的三要素是音调、音色和音强,音调代表声音的高低,与频率有关。
频率越高,音调越高,反之亦然。
音色是声音的特色。
影响声音特色的主要因素是复音,即具有不同频率和不同振幅的混合声音。
音强是声音的强度,也被称为声音的强度。
音强与声波的振幅成正比,振幅越大,强度越大。
对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。
音质与声音还原设备有关。
音质与信号噪声比(SNR)有关。
5.1引言,声音文件,数字化的音频文件主要分为4类:
波形音频文件。
一种最直接的表达声波的数字形式,文件扩展名是“.wav”。
MIDI音频文件。
一种计算机数字音乐接口生成的数字描述音频文件,扩展名是“.mid”。
CD-DA音频文件。
标准激光盘文件,扩展名是“.cda”。
压缩音频文件。
在数字音频领域,一种MP3格式的压缩音频文件很流行,该格式的文件简称MP3文件。
5.1引言,获取声音,获得CD中的声音,录音,声音转换,转换成计算机能够处理的数字化声音,这就是“采样”。
可以使用EasyCD-DAExtractor、CoolEdit等音频处理软件对音频进行编辑和处理。
要录制音质好的声音,有两个途径:
使用性能优良的录音设备;采用较高的采样频率。
可以使用Windows系统自带的“录音机”进行录音。
声音的转换只能从高质量向低质量进行,如果要进一步处理,可采用CoolEdit(AdobeAudition)工具软件。
5.1引言,二、语音通信,人与人之间、人与机器之间的语音信息处理过程,5.1引言,计算机模拟人类交流信息的过程:
(1)将大脑产生的思想转换成语言
(2)将语言转换成相应的语音(3)识别表达语言的语音内容(4)理解语音所表达的语言意义,5.1引言,第二节语音识别技术概述,5.2语音识别技术概述,一、语音识别技术,语音识别(SpeechRecognition)主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。
语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。
语音信号处理学科的一个分支。
5.2语音识别技术概述,从广义上讲,语音识别也包括了对说话人的识别,其主要内容是提取语音信号中有关个人特征的信息、即语音的个性特征(如:
音律特性等),在这里专指有意义、有内容的识别。
语音识别所涉及的学科领域:
信号处理、物理学(声学)、模式匹配、通信及信息理论、语言语音学、生理学、计算机科学(研究软硬件算法以便更有效地实现用于识别系统中的各种方法)、心理学等。
一、语音识别技术,5.2语音识别技术概述,二、语音识别的重要性,计算机语音识别是智能计算机系统的重要特征。
这一技术的应用将从根本上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响。
基于电话的语音识别技术,使计算机直接为客户提供金融证券和旅游等方面的信息查询及服务成为可能,进而成为电子商务进展中的重要一环(Voice-Commerce)。
语音识别技术作为声控产业,必将对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。
因此可以预言,语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响。
5.2语音识别技术概述,三、语音识别的基本原理,5.2语音识别技术概述,语音识别的基本原理框图,5.2语音识别技术概述,语音识别基本原理中的相关概念,训练(Training):
预先分析出语音特征参数,制作语音模板(Template)并存放在语音参数库中。
识别(Recognition):
待识语音经过与训练时相同的分析,得到语音参数,将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。
失真测度(DistortionMeasures):
在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。
主要识别框架:
基于模式匹配的动态时间规整法(DTW:
DynamicTimeWarping)和基于统计模型的隐马尔柯夫模型法(HMM:
HiddenMarkovModel)等。
5.2语音识别技术概述,三、语音识别技术分类,5.2语音识别技术概述,四、语音识别应用举例,嵌入式语音识别:
智能玩具:
语音对话娃娃、语音声控机器人智能家电:
语音识别台灯、语音识别插座智能手机:
语音拨号电话语音识别:
语音电话簿:
电信增值智能语音总机:
企业应用,5.2语音识别技术概述,嵌入式语音识别,嵌入式语音识别:
5.2语音识别技术概述,语音对话娃娃,5.2语音识别技术概述,语音声控机器人,5.2语音识别技术概述,五、语音识别技术现实难度,连续语音的分割比较困难;每一个基本的声学识别基元(如音素)受前后音素发音方式的影响(协同发音)使特征变得不稳定不同人、不同心理和生理以及在不同的说话环境下说同一词时,声学信号特征会发生变化;一个词的读音不仅包含了词义特征,而且还包含了说话人性别、年龄、情绪等大量与词义无关的信息,而这些信息的分离是不容易的。
自然语言的多变性难以借助于一些基本语法规则进行描述(如方言),因而使计算机编程变得困难。
5.2语音识别技术概述,六、语音识别的应用,企业电话簿:
会议通知、语音信箱、传真信箱、企业邮箱、信息发布、定向广告。
个人电话簿:
个人邮件、数据同步、资讯定制、个人财经、业务定制。
语音门户:
天气、股票、航班查询,5.2语音识别技术概述,第三节声纹识别技术,5.3声纹识别技术,生物识别技术优势,5.3声纹识别技术,生物识别技术比较,5.3声纹识别技术,一、声纹识别技术定义,声纹识别(又称说话人识别)是一项根据语音波形中反映说话人生理和行为特征的语音参数(声纹),并对说话人进行身份验证的生物识别技术,5.3声纹识别技术,能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定;易于从语音信号中提取;不易被模仿。
语音分析,身份声明,模型产生,模型存储,特征提取,距离测量,识别判决,声纹识别系统框图,输入语音,识别,确认,训练,5.3声纹识别技术,谱包络参数语音信息通过滤波器组输出,以合适的速率对滤波器输出抽样,并将它们作为声纹识别特征。
基于发声器官如声门、声道和鼻腔的生理结构而提取的参数:
基音轮廓、共振峰频率带宽及其轨迹;线性预测系数(与声道参数模型相符合):
如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数;反映听觉特性的参数;如美倒谱系数、感知线性预测等;通过对不同特征参量的组合来提高实际系统的性能。
特征提取,5.3声纹识别技术,何谓成功的声纹识别系统,一个成功的说话人识别系统应该做到以下几点:
能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定,如感冒等情况;不易被他人模仿或能够较好地解决被他人模仿问题;良好的抗噪性;声学环境变化时能够保持一定的稳定性。
5.3声纹识别技术,声纹识别与语音识别的不同,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。
声纹识别系统主要包括两部分,即特征检测和模式匹配。
特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任务是对训练和识别时的特征模式做相似性匹配。
5.3声纹识别技术,声纹识别的分类,类型分类:
文本相关(Text-dependent)文本无关(Text-dependent)任务分类:
说话人辨认(SpeakerIdentification)说话人确认(SpeakerVerification),5.3声纹识别技术,UBM(UniversalBackgroundModel),通用背景模型GMM(GaussianMixtureModel),高斯混合模型背景噪音(环境噪音)信道差异(固定电话,手机,麦克风)身体差异,语速快慢,时间间隔FAR(FalseAcceptRate),错误接受率;FRR(FalseRejectRate),错误拒绝率。
EER(EqualErrorRate),等错误率;即FAR=FRR时的错误率。
多说话人识别,分割,声纹识别相关术语,5.3声纹识别技术,等错误率(ERR)=1%,平衡点,减少错误接受的可能,提高系统的安全。
但是由于错误拒绝率高,会给用户使用带来不便。
高安全性,高方便性,对于安全性要求不高的应用场景,可以适当提高错误接受率,使得用户容易进入系统。
DET(DetectionErrorTradeoff)曲线,5.3声纹识别技术,二、声纹识别方法,模板匹配法从说话人发出的语音信号中提取测试模板,并且与其相应的参考模板相比较。
概率统计方法通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,利用均值、方差等统计量和概率密度函数进行分类判决。
动态时间规整方法稳定因素(发声器官的结构和发声习惯),时变因素(语速、语调、重音和韵律)。
将识别模板与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。
5.3声纹识别技术,5.3声纹识别技术,矢量量化方法把每个人的特定文本编成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。
Bell实验室的Rosenberg和Soong用VQ进行了孤立数字文本的声纹识别研究。
这种方法的识别精度较高,且判断速度快。
隐马尔可夫模型隐马尔可夫模型是一种基于转移概率和传输概率的随机模型;人工神经网络方法,三、声纹识别经典模型,GMM高斯混合模型基本原理:
根据从语音信号中提取的特征参数,为每一个说话人建立一个GMM。
为处理的方便,人为的使不同说话人的模型的概率密度函数在形式上都是一样的,不同的只是函数中的参数。
特点:
简单高效,可以很好的描述从语音信号中提取的特征参数等不规则的数据。
GMM是当今应用于说话人识别的最主流模型,5.3声纹识别技术,一个M阶高斯混合模型的概率密度函数是由M个高斯概率密度函数加权求和得到,如下:
其中M是混合模型的阶数,X是一个D维随机向量;wi是混合权重,满足:
bi(X)是子分布,每个子分布是D维的联合高斯概率分布,表示为:
是均值向量,是协方差矩阵。
5.3声纹识别技术,完整的高斯混合模型由参数均值向量、协方差矩阵和混合权重共同描述。
因此,一个模型可表示为如下一个三元组:
GMM计算结构,GMM高斯混合模型,5.3声纹识别技术,基于GMM的声纹识别系统,GMM高斯混合模型,5.3声纹识别技术,UBM也是一个GMM,只是这个GMM需要用大量的不同说话人的语音数据经过训练来表示说话人无关的特征分布,这种特征是大多数说话人的共性特征。
UBM通用背景模型,建模说话人需要建立自己的模型时,就可以通过适应UBM来得到个性特征,即修正后的参数,从而得到自己的GMM。
GMM-UBM优点实现信道均衡少量训练数据得到比较理想的说话人模型,5.3声纹识别技术,GMM-UBM声纹识别系统,5.3声纹识别技术,5.3声纹识别技术,USBVoiceKey,声纹证件,公安系统,银行系统,四、声纹识别应用,01,02,03,声纹监听多人识别声纹比对,银行(电话,网上)证券银行卡,身份卡声纹密匙,高档酒店,会员俱乐部,贵族商城等玩具汽车个人电脑(家庭分级密码),公安领域?
金融领域?
生活领域,5.3声纹识别技术,四、声纹识别应用,基于声纹识别技术的电话语音远程考勤系统,5.3声纹识别技术,自动判断被监控人是否在规定的时间出现在规定的场所执行任务,以及记录在该场所停留的时间长度;应用在电话远程考勤、移动办公、医疗服务监控、监狱管理、劳改犯人的狱外服刑以及对假释犯罪嫌疑人的自动监控等方面。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代 测试 技术 语音 识别