本文意在处理说话人识别中的一个分支说话人确认Word格式.docx
- 文档编号:925593
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:13
- 大小:118.99KB
本文意在处理说话人识别中的一个分支说话人确认Word格式.docx
《本文意在处理说话人识别中的一个分支说话人确认Word格式.docx》由会员分享,可在线阅读,更多相关《本文意在处理说话人识别中的一个分支说话人确认Word格式.docx(13页珍藏版)》请在冰点文库上搜索。
输入语音
识别结果
说话人识别可以分为两种:
一种是预先确定识别用语的方法(发音内容依存型);
另一种是无论讲什么话都可进行识别的方法(发音内容独立型)。
从声音中准确地提取和分离个人信息是相当困难的。
至今还没有建立起准确分离和提取个人特征的技术。
当前的状况是说话人识别多采用固定声音内容的方法来提高识别率。
多年来,人们对于特征参数在说话人识别系统中的有效性进行大量的验证和研究,得到许多有意义的结果,例如:
线性预测系数或其派生系数,由语音频谱直接导出的参数,其他鲁棒性系数包括Mel频率倒谱系数,以及经过信道谱减或噪声谱减的倒谱,混合参数等。
当然没有一种是十全十美的。
二、模型假设
模型中处理的对象是数字声音信号。
一个原始的声音信号,经过取样、量化、编码等处理变成了数字信号。
取样既是把时间上的连续波形,用时间上离散的各时点值的序列来表示。
根据奎斯特取样定理。
一个连续的带限信号能被一个离散取样序列所代替而不会有任何信息的丢失。
量化将模拟信号波形表示成一系列脉冲,这会造成一定程度的量化失真。
我们是通过Windows自带的录音机获得这种数字声音信号的。
而录音设备和外界环境都会对声音信号造成一定的影响。
声音可以理解成由振幅和相位随时间缓慢变化的正弦波构成。
人的听觉对声音的感觉特征主要包含在振幅信息中,相位信息一般不起作用。
在研究声音的性质时,往往把时域信息(波形图)变换得到它的频域信息(频谱),通过研究频谱和与频谱相关联的特征获得声音的特性。
语音信号是一种典型的非平稳信号,但是由于语音的形成过程是与语音器官的运动密切相关的。
这种物理运动比起声音振动速度要缓慢的多。
因此,语音信号常常可以假定为短时平稳的。
在10~30ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。
这样我们可以采用平稳的分析方法来处理。
由以上的分析可以提出以下几点假设:
1.将原始的声音信号转换成数字信号的过程对声音的特征造成的影响可以忽略。
2.录音设备和外界环境对声音信号的影响可以忽略。
3.声音特征基本反映在振幅信息中。
4.从时域变换到频域后,语音特征体现在它的频谱中,忽略频谱失真。
5.语音信号是短时平稳的。
三、建模与分析
该模型采用的是声音内容依存型的说话人确认系统,需要先让系统对使用者说某个特定词的语音信号进行学习。
该特定词就成为系统确认通过的“秘语”。
也就是说想让系统确认通过,首先得知道这个“秘语”。
这里,我们把这个“秘语”设定为汉语的“开门”一词。
当然这个“秘语”是可以改变的。
1)语音个人特征的提取
我们通过Windows自带的录音机得到声音数字信号。
这种信号是一系列离散时间上的量化的振幅样点。
图1给出某人说三次“开门”时的波形图。
图1(采样频率为22050Hz,横轴为时间,单位时间1/22050s,纵轴为振幅)
从图1中可以看出,虽然同一人说的都是同一个词,但三个波形图还是有一定差别的。
所以即便声音特征反映在振幅信息中也很难直接从时域信号中提取出语音的个人特征。
因此需要从其它的角度来提取语音的个人特征。
语音的感知过程与人类听觉系统具有的频谱分析功能是紧密相关的,因此,对语音信号进行频谱分析,是认识语音信号和处理语音信号的重要方法。
下面将采用频谱来分析语音信号。
对一个语音时域离散信号{x(n)},其频谱函数
是x(n)的傅里叶变换。
傅里叶变换定义为:
其中j为虚数单位,
称为数字频率。
由于处理的信号是有限长的,即
,故实际采用的是离散傅里叶变换DFT(DiscreteFourierTransform)。
长度为N的序列x(n),其DFT定义为:
,其中
如果x(n)为一个周期序列,得到的X(k)为x(n)的周期频谱。
若x(n)不是周期序列,先对x(n)进行周期性扩展,把它看成某个周期性信号的一个周期,得到的X(k)是x(n)频谱在一个周期的采样。
DFT有一种快速算法FFT,称为快速傅里叶变换。
MATLAB中采用的就是FFT算法。
图2给出了一个语音信号经MATLAB中FFT变换后得到的频谱一部分。
图2(图为一语音信号的频谱的一部分,横轴为频率,单位Hz)
信号x(n)经FFT变换后得到是尖锐的频谱,由假设5,我们可以对语音信号进行短时平滑处理。
切取信号波形x(n)的短时样本,进行基于短时的傅里叶分析。
这需要用时间窗乘以原有的波形。
对波形乘以窗函数,不仅为了在切取区间的两端不引起急剧变化,使波形缓慢降为零,而且还相当于在频谱范围对信号频谱进行窗函数的傅里叶变换的卷积,或者是进行加权移动平均。
信号{x(n)}的短时傅里叶变换定义为:
,其中{w(n)}是一窗序列。
这里,我们采用常用的汉明(Hamming)窗
。
汉明窗在频率范围中的分辨率较高。
取样周期T、分析用的取样数L和得到的频谱的频率分辨率
三者之间,存在如下关系:
短时傅里叶变换幅度的平方
是信号x(n)在时间n处的频谱能量密度函数。
因为我们把x(n)看成是能量有限信号时,其频谱能量在频域时连续分布的,只能以密度函数形式给出。
可以证明,它是信号x(n)的短时自相关函数的傅里叶变换,即:
其中短时自相关函数定义为
在实际计算中,由于信号长度是有限的,一般用离散傅里叶变换代替连续傅里叶变换,这就需要对信号进行周期性扩展,也就是把
看成是某个周期性信号的一个周期,然后对它作离散傅里叶变换。
做法与x(n)的DFT变换相同。
我们称
为信号x(n)的功率谱(PSD)。
图3~5分别给出同一个人两次说“开门”的功率谱图,不同人说“开门”的功率谱图以及同一人说不同两词的功率谱图:
(窗函数取窗长度为256的Hamming窗)
图3(用Matlab中的psdplot命令绘得的同一人两次说同一词的功率谱比较)
图4(不同人说相同的词的功率谱比较)
图5(同一人说音近的两词的功率谱比较,两词为“大蒙”和“卡门”)
可以看出功率谱图比较好地反映出声音的个人特征:
在低频部分(频率低于6000Hz),同一人说同一词,其功率谱图中的各个波峰所对应的频率基本相同;
不同人说同一词,其功率谱图的出现波峰的频率比较接近;
同一人说不同词时功率谱的形状差别较大。
在高频部分,波峰比较密集,特征不明显。
基于以上的观察,作如下统计:
将0~6000Hz等分为60个频段,100Hz为一频段,记录功率谱图中每一频段出现波峰的频率。
(信号的采样频率为22050Hz,窗长256的Hamming窗,频率分辨率
约为89Hz)
表1给出同一人说10次“开门”的功率谱图中挑出的10个频段的波峰位置;
表2给出10个人说“开门”的功率谱图中前十个波峰的位置。
129.2
559.86
689.06
1636.5
2756.3
646
2196.4
2713.2
3143.8
516.8
947.46
3186.9
602.93
904.39
1593.5
990.53
1550.4
3273
2799.3
2110.3
表1(一行对应一次的特征频率值,空格表示对应波段没出现波峰,单位Hz)
86.133
1292
1722.7
1938
3230
3919
4565
129.2
2368.7
2670.1
3057.7
3488.4
4091.3
172.27
1076.7
2627.1
3110.8
3789.8
4392.8
5038.8
258.4
818.26
2325.6
3445.3
3574.5
301.46
1335.1
2971.6
3316.1
387.6
1421.2
2497.9
3746.8
3876
4420.5
4522
473.73
1248.9
4134.4
4780.4
5512.5
6029.3
1205.9
1421.3
1938.
3100.8
2584
2842.4
3617.6
4737.3
5211
559.36
2196
3359.3
4349.7
4694.2
表2(一行对应一人的特征频率,单位Hz)
统计表反映的结果与观察相符。
因此我们可以将功率谱中频率较低段波峰出现的位置既相应频率值作为声音的个人特征。
不妨称为这些功率谱中波峰对应的频率值hz1,hz2,…,hzn为特征频率值,它们组成的向量Hz=(hz1,hz2,…,hzn)为特征频率向量。
2)距离的定义
多次提取某人(模板提供者)说同一词时功率谱中的特征频率值,这些频率值分布趋于稳定(由表1可以看出端倪)。
以100Hz为一个频段,将频谱(0~6000)划分为60个频段。
将多次提取功率谱中每一频段出现的所有频率值的平均值作为标准频率向量,F=(f1,f2,…fn)
以此标准频率向量F为模板。
对一个待确认声音,提取其特征频率向量G=(g1,g2,…,gm)。
因为F由多次提取得到,所以有m<
=n。
定义F与G之间的匹配距离函数
3)阈值
用模板提供者的一组声音与标准向量进行匹配,即得出一组匹配距离,D1,D2,…,Dn,根据这组距离,一般取阈值P=max(D1,D2,…,Dn)。
由于存在诸因素的影响,可能出相匹配距离明显偏大的情况,实际阈值视具体情况可以取得小一些。
4)系统组成
标准频率向量F,距离函数D以及阈值P就可以构成一个“说话人确认”系统。
当待确认特征向量G与标准向量F的距离D(F,G)<
P时系统即确认为模板提供者,否则认为不是。
提取某人说十次“开门”的特征频率值,得到标准向量F的每一分量如下
129.2542.64658.3732.13958.231586.31636.52024.12170.52325.62440.425842641.42743.93057.73161.132733445.335533617.63725.23861.63962.14155.942424371.24464.645654672.74745.948454995.75142.15254.15340.25426.45555.65663.25770.958575943.2
让该人对系统训练10次,得到一组匹配距离D1,D2,…,D10如下:
0.0819010.0483090.0725590.039530.0186670.126470.0823190.618260.14220.084312
D8明显异常,将其剔除,取P=0.15。
训练中只出现一次错误拒认(模板提供者的确认距离大于阈值)。
让系统对另外10人的声音进行确认,得到匹配距离如下:
0.870380.664760.28110.668210.249690.444271.03120.761550.627940.64517
结果比较理想,没有出现错误确认(非模板提供者的确认距离小于阈值)。
四、模型的讨论
评价一个“说话人确认系统”的好坏,很重要的是错误确认率及错误拒识率两个指标,此外还要综合考虑系统的实际应用要求,这主要包括以下几方面:
(1)训练样本数和训练速度。
(2)识别响应速度。
(3)说话方式要求。
(4)对环境的鲁棒性能。
优良的系统应有良好的是硬环境干扰的能力,包括噪声、信道畸变、线路衰减即多人背景语音等。
本文采用的说话人确认系统比较粗糙。
首先,作为模型中的处理对象的声音信号,并不全是语音区间,还包含空白区间。
由于将空白区间也当作语音信号处理了,所以频谱会受到影响。
实践中发现,此影响在高频部分比较明显。
虽然在模型中我们提取特征向量时没有考虑高频部分,抵消了一部分影响,但影响还是存在的。
应该在对声音信号处理前多加一项语音区间检测。
其次,我们在模型假设中忽略了一些因素的影响,从频谱中提取出语音的个人特征,而频谱会受到这些因素的影响,使得特征参量不能完全符合原始声音的个人特征。
例如,实践中发现系统受录音设备的影响比较大。
不同录音设备下系统的错误确认率和错误拒认率都比较高。
还要从其他角度提取能够反映个人信息的稳定的语音特征,以提高系统的适应性。
再次阈值的选取对系统也有影响:
提高阈值,能够降低错误拒认率,但同时也提高错误确认率;
反之,降低阈值,降低了错误确认率却提高了错误拒认率。
这是一对矛盾。
在“说话人确认”系统中,可能要求P取得小一些,以保证系统不发生错误确认,但造成错误拒认次数增多。
另外还发现,由于标准向量F实际取的是多次特征向量的均值,频谱受被忽略的因素影响的机会加大,故训练样本数的增多并没有提高系统的性能,反而会降低系统的性能。
因此诸于种种,还须对系统加以改进,提高系统的健壮性。
总体上讲,“说话人确认”今后应解决有关问题如:
研究长时间稳定的而且抗伪声能力强的特征参数;
研究与发音内容无关的,不论讲什么内容都能提取共通的个人信息的方法;
研究除去电话机和传出线路上产生的畸变、噪声和环境噪声等方法。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本文 意在 处理 说话 识别 中的 一个 分支 确认