语音识别实验报告Word格式.docx
- 文档编号:7338789
- 上传时间:2023-05-08
- 格式:DOCX
- 页数:6
- 大小:20.86KB
语音识别实验报告Word格式.docx
《语音识别实验报告Word格式.docx》由会员分享,可在线阅读,更多相关《语音识别实验报告Word格式.docx(6页珍藏版)》请在冰点文库上搜索。
1 短时能量曲线 短时过零率是每帧内信号通过零点的次数,是信号采样点符号的转变次数。
1N?
1 Zn?
sgn[x(m)]?
sgn[x(m?
1)];
2m?
0 “启动”的过零率曲线 在实验室的安静的环境下,依托短时能量和短时过零率就可进行语音信号的起止点判定。
当背景噪声较小时,没有语音信号的噪声能量很小,而语音信号的短时能量增大到了必然数值,能够区分语音信号的开始点和终止点。
当背景噪声较大时,能够用短时平均过零率和短时能量结合来判定。
基于能量一过零率的端点检测一样利用两级裁决法,在开始进行端点检测之前,第一为短时能量和过零率别离确信两个门限。
整个语音信号的端点检测能够分为四段:
静音、过渡音、语音段、终止时的静音段,
(1)若是能量或过零率超越了低门限,就应该开始标记起点,进入过渡段。
在过渡段中,由于参数的数值比较小,不能确信是不是处于真正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。
而若是在过渡段中两个参数中的任一个超过了高门限,就能够够确信进入语音段了,并标记起始点。
(2)若是当前状态之前处于语音段,而现在两个参数的数值降低到底门限以下,而且持续时刻大于设定的最长时刻门限,那么就以为语音终止了,返回到参数值降低到底门限以下的时刻,标记终止点。
端点检测波形 4、特点提取 检测到语音的起点后就能够够开始对检测出来的语音信号段中抽取语音识别所需的信号特点,语音特点参数是分帧提取的,每帧特点参数一样组成一个矢量,因此语音特点量是一个矢量序列。
语音信号中提掏出来的矢量序列通过数据紧缩后便成为语音的模板。
目前,有效的特点参数有线形预测编码(LPC)系数,线形预测编码倒谱(LPCC)系数和Mel频率倒谱系数(MFCC),其中比较经常使用的是MFCC。
MFCC参数:
人耳对不同频率的声波有不同的听觉灵敏度,因此从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器。
对输入信号进行滤波,将每一个带通滤波器输出的信号的量作为信号的大体特点,对此特点进行进一步处置后就能够够作为语音识别系统的输入特点。
MFCC参数也是按帧计算的,计算通常采纳如下的流程:
(1)第一初始化Mel三角滤波器组,取滤波器的个数是24个,其中心频率依次为28Hz、89Hz、154Hz、224Hz、300Hz、383Hz、472Hz、569Hz、674Hz、787Hz、910Hz、1043Hz、1187Hz、1343Hz、1512Hz、1694Hz、1892Hz、2106Hz、2338Hz、2589Hz、3154Hz、3472Hz、3817Hz。
(2)第一对每一帧序列进行离散FFT变换,取模的平方取得离散功率谱。
(3)计算功率谱通过24个滤波器后所得的功率值,取得24个参数Pm,对Pm去取对数取得Lm。
(4)对Lm进行离散余弦变换,Cn?
L m?
124mcos(?
(m?
0.5)n/24) 取得MFCC参数,通常取前13个系数作为该语音的特点参数。
对每一帧进行MFCC的计算,就取得了一个行数是语音的帧数,列数是13的表征语音特点的矩阵。
五、矢量量化 在特点提取以后,对矢量序列要进行矢量量化,确实是用假设干离散的数字值(或称为标号)来表示各帧的13维参数矢量。
矢量量化进程:
将语音信号的
(1)第一对矢量序列进行聚类,依照语音信号的特点矢量聚类取得另一组量化矢量作为 码书,每一个矢量成为码字,这组量化矢量长度选择32。
(2)计算特点矢量与每一个码字的失真度,用失真度最小的特点矢量的标号代替该特点矢 量,如此将一个矩阵转换为一个矢量。
六、训练和识别 语音识别进程是依照模式匹配原那么,计算未知语音模式与语音模板库中的每一个模板的距离测度,从而取得最正确的匹配模式。
语音识别所应用的模型匹配方式要紧有动态时刻弯折、隐式马尔可夫模型和人工神经网络。
隐马尔科夫模型是用于描述随机进程统计特性的概率模型,在实际问题中,观看者只能看到观看值,而观看值并非与状态一一对应,因此,不能直接看到状态,而只能是通过一个随机进程去感知状态的存在及其特点。
因此称之为隐马尔科夫模型(HMM)。
在HMM中有5个参数。
(1)N:
模型中状态数量。
记N个状态为?
1,?
,?
N,记t时刻所处状态为qt。
(2)M:
每一个状态对应的可能的观看值数量。
记M个观看值为?
1,?
?
M,记t时刻观看到的观看值为ot。
(3)?
:
初始状态概率矢量,?
(?
N),其中?
i?
P(q1?
i),1?
N。
(4)A:
状态转移概率矩阵,A?
(aij)N?
N,其中aij?
P(qt?
j|qt?
t)。
(5)B:
观看值概率矩阵,B?
(bij)N?
M,其中bij?
P(ot?
vj|qt?
j)。
如此,能够记一个HMM为?
(N,M,?
A,B)。
语音信号本身是一个可观看序列,但它是由大脑中的(不可察序列)、依照言语需要和语法知识(状态选择)所发出的音素(词、句)参数流,因此,能够用HMM模型来描述语音信号。
语音识别中的孤立词识别,对每一个孤立词成立一个HMM模型,当输入一个孤立词时,先对它进行特点值的提取,利用矢量量化将矢量序列转换为一组符号,然后计算这组符号和每一个HMM上的输出概率,概率最值所对应的孤立词确实是识别结果。
孤立词的语音识别中要紧解决三个问题:
(1)给定观看值序列O?
o1,o2,?
oT,(T是语音信号帧的长度)和模型?
的情形下,计算给定模型参数时观看值序列的概率P(O|?
)。
(2)给定观看值序列O?
oT和模型?
,选择对应的最优状态序列q?
q1,q2,?
qT。
该问题将揭露模型的隐含部份,即估量出模型产生观看值序列时可能经历的途径,并选择出概率最大得一条路经。
(3)如何调整模型参数?
元(AB),使P最大,这是一个训练进程来训练HMM,它能够使模型参数最为理想地适应所观看到的训练数据。
因此在模板训练中要紧解决第三个问题,对每一个词别离进行训练,取得模型参数,然后对要识别的词在每一个模板下进行问题一的计算,取得最大的概率,将其对应的模板作为结果。
篇二:
语音识别系统的开题报告 天津理工大学本科毕业设计开题报告 届:
XX届学院:
自动化学院专业:
测控技术与仪器XX年3月11日篇三:
DSP课程设计语音识别报告 DSP课程设计 语音识别课题报告 姓名高鹏于是阳 学号1221XX12212025 学院电子信息工程学院 班级自动化1202 指导教师钱满义 一、设计任务书 1.1实验目的 把握利用DSP进行语音信号搜集的方式,利用DSP对语音信号进行特点提取,从而实现语音信号的识别。
学会A/D、D/A的工作原理和利用,学会A/D、D/A转换器的编程方式。
以语音信号处置为依托,深切明白得信号的抽样和重建的大体方式,提高学生系统地试探问题和解决实际问题的能力。
通过挪用DSPCSL库对McBSP接口的编程,学会DSP片上外设的利用方式。
1.2技术指标及设计要求
(1)对DMA进行初始化;
(2)对A/D、D/A进行初始化;
(3)编写DMA中断效劳程序,实现语音信号的实时识别;
(4)依照识别系统的类型选择一种识别方式,采纳语音分析方式分析出这种识别方式所要求的语音特点参数,作为标准模式由机械存储起来,形成标准模式库。
(5)对语音进行特点参数的分析,语音信号通过相同的通道取得语音参数,生成测试模板;
(6)将测试模板与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果,从而实现语音的识别。
1.3设计思路 第一利用DSP对语音信号进行分析,提取语音的特点参数,形成“模板”。
语音识别系统对特点参量的提取可采纳FFT算法。
语音识别和说话人识别中的LPC倒谱和MEL倒谱,都与语音的频谱包络紧密相关,不同的参数表示不同的频谱包络。
识别时,对其进行特点参数的分析,识别参数能够选择平均能量、过零数或平均过零数、频谱、倒谱、线性预测系数,音长,音调,声调等超音段信息函数。
最后将语音参数和模板进行比较,从而实现语音的识别。
1 二、实验原理 2.1语音识别概述 语音技术,包括语音识别、语音合成、关键词检出、说话人识别与确认、口语对话系统等,是现代人机交互的重要方式之一,具有普遍的应用前景。
其中语音识别技术,尤其是持续语音识别技术,是最基础、最重要的部份,而且已经慢慢走向成熟与有效。
语音识别(SpeechRecognition)是指让机械听懂人说的话,即在各类情形下,准确的识别语音的内容,从而依照其信息,执行人的各类用意或执行特定的任务,其最终目标是实现人与机械进行自然语言通信。
利用DSP能够对语音信号进行实时搜集、提取语音特点向量、进行语音识别。
语音识别系统对语音特点参量的提取能够采纳FFT等算法,不同的参数表示不同的频谱包络。
利用DSP技术来实现语音识别其实确实是要利用DSP处置器壮大的数据处置功能对表征语音的各类形式的信息进行处置和分析,以对语音进行描述、识别、分类和说明。
不管是初期的孤立词识别系统仍是今世的持续语音和非特定人识别系统,它们的系统大体结构框图都能够用以下图来进行简单描述。
其要紧进程包括语音信号的预处置(端点检测等)、特点提取、成立参考模板库、相似性气宇和识别决策等几个功能模块。
从图中能够看出语音识别系统的本质确实是一种模式识别系统,它也包括特点提取、模式匹配、参考模式库等大体单元。
由于语音信号是一种典型的非平稳信号,加上呼吸气流、外部噪音、电流干扰等使得语音信号不能直接用于提取特点,而要进行前期的预处置。
预处置进程包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。
通过预处置的语音数据就能够够进行特点参数提取。
在训练时期,将特点参数进行必然的处置以后,为每一个词条取得一个模型,保留为模板库。
在识别时期,语音信号通过相同的通道取得语音参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。
后续的处置进程还 1 可能包括更高层次的词法、句法和文法处置等,从而最终将输入的语音信号转变成文本或命令。
语音信号的预处置模块一样包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。
在不同的系统中对各子模块会有不同的要求,如在嵌入式语音识别系统中一样要求有防混叠滤波电路、A/D转换电路和采样滤波电路等,而在运算机上实验时那么可由音频搜集卡完成,无需实验者亲自动手。
2.2硬件组成 在本次实验中,咱们用到的是BJTU-DSP5502实验系统,实验箱内包括BJTU-DSP5502实验板和SEED-XDS510PLUS仿真器和相关配件。
它采纳的语音处置模块是TI公司的TMS320VC5502,其要紧特点包括:
采纳改良的哈佛结构,内部独立总线:
12组;
程序地址总线(PAB):
1组,24位;
程序数据总线(PB):
1组,32位;
数据读地址总线(BAB、CAB、DAB):
3组,24位;
数据读总线(BB、CB、DB):
3组,16位;
数据写地址总线(EAB、FAB):
2组,24位;
数据写总线(EB、FB):
2组,16位。
BJTU-DSP5502实验板要紧包括:
DSP芯片1枚(U1):
TMS320VC5502@300MHz SDRAM1枚(U5):
2M×
32bit(8Mbytes)HY57V643220CT FLASH1枚(U4):
256K×
16bit(512Kbytes)SST39VF400A-70 CPLD1枚(U2):
CY37064VP100 通信接口3个:
仿真器JTAG接口(J1)、连接到PC机USB接口(J4)和UART接口(J2)信号搜集和输出端口:
立体音输入接口line-in(J5,直接接电脑的语音输出端口)/麦克风输入接口(J7)/耳机音频输出接口(J6) 扩展板接口(J9,J10)通信接口3个:
仿真器JTAG接口(J1)、连接到PC机USB接口(J4)和UART接口(J2) 信号搜集和输出端口:
立体音输入接口line-in(J5,直接接电脑的语音输出端口)/麦克风输入接口(J7)/耳机音频输出接口(J6) 扩展板接口(J9,J10) 信号搜集和输出端口:
立体音输入接口line-in(J5,直接接电脑的语音输出端口)/麦克风输入接口(J7)/耳机音频输出接口(J6)。
2 通过AIC23B(A/D、D/A转换器)来提供立体音输入/麦克风输入/耳机音频输出。
AIC23B与DSP的McBSP1相连接。
(McBSP0:
经电平转换后直接给外设扩展总线的XMcBSP0,保留给用户作外部扩展用。
McBSP2:
在BJTU-5502DSP板上有3种用途。
即接口DSP板的COM1(缺省)、ESAM(嵌入式加密模块)和接口外设扩展总线的XMcBSP1。
) 存储空间的具体配置:
flash存储器:
最大512K×
16bit,需占VC5502的半个CEx空间(本板x=1) SDRAM最大2M×
32bit,需占VC5502的2个持续的CEx空间(本板x=2).状态/操纵寄放器5×
8bit,需占VC5502某一CEx的5个存储单元,这些寄放器BJTU-5502DSP板的CPLD中实现,通过EMIF的异步接口进行读写操作(本板x=1)。
UARTB8×
8bit,需占VC5502某一CEx的8个存储单元(本板x=1)。
USB8×
16bit, ______________________________需占VC5502某一CEx的8个存储单元(本板x=1)。
扩展总线:
最大4×
1M×
32bit,分派为 扩展总线的4个XCE3-XCE0。
扩展存储空间需占VC5502的多个CEx空间。
。
2.3语音识别算法软件实现 系统第一进行端点检测,检测的方(转载自:
xiaocaOfaNWen小草范文网:
语音识别实验报告)法是采纳短时能量和短时过零率相结合的方式,若是检测到语音,那么对有效的语音信息进行特点参数的提取,然后读取参考模板数据到片内存储器,对每一个参考模板进行模式匹配,寻觅距离最短的模式作为识别结果。
2.3.1端点检测 端点检测是语音识别系统中相当重要的一步,其算法的好坏在某种程度上也直接决定了整个语音识别系统的成败.作为一个完整的语音识别系统,其最终实现及利用的成效不单单取决于识别的算法,许多相关因素都直接阻碍着应用系统的成功与否。
端点检测的目的确实是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确信语音信号的开始及终止。
好的端点检测方式能改变语音识别软件存在的检测成效不睬想、识别率低等问题。
用短时能量,短时过零率结合的方式,此方式实现简单,在噪声干扰不大的环境中能够取得较好的识别成效,但在实时性上还有提高的空间,采纳动态窗长短时 3 ______________________
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 识别 实验 报告