欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    语音识别实验报告Word格式.docx

    • 资源ID:7338789       资源大小:20.86KB        全文页数:6页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    语音识别实验报告Word格式.docx

    1、1短时能量曲线短时过零率是每帧内信号通过零点的次数,是信号采样点符号的转变次数。1N?1Zn?sgnx(m)?sgnx(m?1);2m?0 “启动”的过零率曲线 在实验室的安静的环境下,依托短时能量和短时过零率就可进行语音信号的起止点判定。当背景噪声较小时,没有语音信号的噪声能量很小,而语音信号的短时能量增大到了必然数值,能够区分语音信号的开始点和终止点。当背景噪声较大时,能够用短时平均过零率和短时能量结合来判定。 基于能量一过零率的端点检测一样利用两级裁决法,在开始进行端点检测之前,第一为短时能量和过零率别离确信两个门限。整个语音信号的端点检测能够分为四段:静音、过渡音、语音段、终止时的静音

    2、段, (1)若是能量或过零率超越了低门限,就应该开始标记起点,进入过渡段。在过渡段中,由于参数的数值比较小,不能确信是不是处于真正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。而若是在过渡段中两个参数中的任一个超过了高门限,就能够够确信进入语音段了,并标记起始点。(2)若是当前状态之前处于语音段,而现在两个参数的数值降低到底门限以下,而且持续时刻大于设定的最长时刻门限,那么就以为语音终止了,返回到参数值降低到底门限以下的时刻,标记终止点。端点检测波形4、 特点提取检测到语音的起点后就能够够开始对检测出来的语音信号段中抽取语音识别所需的信号特点,语音特点参数是分

    3、帧提取的,每帧特点参数一样组成一个矢量,因此语音特点量是一个矢量序列。语音信号中提掏出来的矢量序列通过数据紧缩后便成为语音的模板。目前,有效的特点参数有线形预测编码(LPC)系数,线形预测编码倒谱(LPCC)系数和Mel频率倒谱系数(MFCC),其中比较经常使用的是MFCC。MFCC参数:人耳对不同频率的声波有不同的听觉灵敏度,因此从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器。对输入信号进行滤波,将每一个带通滤波器输出的信号的量作为信号的大体特点,对此特点进行进一步处置后就能够够作为语音识别系统的输入特点。MFCC参数也是按帧计算的,计算通常采纳如下的流程:(1)第一初始

    4、化Mel三角滤波器组,取滤波器的个数是24个,其中心频率依次为28Hz、89Hz、154Hz、224Hz、300Hz、383Hz、472Hz、569Hz、674Hz、787Hz、910Hz、1043Hz、1187Hz、1343Hz、1512Hz、1694Hz、1892Hz、2106Hz、2338Hz、2589Hz、3154Hz、3472Hz、3817Hz。(2)第一对每一帧序列进行离散FFT变换,取模的平方取得离散功率谱。(3)计算功率谱通过24个滤波器后所得的功率值,取得24个参数Pm,对Pm去取对数取得Lm。(4)对Lm进行离散余弦变换, Cn?Lm?124mcos(?(m?0.5)n/2

    5、4)取得MFCC参数,通常取前13个系数作为该语音的特点参数。对每一帧进行MFCC的计算,就取得了一个行数是语音的帧数,列数是13的表征语音特点的矩阵。 五、 矢量量化 在特点提取以后,对矢量序列要进行矢量量化,确实是用假设干离散的数字值(或称为标号)来表示各帧的13维参数矢量。矢量量化进程:将语音信号的(1) 第一对矢量序列进行聚类,依照语音信号的特点矢量聚类取得另一组量化矢量作为码书,每一个矢量成为码字,这组量化矢量长度选择32。(2) 计算特点矢量与每一个码字的失真度,用失真度最小的特点矢量的标号代替该特点矢量,如此将一个矩阵转换为一个矢量。 六、 训练和识别 语音识别进程是依照模式匹配

    6、原那么,计算未知语音模式与语音模板库中的每一个模板的距离测度,从而取得最正确的匹配模式。语音识别所应用的模型匹配方式要紧有动态时刻弯折、隐式马尔可夫模型和人工神经网络。隐马尔科夫模型是用于描述随机进程统计特性的概率模型,在实际问题中,观看者只能看到观看值,而观看值并非与状态一一对应,因此,不能直接看到状态,而只能是通过一个随机进程去感知状态的存在及其特点。因此称之为隐马尔科夫模型(HMM)。在HMM中有5个参数。(1)N:模型中状态数量。记N个状态为?1,?,?N,记t时刻所处状态为qt。(2)M:每一个状态对应的可能的观看值数量。记M个观看值为?1,?,?M,记t时刻观看到的观看值为ot。(

    7、3)?:初始状态概率矢量,?(?N),其中?i?P(q1?i),1?N。(4)A:状态转移概率矩阵,A?(aij)N?N,其中aij?P(qt?j|qt?t)。(5)B:观看值概率矩阵,B?(bij)N?M,其中bij?P(ot?vj|qt?j)。如此,能够记一个HMM为?(N,M,?,A,B)。语音信号本身是一个可观看序列,但它是由大脑中的(不可察序列)、依照言语需要和语法知识(状态选择)所发出的音素(词、句)参数流,因此,能够用HMM模型来描述语音信号。语音识别中的孤立词识别,对每一个孤立词成立一个HMM模型,当输入一个孤立词时,先对它进行特点值的提取,利用矢量量化将矢量序列转换为一组符号

    8、,然后计算这组符号和每一个HMM上的输出概率,概率最值所对应的孤立词确实是识别结果。孤立词的语音识别中要紧解决三个问题:(1)给定观看值序列O?o1,o2,?,oT,(T是语音信号帧的长度)和模型?的情形下,计算给定模型参数时观看值序列的概率P(O|?)。(2)给定观看值序列O?,oT和模型?,选择对应的最优状态序列q?q1,q2,?,qT。该问题将揭露模型的隐含部份,即估量出模型产生观看值序列时可能经历的途径,并选择出概率最大得一条路经。(3)如何调整模型参数?元(AB),使P最大,这是一个训练进程来训练HMM,它能够使模型参数最为理想地适应所观看到的训练数据。 因此在模板训练中要紧解决第三

    9、个问题,对每一个词别离进行训练,取得模型参数,然后对要识别的词在每一个模板下进行问题一的计算,取得最大的概率,将其对应的模板作为结果。 篇二:语音识别系统的开题报告天津理工大学本科毕业设计开题报告 届:XX届 学院:自动化学院 专业:测控技术与仪器 XX 年3月11日 篇三:DSP课程设计语音识别报告DSP课程设计语音识别课题报告 姓名 高鹏于是阳 学号 1221XX12212025学院 电子信息工程学院班级 自动化1202指导教师 钱满义一、设计任务书1.1实验目的把握利用DSP 进行语音信号搜集的方式,利用DSP 对语音信号进行特点提取,从而实现语音信号的识别。学会A/D、D/A 的工作原

    10、理和利用,学会A/D、D/A 转换器的编程方式。以语音信号处置为依托,深切明白得信号的抽样和重建的大体方式,提高学生系统地试探问题和解决实际问题的能力。通过挪用DSP CSL 库对McBSP 接口的编程,学会DSP 片上外设的利用方式。1.2技术指标及设计要求(1)对DMA进行初始化;(2)对A/D、D/A进行初始化;(3)编写DMA中断效劳程序,实现语音信号的实时识别;(4)依照识别系统的类型选择一种识别方式,采纳语音分析方式分析出这种识别方式所要 求的语音特点参数,作为标准模式由机械存储起来,形成标准模式库。(5)对语音进行特点参数的分析,语音信号通过相同的通道取得语音参数,生成测试模板;

    11、(6)将测试模板与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果,从而实现语音的识别。1.3设计思路第一利用DSP对语音信号进行分析,提取语音的特点参数,形成“模板”。语音识别系统对特点参量的提取可采纳FFT算法。语音识别和说话人识别中的LPC倒谱和MEL倒谱,都与语音的频谱包络紧密相关,不同的参数表示不同的频谱包络。识别时,对其进行特点参数的分析,识别参数能够选择平均能量、过零数或平均过零数、频谱、倒谱、线性预测系数,音长,音调,声调等超音段信息函数。最后将语音参数和模板进行比较,从而实现语音的识别。 1 二、实验原理2.1语音识别概述语音技术,包括语音识别、语音合成、关键词检出、说

    12、话人识别与确认、口语对话系统等,是现代人机交互的重要方式之一,具有普遍的应用前景。其中语音识别技术,尤其是持续语音识别技术,是最基础、最重要的部份,而且已经慢慢走向成熟与有效。语音识别(Speech Recognition)是指让机械听懂人说的话,即在各类情形下,准确的识别语音的内容,从而依照其信息,执行人的各类用意或执行特定的任务,其最终目标是实现人与机械进行自然语言通信。利用DSP能够对语音信号进行实时搜集、提取语音特点向量、进行语音识别。语音识别系统对语音特点参量的提取能够采纳FFT等算法,不同的参数表示不同的频谱包络。利用DSP技术来实现语音识别其实确实是要利用DSP处置器壮大的数据处

    13、置功能对表征语音的各类形式的信息进行处置和分析,以对语音进行描述、识别、分类和说明。不管是初期的孤立词识别系统仍是今世的持续语音和非特定人识别系统,它们的系统大体结构框图都能够用以下图来进行简单描述。其要紧进程包括语音信号的预处置(端点检测等)、特点提取、成立参考模板库、相似性气宇和识别决策等几个功能模块。从图中能够看出语音识别系统的本质确实是一种模式识别系统,它也包括特点提取、模式匹配、参考模式库等大体单元。由于语音信号是一种典型的非平稳信号,加上呼吸气流、外部噪音、电流干扰等使得语音信号不能直接用于提取特点,而要进行前期的预处置。预处置进程包括预滤波、采样和量化、分帧、加窗、预加重、端点检

    14、测等。通过预处置的语音数据就能够够进行特点参数提取。在训练时期,将特点参数进行必然的处置以后,为每一个词条取得一个模型,保留为模板库。在识别时期,语音信号通过相同的通道取得语音参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。后续的处置进程还1可能包括更高层次的词法、句法和文法处置等,从而最终将输入的语音信号转变成文本或命令。语音信号的预处置模块一样包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。在不同的系统中对各子模块会有不同的要求,如在嵌入式语音识别系统中一样要求有防混叠滤波电路、A/D转换电路和采样滤波电路等,而在运算机上实验时那么可由音频搜集卡完成,

    15、无需实验者亲自动手。2.2硬件组成在本次实验中,咱们用到的是BJTU-DSP5502实验系统,实验箱内包括BJTU-DSP5502实验板和SEED-XDS510PLUS仿真器和相关配件。它采纳的语音处置模块是TI公司的TMS320VC5502,其要紧特点包括:采纳改良的哈佛结构,内部独立总线:12组;程序地址总线(PAB):1组,24位;程序数据总线(PB):1组,32位;数据读地址总线(BAB、CAB、DAB):3组,24位;数据读总线(BB、CB、DB):3组,16位;数据写地址总线(EAB、FAB):2组,24位;数据写总线(EB、FB):2组,16位。BJTU-DSP5502实验板要紧

    16、包括:DSP芯片1枚(U1):TMS320VC5502300MHzSDRAM 1枚(U5):2M32bit(8Mbytes) HY57V643220CTFLASH 1枚(U4):256K16bit(512Kbytes) SST39VF400A-70CPLD 1枚(U2):CY37064VP100通信接口3个:仿真器JTAG接口(J1)、连接到PC机USB接口(J4)和UART接口(J2) 信号搜集和输出端口:立体音输入接口line-in(J5,直接接电脑的语音输出端口)/麦克风输入接口(J7)/耳机音频输出接口(J6)扩展板接口(J9,J10)通信接口3个:仿真器JTAG接口(J1)、连接到P

    17、C机USB接口(J4)和UART接口(J2)信号搜集和输出端口:立体音输入接口line-in(J5,直接接电脑的语音输出端口)/麦克风输入接口(J7)/耳机音频输出接口(J6)扩展板接口(J9,J10) 信号搜集和输出端口: 立体音输入接口line-in(J5,直接接电脑的语音输出端口)/麦克风输入接口(J7)/耳机音频输出接口(J6)。2通过AIC23B(A/D、D/A转换器)来提供立体音输入/麦克风输入/耳机音频输出。AIC23B与DSP的McBSP1相连接。(McBSP0:经电平转换后直接给外设扩展总线的XMcBSP0,保留给用户作外部扩展用。McBSP2:在BJTU-5502 DSP板

    18、上有3种用途。即接口DSP板的COM1(缺省)、ESAM(嵌入式加密模块)和接口外设扩展总线的XMcBSP1。)存储空间的具体配置:flash存储器:最大512K16bit,需占VC5502的半个CEx空间(本板x=1)SDRAM最大2M32bit,需占VC5502的2个持续的CEx空间(本板x=2).状态操纵寄放器 58bit,需占VC5502某一CEx的5个存储单元,这些寄放器BJTU-5502DSP板的CPLD中实现,通过EMIF的异步接口进行读写操作(本板x=1)。UARTB 88bit,需占VC5502 某一CEx的8个存储单元(本板x=1)。USB 816bit,_需占VC5502

    19、 某一CEx的8个存储单元(本板x=1)。扩展总线: 最大41M32bit,分派为扩展总线的4 个XCE3-XCE0。 扩展存储空间需占VC5502的多个CEx空间。 。 2.3语音识别算法软件实现 系统第一进行端点检测,检测的方(转载自:xiaocaOfaNWen 小草 范 文 网:语音识别实验报告)法是采纳短时能量和短时过零率相结合的方式,若是检测到语音,那么对有效的语音信息进行特点参数的提取,然后读取参考模板数据到片内存储器,对每一个参考模板进行模式匹配,寻觅距离最短的模式作为识别结果。2.3.1端点检测端点检测是语音识别系统中相当重要的一步,其算法的好坏在某种程度上也直接决定了整个语音识别系统的成败作为一个完整的语音识别系统,其最终实现及利用的成效不单单取决于识别的算法,许多相关因素都直接阻碍着应用系统的成功与否。端点检测的目的确实是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确信语音信号的开始及终止。好的端点检测方式能改变语音识别软件存在的检测成效不睬想、识别率低等问题。用短时能量,短时过零率结合的方式,此方式实现简单,在噪声干扰不大的环境中能够取得较好的识别成效,但在实时性上还有提高的空间,采纳动态窗长短时3_


    注意事项

    本文(语音识别实验报告Word格式.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开