一、语音识别技术概述(论文文献综述)
张国明[1](2021)在《基于非线性特性的语音安全和声波通信关键技术研究》文中指出随着物联网技术与人工智能的快速发展,人与设备、设备与设备之间的交互和通信变得越来越普遍和智能。声波作为一种重要的信息载体,已被广泛应用于人机交互(Human–Computer Interaction,HCI)和设备与设备(Device-to-Device,D2D)之间的通信。然而以语音识别系统为代表的智能人机交互技术在带来便捷的同时,也面临着新的安全风险;对于声波通信来说,由于智能设备自身音频接口的特点,如何实现通信过程的无声且高效传输成为声波通信广泛应用的关键。本文针对智能语音设备的安全分析、防护问题以及智能设备间无声高速的声波通信问题,提出了相应的解决方案。1.针对智能语音设备面临的安全问题,本文分析了麦克风电路的硬件特性,并首次发现了电路中存在的非线性作用。基于该硬件漏洞提出并实现了一种无声的攻击方式:“海豚音攻击”(Dolphin Attack)。“海豚音攻击”通过对任意语音命令进行高频调制并利用电路中的非线性作用,可以以无声的方式将语音命令注入麦克风电路中,随后语音信号将被解调和恢复,从而被语音助手识别,最终控制智能设备进行相应的操作,包括无声激活Siri,并在i Phone上发起Face Time通话等。因此,攻击者可以在用户不知道的情况下操纵其智能设备,造成隐私泄露,财产损失等一系列的安全问题。2.针对智能语音助手面临的安全风险,本文提出了“海豚音攻击”安全防护技术,设计并实现了一种轻量级无需增加设备硬件的安全检测方法:Ear Array,它不仅可以对“海豚音攻击”进行检测,还可以确定攻击者的方位。本质上,无声的语音指令是一种频率较高的超声波信号,在空气中传播时,其固有的衰减速度比低频可听的声音衰减更快,特别是在遇到障碍物(智能设备)时,其衍射能力较弱,智能设备周围的超声波声场分布变得不均匀。基于声波传输的物理特性,提出了高频攻击指令和正常语音指令的传播模型并验证了可行性。通过智能设备上内置的多个麦克风对声场不同位置的声音进行捕获,提取与声场分布相关的特征,结合机器学习(Machine Learning,ML)的方法,实现对攻击信号的识别。为了提高Ear Array的性能,本文还首创的提出了一种新型的空间麦克风阵列形式,这也为智能设备生产厂商在设计麦克风阵列时提供建设性的参考建议。最终,本文使用两个自制的麦克风阵列对Ear Array的性能进行验证,实验表明Ear Array对攻击检测的准确度可达99%,定位准确度为97.89%。该方法可以很方便的移植到智能设备上,为语音识别系统的安全提供有力的保障。3.针对智能设备无法同时实现无声且高速率声波通信的问题,本文提出了一种基于非线性作用的声波通信方法。由于无需增加额外的硬件,声波通信已成为智能设备间通信的研究重点并可以服务于多种移动应用,例如移动支付,数据共享等。目前,声波通信的研究集中于如何使用可听频带或不可听(超声波)频带进行通信。前者获利用了比较宽的频带,通信速率比较高,但可以听得到声音,用户体验性差;后者使用超声波频带,虽然听不见,但可用的带宽(20–24k Hz)有限(大多数智能设备音频接口的采样率为48k Hz),因此通信速率较低。为了解决无声和高通信速率无法同时实现的问题,本文从全新的维度提出了一种智能设备间声波通信的方法:Ultra Comm。Ultra Comm采用正交频分复用技术(Orthogonal Frequency Division Multiplexing,OFDM)将传输信息调制到可听的频段(频带范围:0-20k Hz),在发射之前,将该声波信号调制到超声波上以实现高速和无声的通信,在接收端,利用麦克风电路的非线性效应,对接收到的高频信号进行解调,恢复出OFDM信号,然后对此信号进行解码。本文提出并建立了一种基于非线性的声波通信模型,从理论上分析了Ultracomm的最大吞吐量。最后,本文在7种不同的智能设备上实现并验证了Ultra Comm的性能,其通信速率高达16.24kbps,是目前最高通信速率的4倍。
叶良攀[2](2021)在《基于BiLSTM的铁路调度语音识别系统研究》文中指出铁路安全运营对促进经济增长、增进民生福祉、强化国防安全有重要意义。铁路调度是铁路运营的“中枢神经”,而车务调度人员与列车司机、电务、工务等铁路运营生产单位之间的调度通话作业是铁路运营组织过程中的核心组成部分。以往的语音识别研究主要聚焦通用语、日常用语的识别,面向铁路领域的应用研究侧重于引导购票、客运服务等非安全语音内容的识别。但是针对直接影响行车安全和效率的铁路调度语音识别研究很少论及。本文以铁路调度语音为研究对象,在铁路车务虚拟仿真实验平台的培训考核过程中的铁路调度用语语音识别展开深入研究。本文丰富了语音识别在铁路领域的应用研究,为车务人员的培训和考核提供更全面的评价指标,具有一定的现实意义和实用价值。首先,结合现有语音识别技术的工作原理,对铁路调度语音识别的类型、系统框架作了进一步界定与设计。针对语音信号在发声、传递、采集等过程中掺杂环境噪声及冗余信息等问题,利用预处理及特征提取方法对原始语音信号进行处理和分析,将得到的FBank特征和MFCC特征用于铁路调度语音识别系统的输入,为铁路调度声学模型的搭建奠定基础。为了模拟一线车务工作人员间的通话内容,依据车机联控用语标准库,构建以铁路调度通话数据集为主的联合语音数据集。根据铁路调度用语的应用环境,对不同语言模型进行适用性分析和选取。为了解决铁路调度语音在发音、语调上的特殊性和调度用语中词语重要程度不一的问题,对词典标注提出相应的解决方案。其次,为了提升铁路调度语音识别的准确率,搭建合适的声学模型。分别采用高斯混合模型(GMM)和深度神经网络(DNN)构建基于隐马尔可夫模型(HMM)的铁路调度声学模型,以GMM/DNN拟合观测概率分布且将HMM的其他概率参数为训练对象。采用双向长短时记忆神经网络(BiLSTM)并结合链接时序分类(CTC)构建基于循环神经网络的铁路调度声学模型,以链接时序分类CTC为损失函数训练多层BiLSTM。针对以上三个模型完成对比试验,通过词错误率比较,证明基于BiLSTM-CTC的声学模型在铁路调度语音识别领域有突出优势。最后,为了解决铁路车务虚拟仿真实验平台的“调度语音-操作”一致性检查要求,以铁路调度语音识别结果为输入进行识别文本后处理。针对铁路调度用语的关键词特征和位置特征,提出相应的铁路调度语义解决方案,在一定程度上避免实验平台对识别结果的误判,提高实验平台的智能化水平。
李立峰[3](2021)在《基于不同发声习惯的数据增强在电话场景语音识别中的应用研究》文中提出近年来,深度学习技术的快速发展使得语音识别的准确率有了巨大的进步,在多个行业完成了落地,越来越多的语音技术产品进入了人们的生活。智能客服机器人渐渐进入客服岗位,帮助企业降低人工成本,提高工作效率。在语音识别、语义理解、语音合成等人工智能技术的支持下,智能客服机器人能够根据用户问的问题,给予满意的答案。在智能客服机器人常用的电话场景中,用户的发音习惯差异性比较大,这使得通用的语音识别系统无法取得很好地识别准确率。由于自动语音识别系统是由数据驱动的,因此其性能受训练数据的规模和领域覆盖的影响很大。训练数据少、发音习惯差异大等会严重影响识别率。解决这些问题的其中一个方法就是数据增强。本文以电话环境语音识别为切入点,研究了基于不同发声习惯的数据增强方法对语音识别模型在手机信道和电话信道下识别率的影响。主要工作如下:第一,详细介绍了传统语音识别系统的训练过程,包括特征提取、声学模型、语言模型、评价指标等,并使用Kaldi语音识别工具搭建了一个语音识别基线模型。介绍了语音识别模型训练中常用的基于速度扰动的数据增强方法并进行了实验。实验结果表明,基于速度扰动的数据增强方法能够提升模型在手机信道和电话信道下的识别效果。第二,针对基于速度扰动的数据增强方法的实现原理,将其拆分为变速不变调和变调不变速两种数据增强方法,并详细介绍了它们的实现原理。通过实验比较了两种数据增强方法对模型的效果,并提出变速和变调混合的数据增强方法。实验结果表明,变速和变调混合的数据增强方法在手机信道和电话信道下的效果都要优于速度扰动的数据增强方法。第三,针对数据增强训练可能存在的问题,提出将模型参数预训练和数据增强融合的训练方法。本文对多种预训练微调的方法进行了实验。实验结果表明,模型参数预训练和数据增强融合的方法比单纯数据增强获得了更好的效果。
冯晓静[4](2021)在《模糊语音的双模态抗噪特征提取研究》文中研究指明语音识别技术在人工智能的推动下再一次迎来发展的热潮。人们迫切的希望在实际的生活当中,也能与智能机器有更好的交流,让机器听懂人们的语言,按照人们发布的指令正确的完成应答操作。但当下,语音识别技术走出实验室进入生活仍存在一些技术性难题。在没有噪声或者噪声很小的环境中,语音识别系统识别效果良好,会有较高的识别率;但当在背景噪声很大,或者识别环境更复杂的情况下,识别系统的性能就不如实验室安静环境下理想。所以研究复杂环境下语音识别系统的强健抗噪性仍具有重要的意义。汉语普通话当中存在发音机理上相近、听觉上容易混淆并且容易被智能机器识别错误的模糊语音,而语音识别系统的性能很大程度上取决于语音特征参数的选取,所以本文从发音机理和听觉特性两个方面入手,对模糊语音的抗噪特征进行分析研究。1、在课题组的帮助下,利用德国生产的三维电磁发音仪采集发音器官的运动轨迹信息,同时使用专业录音设备,同步录制语音的音频信号,建立了满足研究要求的双模态模糊语音数据集,其中包括语音的音频信号和发音器官运动信号两种模态。以此数据集作为实验样本进行特征提取研究。2、介绍了实验所选的语音识别系统,描述了识别系统操作流程框架,并且重点分析了其中的特征提取和识别分类网络两个关键步骤。接着介绍了四种韵律特征的提取方法,主要包括包括基音频率、短时平均能量、短时平均幅度以及共振峰等。对比分析了包括人工神经网络(Artificial Neural Network,ANN)、随机森林(Random Forest,RF)以及支持向量机(Support Vector Machine,SVM)在内的三种分类识别网络,以及它们各自适用的情况和优缺点,根据自建数据集数据量的大小,决定选用支持向量机作为识别系统的分类网络。3、从声学信息出发,以耳蜗倒谱特征(Cochlear Filter Cepstral Coefficients,CFCC)为基础,结合不同的非线性变换对CFCC进行改进。由于语音信号是一种非平稳时变信号,对比了短时傅里叶变换和小波变换处理非平稳信号的方法,引入S变换来对语音信号进行时频转换,同时借鉴性的运用奇异值分解(SVD)来抑制带宽随机噪声,提取新的声学特征参数(S-Transformation cepstrum features of cochlear filter,ST-CFCC)4、从语音的发音机理出发,分析语音的发音器官运动轨迹,选取舌部以及下颌来提取发音运动特征。同时提出发音倒谱系数(Articulatory Cepstral Coefficients,ACCs)也作为运动特征,它是时间定位发音信号的倒谱系数。对比分析不同运动特征的可行性及分类结果。5、从特征层出发进行声学特征和运动学特征的双模态特征融合研究。联合使用核主成分分析以及线性典型相关分析来完成模态内特征降维和跨模态级的特征融合,对融合后的特征向量设计对比实验,进一步验证了双模态融合特征相较于单模态特征的优势以及融合方法的有效性,提高了语音识别系统的性能。
卜雪儿[5](2021)在《语音识别工具对日汉数字交传影响的实验报告 ——以“讯飞听见”为例》文中研究表明随着计算机辅助翻译的发展,在口译方面衍生出了计算机辅助口译(CAI)。但CAI技术在口译现场的应用较少,相关研究还亟待完善。目前,在英语和俄语方面,有在口译现场使用语音识别工具辅助口译的相关研究,但日语方面还没有相关研究,为弥补日语相关研究的空缺,本实验报告对比了市面上各主流语音识别工具的功能,最终选择以“讯飞听见”为例,探讨语音识别工具对口译的辅助作用。在释意理论中,数字的翻译属于代码转换的过程,不涉及译员过多的理解,可直接将其转换成另一种语言。而语音识别工具机械地将语音转写成文字,虽然能在一定程度上帮助译员的听辨和理解,但并不能取代译员本身的作用,在口译时译员还是得以自身的理解为主。但由于翻译数字不涉及译员过多的理解,因此,与其他内容相比,语音识别工具对数字翻译的辅助作用更大。此外,在实际的口译现场当中,数字翻译十分重要,但数字翻译却又是一大难点,若通过实验能证明语音识别工具对译员数字翻译起到辅助作用,这有助于解决数字翻译这一大难题。结合以上原因,本实验报告选择探讨语音识别工具对日汉数字交传的影响。本实验报告以10名大连外国语大学2019级日语MTI口译专业学生作为实验对象,通过对照实验的方式,探讨语音识别工具对数字翻译准确度、流利性、各数字类型翻译准确度及辅助程度、数字单位、描述性信息翻译准确度以及其他方面的影响。实验结果表明:语音识别工具有助于提高数字翻译、数字单位以及描述性信息翻译准确度,其中,对有效数字多(3位以上)的数字辅助程度最大,但译员的流利性会受到影响。另外,语音识别工具也有助于减轻译员听辨、记数字的负担以及数字翻译的心理压力、辅助译员理解除数字以外的其他内容,但语音识别结果会干扰译员自身的理解。
萨仁高娃[6](2021)在《蒙古语发音词典建设及其语音识别的应用研究》文中认为蒙古文是一种拼音文字,其口语音位和字符之间有对应的关系。传统蒙古文,自创制以后其文字系统本身没有发生质的变化。而蒙古口语本身却发生了很大的变化,即蒙古书面语与口语之间存在差异。这种差异主要体现在长元音和复合元音的书面字符组合及其读音对应关系、书面词末尾的大部分短元音在口语中的脱落、口语中的辅音结合构成复辅音而引起音节数的变化、元音和谐律、附加成分的口语读音与位于其前面的词末尾音节读音之间的变化等。解决这些差异也是蒙古语语音识别的一个难点问题。研制面向语音识别的发音词典是解决上述差异的有效途径。一、蒙古语的发音词典包含书面蒙古语词和其读音标注平行对,用于语音识别和合成等言语工程。依靠语言学家人工构造发音词典是一项费时费力的工作。如何自动构造蒙古语单词读音标注而研制发音词典是本研究的主要部分。研制发音词典时需要解决字素和音素转换(G2P conversion)问题,即从词的书面形式序列对应转换为词的读音音素序列。在低资源的情况下,本研究中提出了基于规则和决策树相结合的研制发音词典的方法。二、为了建立研制发音词典的规则,进一步研究了蒙古文字符与口语音位对应关系、书面语与口语词之间的音节对应关系、蒙古语口语元音和谐律、影响研制发音词典的词汇和词法因素。结合蒙古语口语元音和谐律,重点关注书面相邻两个音节,从前面音节中的元音和辅音读音怎么影响后面音节中的元音字符读音的角度进行研究并列出了规则;针对形成复辅音时可能产生的不同情况即音节中的元音前移、脱落、不脱落也不前移,扩展了原传统语法知识中的前列辅音和后列辅音的二元分析方法,提出了首音节元音、前音节、当前音节、词中和词末等从多个角度研究的多元数据分析方法。三、为了采用决策树算法提出了蒙古语长短元音的特征分类标签、蒙古语扩展的长元音化结构的分类特征向量、非词首音节中的单个元音字符分类特征向量、首音节元音特征向量。其中,提出扩展的长元音化结构的分类特征向量的目的是处理传统语法知识中的长元音和复合元音现象。提出首音节元音特征向量的目的是处理传统语法知识中的词首音节的元音字符的读音变化现象。提出非词首音节中的单个元音字符分类特征向量的目的是处理传统语法知识中的非词首音节的元音字符的读音变化现象。先通过决策树算法分别局部处理了词首音节的元音字符读音变化、长元音和复合元音对应的字符组合的读音、非词首音节中的单个元音字符的读音变化。然后再使用新提出的基于多元数据的规则去处理音节数的变化、复辅音的结合和元音的和谐问题。四、对于带附加成分的词条,根据附加成分读音变化方面的传统语法知识,也总结了规则。具体地,带附加成分的词分两次读音转换,先转换不带附加成分的词和附加成分的读音,然后根据附加成分读音变化规则,连接词的读音和附加成分的读音。五、使用基于规则和决策树相结合的字素和音素转换方法对《蒙汉词典》的26348个词进行比对测试并改进,为发音词典建设提供了自动化程序。目前,通过该字素和音素转换程序针对《蒙汉词典》的26348个词进行比对的结果是21121个词得到了正确的读音转换,词读音转换正确率达到了80.16%。六、参照开源语音识别Kaldi工具包的发音词典的建设要求,对5600个句子的文本进行切词,并使用上一步得到的基于规则和决策树相结合的字素和音素转换程序,得到了10415个词的书写与读音标注平行对;然后在开源语音识别Kaldi工具环境下,搭建了语音识别系统。其中语言模型采用SRILM工具包构建了语言模型,声学模型分别使用了子空间高斯混合模型SGMM-HMM和DNNHMM声学模型并做了对比试验。试验结果表明在低资源的情况下,子空间高斯混合模型SGMM-HMM声学模型优于DNN-HMM声学模型。
张兴明[7](2021)在《基于深度学习的说话人识别研究与应用》文中指出在基于生物特征识别的身份核验系统中,说话人识别技术相较于其他生物特征识别技术具有很多优势。由于实际使用中的身份核验系统对识别准确率、系统鲁棒性有着极高的要求,而目前说话人识别技术水平还很难满足系统的这些性能需求,因此该技术仍处在技术研究阶段,并未大规模在实际场景中应用。为提升模型的识别性能和模型的鲁棒性,本文对说话人识别中的关键技术:语音特征提取、损失函数与识别模型结构三个方面进行了相应研究。本文主要工作内容和创新点如下:1、针对单特征存在的信息种类单一、信息量少的问题,提出一种有效的语音特征融合方案。语谱图特征参数相对MFCC和Filter Bank特征参数,其特征提取过程中计算步骤较少,保留的语音原始信息更多,这类特征更适合在深度学习中使用。本文研究了以语谱图为主要特征,以MFCC或Filter Bank为辅助特征的多种浅层特征融合方案,并最终找到了一种效果最优的融合特征。通过在基于卷积神经网络和基于循环神经网络的识别模型上的多组对比实验,验证了该方案的有效性和效果。2、针对GE2E损失函数中说话人中心向量计算方式存在的不足,提出一种基于说话人全局中心的端到端损失函数。对常用的Softmax、Triplet、GE2E损失函数进行比较和实验,证实了GE2E是一种性能优异的损失函数。但GE2E中的说话人中心向量是一个局部值,该值与真实的说话人中心向量之间存在较大误差,于是提出基于说话人全局中心的端到端损失函数GC_GE2E。通过说话人确认测试与说话人辨认测试,证明了GC_GE2E对说话人识别有效,且GC_GE2E的性能优于GE2E。3、基于本文提出的语音特征融合方案和损失函数,构建了基于多尺度卷积残差神经网络的说话人识别模型,该模型考虑到实际的基于说话人识别的身份核验系统对识别性能、系统鲁棒性等方面的要求,采用了卷积神经网络与多尺度残差网络等技术。多组对比实验结果表明,该模型具有较好的识别性能;跨数据集与跨语言的实验结果,验证了该模型的鲁棒性。4、设计并实现基于说话人识别的身份核验与识别应用系统,该系统基于本文上述研究成果,并结合语音识别技术共同构建。该系统可以实现说话人语音识别与动态口令验证,能够有效预防假冒闯入攻击;该系统提供了声纹注册、身份核验和身份识别功能,具有较好的应用价值。
易健[8](2021)在《基于Julius语音识别技术的的车辆检修管理系统设计》文中进行了进一步梳理2019年我国的汽车保有量总量达到2.6亿辆,全球汽车保有量也连年突破新高,汽车检修市场日益增大。而在传统车辆检修行业的检修流程中,存在纸质检修单污染、容易错检漏检、检修流程复杂、检修效率低下等问题。为了解决上述问题,结合语音识别技术设计了一款车辆检修管理系统,实现了检修流程的无纸化、电子化,降低了检修成本,简化了检修流程,提高了检修效率。车辆检修管理系统基于C/S客户端服务器模型架构,基于WPF框架、Julius语音识别引擎、微软语音合成API、Spring Boot开发框架和Tomcat服务器等技术完成了车辆检修管理系统的客户端和服务器端,在客户端完成车辆检修流程控制,在服务器端完成车辆检修结果存储。在实现车辆检修管理系统的基础上,对系统的语音识别性能进行了优化研究,最终通过利用DNN训练声学模型解决数字识别困难的问题,利用字典分割隔离不同检修类型项目的识别结果和增加语音反馈提高单次检修任务识别率的方式,使系统的语音识别性能达到较高的范围,提升了系统的可用性。在训练DNN模型的过程中,发现一种利用关键音素减少日语数字训练集的方法。通过组合关键音素,利用一百三十七个数字覆盖了零到九十九这一万个数字的因素组合情况,大幅减少训练DNN模型时需要的训练集大小。测试表明,最终实现的车辆检修管理系统具有较高的语音识别率,较好的使用体验,能够帮助简化车辆检修流程、提升检修效率、促进无纸化车辆检修。
梁仁凤[9](2021)在《基于多粒度纠错的越南语语音识别方法研究》文中进行了进一步梳理语音识别技术是人机交互应用的基础,在机器翻译机、人机对话问答系统和智能会议实时字幕等系统上具有重要的应用价值。目前,越南语的语音识别研究工作相对较少,主要使用英语、法语等主流语言的基于深度神经网络隐马尔可夫的传统混合模型,近期,基于序列到序列的方法逐渐成为学术界的研究热点。然而,不同于主流语言,越南语是一种稀缺资源,面临语音训练语料库稀缺的问题,难以在当前需要大规模训练语料的语音识别模型上取地很好的效果,其次,越南语是一种单音节声调语言,最小结构单元是音节,在语音识别模型中,一般采用音节、音素作为越南语的识别单元,由于对越南语音节划分界限的定义模糊,使得这些识别单元存在不合理的问题。最后,越南语的每个音节具有6个声调,不同声调代表不同的意思,从而使得越南语词、实体组合方式复杂多样,具有不同声调的相同词、实体其语音发音相似,当前的声学模型缺乏对语音内容的理解,存在难以区分越南语词、实体多粒度相似发音的问题,使越南语的语音识别效果不佳。针对以上问题,论文主要完成了以下研究工作:(1)基于多粒度纠错的越南语语音识别训练语料库构建针对越南语语音训练语料库稀缺的问题,首先,分析越南语语音和文体数据获取的策略,利用爬虫技术从互联网上获取一部分语音-文本平行语料相和相对较多的越南语文本单语数据,语音-文本平行语料经过去重、提取音轨、切割存储等预处理操作后存储到数据库,目的是得到带有噪音环境的真实语音,越南语文本单语数据经过去重、去噪等预处理后得到干净的单语文本数据,目的是为后续扩充语料做准备。其次,在安静的环境下,我们采用录音设备人工录音一部分越南语语音,目的是得到干净的真实语音。最后,我们采用语音合成技术将干净的越南语文本合成与之相对应的语音,得到语音-文本平行语料,目的是扩充越南语语音训练语料库。实验结果表明,通过网络爬取、人工录音和语音合成技术构建的语音训练语料库能够满足语音识别模型在真实应用场景下对训练语料库的基本需求。(2)基于子音节的越南语语音识别方法针对越南语识别单元划分不合理的问题,分析越南语特点,引入越南语的音素、字母、音节、子音节和词五种多粒度建模单元探索,提出一种基于子音节的划分越南语的方法。为后续语音识别多粒度检错纠错研究工作找到最适合的识别单元。首先根据越南语的组成单位元音、辅音和六个声调构建72个字母字典,然后根据字母字典对训练文本数据拆分为辅音、音调集两部分较小的子音节单元进行建模。最后,实验结果表明,相比基线模型,提出方法的识别效果更优。(3)基于多粒度纠错的越南语语音识别方法针对当前模型难以区分越南语相似发音序列问题,提出一种基于多粒度纠错的越南语语音识别方法。目的是对越南语语音识别结果进行词、实体识别错误检测并对识别错误的词、实体纠正,使得最终的模型输出结果符合语音的表达内容,提升模型的语义表达能力。在基于(1)的构建的语音训练语料库上训练语音识别模型,根据识别结果标注词、实体识别错误的多粒度平行语料,然后采用(2)中的基于子音节的建模单元对训练语料的文本数据建模,训练时融入多粒度进行解码。实验结果表明,对语音识别结果检测多粒度错误并融入多粒度纠错明显提高了语音识别模型对句子的语义表达能力。(4)基于多粒度纠错的越南语语音识别原型系统基于上述相关理论研究,搭建了基于多粒度纠错的越南语语音识别原型系统。该系统主要针对越南语的语音识别,系统的功能模块包括越南语语音的输入、越南语语音转写、输出功能以及将训练好的语音识别模型部署应用等。
刘琼[10](2020)在《基于嵌入式微处理器的人机语音交互系统的设计与研究》文中研究表明语音识别技术通过近些年的发展已经日趋成熟,从某种意义上来讲,可以说是完全实现“人工智能”的“奠基石”。当今基于嵌入式的语音识别系统是在微处理器平台(如芯片)的基础上,通过对语音库中的语音进行训练生成训练模型,将待测语音与之进行模式匹配,从而完成非特定人的语音识别。虽然目前对于语音识别技术的研究已经从实验室逐渐实用化,但在实际应用中会受到诸多客观因素的影响例如背景噪音,造成识别精度的降低,用户体验很不友好。本文以嵌入式微处理器为核心,设计实现可应用于自动售货机的语音控制系统。本文先简要说明了语音信号预处理的过程,并采用双门限判定方法进行端点检测。然后提出小波+MFCC的特征提取算法,用小波变换替代傅里叶变换,弥补了傅里叶变换窗口大小不能随频率变换的缺点。随后,利用DTW算法能有效处理语音的时变特性与组合多项式核函数相结合,得到PDTW-SVM算法,不仅兼具局部插值能力与全局泛化能力,还能解决语音信号的时变特性与传统的等长向量的SVM核函数之间矛盾的问题。最后,将PDTW-SVM算法移植到LD3320平台上,并根据实际应用场景增加基于CX20921的回声降噪电路,提高系统的抗噪性和稳定性。本文分别对语音识别系统做仿真及硬件测试,实验结果表明,该系统仿真识别率最高可达96.49%,实测识别率可达92.17%,具有较高的实用价值。
二、语音识别技术概述(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、语音识别技术概述(论文提纲范文)
(1)基于非线性特性的语音安全和声波通信关键技术研究(论文提纲范文)
致谢 |
摘要 |
Abstract |
第一章 绪论 |
1.1 课题背景及研究意义 |
1.1.1 语音识别系统安全分析和防护 |
1.1.2 声波通信 |
1.2 国内外研究现状 |
1.2.1 智能语音识别系统安全分析与防护研究现状 |
1.2.2 智能终端设备声波通信研究现状 |
1.3 研究内容 |
1.3.1 语音识别系统安全分析 |
1.3.2 语音识别系统安全防护 |
1.3.3 基于非线性作用的声波通信 |
1.3.4 论文组织结构 |
第二章 语音识别系统安全分析 |
2.1 引言 |
2.2 语音识别系统相关系统 |
2.2.1 语音助手 |
2.2.2 麦克风 |
2.2.3 人类听觉范围 |
2.2.4 威胁模型 |
2.3 “海豚音攻击”设计 |
2.3.1 语音指令生成 |
2.3.2 语音指令调制 |
2.3.3 攻击设备 |
2.4 攻击的可行性验证 |
2.4.1 语音助手及设备的选择 |
2.4.2 实验设置 |
2.4.3 实验结果 |
2.5 实验验证与评估 |
2.5.1 不同语言对攻击成功率的影响 |
2.5.2 背景噪声的影响 |
2.5.3 语音指令的声压水平的影响 |
2.5.4 攻击距离的影响 |
2.5.5 使用智能手机作为攻击设备 |
2.5.6 便携式攻击设备 |
2.5.7 使用传统扬声器的可行性验证 |
2.6 远距离攻击 |
2.6.1 使用超声换能器阵列进行远距离攻击 |
2.6.2 有声和无声的临界点 |
2.7 本章小结 |
第三章 语音识别系统安全防护技术 |
3.1 引言 |
3.2 声学基础知识 |
3.2.1 “海豚音攻击”信号的形态变化 |
3.2.2 语音信号的特点 |
3.2.3 声波的衰减 |
3.2.4 智能设备的麦克风阵列 |
3.3 声学衰减模型 |
3.3.1 理论分析 |
3.3.2 声场仿真 |
3.3.3 声场验证 |
3.3.4 声学衰减验证 |
3.4 防御方案设计 |
3.4.1 系统概述 |
3.4.2 音频信号预处理 |
3.4.3 特征提取 |
3.4.4 攻击检测和定位 |
3.5 实验验证与性能分析 |
3.5.1 原型实现 |
3.5.2 实验设置 |
3.5.3 整体性能 |
3.5.4 距离的影响 |
3.5.5 角度的影响 |
3.5.6 载波频率的影响 |
3.5.7 环境噪声的影响 |
3.5.8 不同语音指令的影响 |
3.5.9 几种规避策略的影响 |
3.5.10 窗口时间和样本重叠时间对检测准确度的影响 |
3.5.11 声压的影响 |
3.5.12 带三个麦克风的智能手机 |
3.6 问题讨论以及未来工作 |
3.6.1 智能手机 |
3.6.2 智能音箱 |
3.6.3 基于硬件的防御 |
3.7 本章小结 |
第四章 基于非线性特性的智能设备声波通信 |
4.1 引言 |
4.2 非线性声学 |
4.2.1 麦克风电路 |
4.2.2 非线性作用的原理 |
4.3 声波通信系统模型 |
4.3.1 无声通信的通信速率 |
4.3.2 Ultra Comm的通信速率。 |
4.4 基于非线性作用的声波通信技术 |
4.4.1 初始化过程 |
4.4.2 数据帧结构设计 |
4.4.3 数据帧设计 |
4.4.4 OFDM信号调制 |
4.4.5 接收器设计 |
4.5 实验验证与性能评估 |
4.5.1 实验设置 |
4.5.2 性能测试 |
4.5.3 性能评估 |
4.6 Ultra Comm的局限性 |
4.7 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 研究展望 |
参考文献 |
攻读博士期间主要研究成果及参与的科研项目 |
(2)基于BiLSTM的铁路调度语音识别系统研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 选题背景及意义 |
1.2 语音识别概述 |
1.3 语音识别发展概况 |
1.3.1 语音识别研究历史与现状 |
1.3.2 轨道交通领域的语音识别研究现状 |
1.3.3 研究现状的不足 |
1.4 铁路调度通话 |
1.5 铁路调度语音识别在铁路仿真实训领域的应用 |
1.5.1 现有车务仿真培训系统及存在问题 |
1.5.2 铁路车务虚拟仿真实验平台 |
1.6 研究内容与论文结构 |
2 铁路调度语音识别相关理论 |
2.1 铁路调度语音识别基本原理 |
2.2 铁路调度语音信号分析 |
2.3 铁路调度语音信号特征提取 |
2.3.1 语音信号预处理 |
2.3.2 语音信号特征提取 |
2.4 联合数据集 |
2.4.1 数据集的采样和量化 |
2.4.2 数据集的构建 |
2.5 声学模型 |
2.6 语言模型 |
2.7 词典 |
2.8 本章小结 |
3 铁路调度通话声学模型搭建 |
3.1 铁路调度通话GMM-HMM和DNN-HMM声学模型 |
3.1.1 HMM基本概念 |
3.1.2 GMM与DNN的比较 |
3.1.3 GMM-HMM和DNN-HMM声学模型结构 |
3.2 铁路调度通话BiLSTM-CTC声学模型 |
3.2.1 双向长短时记忆网络 |
3.2.2 链接时序分类 |
3.2.3 BiLSTM-CTC声学模型结构 |
3.3 实验测试与结果分析 |
3.3.1 GMM-HMM和DNN-HMM声学建模实验 |
3.3.2 BiLSTM-CTC声学建模实验 |
3.3.3 实验对比分析 |
3.4 本章小结 |
4 铁路调度语义理解方法设计与实现 |
4.1 “调度语音-操作”一致性检查 |
4.2 铁路调度语义特征 |
4.3 铁路调度语义理解方法与实现 |
4.3.1 关键词特征处理 |
4.3.2 位置特征处理 |
4.4 本章小结 |
结论 |
致谢 |
参考文献 |
攻读学位期间的研究成果 |
(3)基于不同发声习惯的数据增强在电话场景语音识别中的应用研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究概况 |
1.2.1 基于速度扰动的数据增强方法 |
1.2.2 基于声道长度扰动的数据增强方法 |
1.2.3 基于对数梅尔频谱图修改的数据增强方法 |
1.3 论文的主要工作 |
1.4 论文组织结构 |
2 语音识别系统概述 |
2.1 语音识别基本理论 |
2.2 常用的语音信号特征 |
2.3 将声学模型用于语音识别 |
2.3.1 基于GMM-HMM的声学模型 |
2.3.2 基于DNN-HMM的声学模型 |
2.4 语言模型 |
2.5 语音识别系统的评价指标 |
2.6 本章小结 |
3 基于重采样变速的数据增强方法 |
3.1 引言 |
3.2 基于重采样的变速 |
3.3 实验与分析 |
3.3.1 实验平台 |
3.3.2 实验数据 |
3.3.3 实验设计 |
3.3.4 数据准备 |
3.3.5 GMM-HMM模型训练 |
3.3.6 DNN-HMM模型训练 |
3.3.7 语言模型训练 |
3.3.8 实验结果 |
3.4 本章小结 |
4 基于SOLA变速与变调的数据增强方法 |
4.1 引言 |
4.2 基于SOLA的变速不变调方法 |
4.2.1 重叠相加算法 |
4.2.2 同步重叠相加算法 |
4.3 基于SOLA的变调不变速方法 |
4.3.1 语音变调的基本原理 |
4.3.2 基于SOLA的变调方法 |
4.4 实验与分析 |
4.4.1 实验设计 |
4.4.2 数据准备 |
4.4.3 实验结果 |
4.5 本章小结 |
5 模型参数预训练与数据增强融合的语音识别训练方法 |
5.1 引言 |
5.2 基于模型参数预训练的数据增强训练 |
5.3 实验与分析 |
5.3.1 实验设计 |
5.3.2 数据准备 |
5.3.3 预训练模型微调训练 |
5.3.4 实验结果 |
5.4 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
作者简历 |
致谢 |
(4)模糊语音的双模态抗噪特征提取研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 研究现状 |
1.2.1 语音识别技术的发展 |
1.2.2 语音特征参数的研究现状 |
1.2.3 多模态融合研究 |
1.3 语音识别存在的问题 |
1.4 研究内容与论文安排 |
1.4.1 主要研究内容 |
1.4.2 论文结构安排 |
第2章 数据集与语音识别原理概述 |
2.1 双模态模糊语音数据集的建立 |
2.1.1 文本筛选与说话者选择 |
2.1.2 语音数据的采集与存储 |
2.1.3 数据后处理 |
2.1.4 音频数据加噪 |
2.2 语音识别原理概述 |
2.2.1 特征参数 |
2.2.2 分类识别网络 |
2.3 本章小结 |
第3章 语音信号的声学特征分析 |
3.1 小波变换 |
3.2 声学特征提取 |
3.2.1 MFCC的提取过程 |
3.2.2 PNCC提取过程 |
3.2.3 CFCC提取过程 |
3.2.4 数据与识别网络选择 |
3.2.5 评价标准 |
3.2.6 结果分析 |
3.3 耳蜗倒谱系数特征的改进 |
3.3.1 基于非线性变换的新特征 |
3.3.2 实验结果与分析 |
3.4 S变换的耳蜗倒谱特征参数 |
3.4.1 S变换基本原理 |
3.4.2 实验结果与分析 |
3.5 本章小结 |
第4章 发音运动特征提取研究 |
4.1 发音运动特征 |
4.1.1 舌尖运动结果与分析 |
4.1.2 运动特征的识别分类结果 |
4.2 发音倒谱特征 |
4.2.1 发音倒谱特征提取方法 |
4.2.2 发音倒谱特征的识别分类结果 |
4.3 本章小结 |
第5章 语音信号双模态特征融合的分析研究 |
5.1 核主成分分析 |
5.2 线性典型相关分析 |
5.3 实验结果分析 |
5.3.1 声学特征核主成分分析 |
5.3.2 运动学特征核主成分分析 |
5.3.3 双模态特征融合 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
学位期间取得的研究成果 |
致谢 |
(5)语音识别工具对日汉数字交传影响的实验报告 ——以“讯飞听见”为例(论文提纲范文)
摘要 |
要旨 |
第1章 引言 |
1.1 研究背景 |
1.2 研究意义 |
1.3 研究现状 |
1.3.1 语音识别工具对译员整体口译表现影响的相关研究 |
1.3.2 语音识别工具对译员口译个别方面影响的相关研究 |
1.4 数字口译特点 |
1.5 论文结构 |
第2章 实验设计 |
2.1 实验准备 |
2.1.1 实验对象的筛选 |
2.1.2 语音识别软件的选择 |
2.1.3 实验口译素材的选择 |
2.2 实验描述 |
2.2.1 实验假设 |
2.2.2 实验目的 |
2.2.3 实验过程 |
第3章 实验数据分析及结果 |
3.1 语音识别工具对数字翻译准确度的影响 |
3.2 语音识别工具对各数字类型翻译准确度及辅助程度的影响 |
3.3 语音识别工具对数字单位及其描述性信息翻译准确度的影响 |
3.4 语音识别工具对数字翻译流利性的影响 |
3.5 语音识别工具对其他方面的影响 |
第4章 研究结论 |
4.1 实验结论 |
4.2 不足及展望 |
参考文献 |
附录1 语音识别文本 |
附录2 实验对象翻译文字化 |
攻读学位期间本人出版或公开发表的译着、论文以及从事的口笔译实践活动 |
致谢 |
(6)蒙古语发音词典建设及其语音识别的应用研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题的研究背景和意义 |
1.2 蒙古语字素和音素转换与相关技术的国内外发展现状 |
1.3 本课题的研究内容及组织结构 |
第二章 蒙古书面语与口语词之间语音对应关系 |
2.1 蒙古文字符与口语音位对应关系 |
2.1.1 短元音 |
2.1.2 长元音 |
2.1.3 复合元音 |
2.1.4 借词元音 |
2.1.5 辅音 |
2.1.6 本课题研究借助的符号系统 |
2.2 书面语与口语词之间音节对应关系 |
2.2.1 音节概述 |
2.2.2 书面语与口语词之间音节对应关系 |
2.2.3 从分类角度研究书面语与口语词之间音节对应关系 |
2.3 蒙古语口语元音和谐律 |
2.3.1 蒙古语口语的元音和谐律概述 |
2.3.2 书面词非第一音节的短元音《??(i)》的元音和谐律 |
2.3.3 书面词非第一音节的其它元音(除《? (i)》外)的元音和谐律 |
2.4 本章小结 |
第三章 蒙古语发音词典建设研究 |
3.1 蒙古语字素和音素转换与发音词典建设总体设计思路 |
3.2 基于规则和决策树相结合的发音词典建设设计 |
3.2.1 决策树算法与监督式分类介绍 |
3.2.2 蒙古语长短元音的特征分类标签简介 |
3.2.3 现代蒙古语书面语长元音化结构的特征化处理 |
3.2.4 现代书面蒙古语词首音节元音分类的特征化处理 |
3.2.5 非词首音节中的单个元音字符分类的特征化处理 |
3.2.6 基于规则和决策树相结合的字素和音素转换 |
3.3 本章小结 |
第四章 蒙古语词法与词汇对发音词典建设的影响 |
4.1 蒙古语词汇对发音词典建设的影响 |
4.2 蒙古语词法对发音词典建设的影响 |
4.3 辅音知识对发音词典建设的影响 |
第五章 发音词典在蒙古语语音识别上的应用 |
5.1 语音识别技术及蒙古语发音词典在语音识别上的应用介绍 |
5.2 基于kaldi的语音识别 |
5.2.1 语音识别kaldi工具的介绍 |
5.2.2 隐马尔科夫模型(HMM) |
5.2.3 子空间高斯混合模型SGMM声学模型 |
5.2.4 DNN-HMM声学模型 |
5.2.5 N-gram语言模型 |
5.2.6 基于WFST的解码器 |
5.2.7 性能评价指标 |
5.3 实验数据准备与分析 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 1 书面蒙古语扩展的长元音化结构的分类特征向量举例 |
附录 2 非词首音节中的单个元音字符分类特征向量举例 |
附录 3 首音节元音字符特征向量举例 |
附录 4 开源语音识别工具 kaldi 环境使用的蒙古语发音词典举例 |
附录 5 |
致谢 |
(7)基于深度学习的说话人识别研究与应用(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 选题背景及意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 说话人识别研究现状分析 |
1.2.1 传统的说话人识别研究历史 |
1.2.2 基于深度学习的说话人识别研究现状 |
1.3 论文主要工作 |
1.4 论文组织结构 |
第2章 说话人识别相关技术概述 |
2.1 说话人识别概述 |
2.1.1 说话人识别分类 |
2.1.2 说话人识别原理 |
2.1.3 说话人识别系统框架 |
2.2 说话人识别性能评价指标 |
2.2.1 识别准确率与F1值 |
2.2.2 检测错误权衡曲线与等错误率 |
2.2.3 最小检测损失 |
2.2.4 Top-N正确率 |
2.3 语音特征参数 |
2.3.1 梅尔频率倒谱系数 |
2.3.2 滤波器组系数 |
2.3.3 语谱图特征参数 |
2.4 深度学习技术 |
2.4.1 卷积神经网络 |
2.4.2 循环神经网络 |
2.5 本章小结 |
第3章 基于多特征融合的语音特征提取方式研究 |
3.1 引言 |
3.2 多特征融合方案 |
3.2.1 多特征融合 |
3.2.2 特征参数设计 |
3.2.3 特征提取流程 |
3.3 基于卷积神经网络的验证实验 |
3.3.1 实验数据 |
3.3.2 实验设计 |
3.3.3 说话人确认测试 |
3.3.4 说话人辨认测试 |
3.3.5 说话人特征可视化 |
3.3.6 实验总结 |
3.4 基于循环神经网络的验证实验 |
3.4.1 实验设计 |
3.4.2 说话人确认测试 |
3.4.3 说话人辨认测试 |
3.4.4 说话人特征可视化 |
3.4.5 实验总结 |
3.5 本章小结 |
第4章 基于说话人全局中心的端到端损失函数 |
4.1 引言 |
4.2 说话人识别任务中常用的损失函数 |
4.2.1 交叉熵损失函数 |
4.2.2 三元组损失函数 |
4.2.3 端到端损失函数 |
4.3 常用损失函数性能对比实验 |
4.3.1 实验设计 |
4.3.2 说话人确认测试 |
4.3.3 说话人辨认测试 |
4.3.4 说话人特征可视化 |
4.3.5 模型收敛性分析 |
4.3.6 实验总结 |
4.4 全局中心端到端损失函数 |
4.4.1 说话人的全局中心向量 |
4.4.2 GC_GE2E的使用方式 |
4.5 GC_GE2E中超参数取值研究实验 |
4.5.1 实验设计 |
4.5.2 中心向量更新系数α取值研究 |
4.5.3 联合训练损失权重λ取值研究 |
4.5.4 实验总结 |
4.6 GC_GE2E损失函数有效性验证实验 |
4.6.1 实验设计 |
4.6.2 实验数据 |
4.6.3 说话人确认测试 |
4.6.4 说话人辨认测试 |
4.6.5 实验总结 |
4.7 本章小结 |
第5章 基于多尺度卷积残差网络的说话人识别算法 |
5.1 引言 |
5.2 说话人识别模型构建 |
5.2.1 多尺度卷积残差模块 |
5.2.2 说话人识别网络模型 |
5.3 说话人识别模型有效性验证实验 |
5.3.1 实验数据 |
5.3.2 基线模型 |
5.3.3 实验设计 |
5.3.4 说话人确认测试 |
5.3.5 说话人辨认测试 |
5.3.6 特征可视化分析 |
5.4 说话人识别模型鲁棒性验证实验 |
5.4.1 实验数据 |
5.4.2 实验设计 |
5.4.3 实验结果分析 |
5.5 本章小结 |
第6章 基于说话人识别的身份核验与识别系统 |
6.1 系统设计 |
6.1.1 系统架构设计 |
6.1.2 系统流程设计 |
6.1.3 系统功能设计 |
6.2 系统实现 |
6.3 系统运行结果展示 |
6.3.1 声纹注册功能展示 |
6.3.2 身份核验功能展示 |
6.3.3 身份识别功能展示 |
6.4 本章小结 |
第7章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
(8)基于Julius语音识别技术的的车辆检修管理系统设计(论文提纲范文)
致谢 |
摘要 |
Abstract |
1 绪论 |
1.1 课题背景和意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究发展状况 |
1.3 课题研究内容 |
1.4 论文组织结构 |
2 系统设计 |
2.1 系统架构设计 |
2.2 客户端模块设计 |
2.2.1 界面设计 |
2.2.2 网络请求管理模块设计 |
2.2.3 耳麦连接状态管理模块设计 |
2.2.4 车辆检修流程管理模块设计 |
2.2.5 语音识别模块设计 |
2.3 服务器端模块设计 |
2.3.1 语音合成模块设计 |
2.3.2 数据库模块设计 |
2.3.3 接口模块设计 |
2.4 本章小结 |
3 系统实现 |
3.1 客户端实现 |
3.1.1 界面实现 |
3.1.2 网络请求管理模块实现 |
3.1.3 耳麦连接状态管理模块实现 |
3.1.4 车辆检修流程管理模块实现 |
3.1.5 语音识别模块实现 |
3.2 服务器端实现 |
3.3 本章小结 |
4 系统语音识别性能优化 |
4.1 系统语音识别问题分析 |
4.2 系统语音识别性能优化方案概述 |
4.3 利用关键音素降低训练量 |
4.4 DNN训练声学模型 |
4.5 字典分割 |
4.6 增加语音反馈 |
4.7 本章小结 |
5 系统测试 |
5.1 测试环境 |
5.2 功能测试 |
5.3 性能测试 |
5.3.1 系统操作延时测试 |
5.3.2 系统语音识别性能测试 |
5.4 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
作者简历 |
(9)基于多粒度纠错的越南语语音识别方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 基于模型建模单元的方法 |
1.2.2 基于语言模型建模的方法 |
1.3 面临的关键问题 |
1.4 论文的研究内容 |
1.5 论文的组织 |
第二章 基于多粒度纠错的越南语语音识别语料库构建 |
2.1 引言 |
2.2 基于多粒度纠错的越南语语音识别训练语料库获取 |
2.2.1 基于网络爬取构建的方法 |
2.2.2 基于人工录音的构建方法 |
2.2.3 基于语音合成构建的方法 |
2.3 本章小结 |
第三章 基于子音节的越南语语音识别方法 |
3.1 引言 |
3.2 相关技术 |
3.3 基于子音节的越南语语音识别方法 |
3.3.1 子音节获取方法 |
3.3.2 基于子音节的编码方法 |
3.3.3 基于子音节的解码方法 |
3.4 实验结果与分析 |
3.4.1 数据集 |
3.4.2 评价标准 |
3.4.3 实验参数设置 |
3.4.4 模型单元 |
3.4.5 基准模型 |
3.4.6 实验结果分析 |
3.5 本章小结 |
第四章 基于多粒度纠错的越南语语音识别方法 |
4.1 引言 |
4.2 相关技术 |
4.3 基于多粒度纠错的越南语语音识别方法 |
4.3.1 检测网络多分类方法 |
4.3.2 融合多粒度解码纠错的方法 |
4.3.3 基于多粒度检错纠错的语音识别方法 |
4.4 实验 |
4.4.1 数据集 |
4.4.2 评价标准 |
4.4.3 参数设置 |
4.4.4 基准模型 |
4.4.5 实验结果及分析 |
4.5 本章小结 |
第五章 基于多粒度纠错的越南语语音识别原型系统实现 |
5.1 引言 |
5.2 系统架构与设计 |
5.3 系统功能模块及实现 |
5.4 语音识别 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 下一步工作 |
致谢 |
参考文献 |
附录A 攻读硕士学位期间发表论文 |
附录B 攻读硕士学位期间专利成果 |
附录C 攻读硕士学位期间参与项目 |
(10)基于嵌入式微处理器的人机语音交互系统的设计与研究(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外发展现状分析 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 语音识别技术面临的主要问题 |
1.4 本文的研究内容和意义 |
1.5 论文的结构安排 |
第二章 语音识别预处理及端点检测 |
2.1 系统概述 |
2.2 语音识别预处理 |
2.2.1 语音信号的采样和量化 |
2.2.2 预加重 |
2.2.3 加窗和分帧 |
2.3 语音识别端点检测和语音分割 |
2.3.1 短时能量分析 |
2.3.2 短时平均过零率 |
2.3.3 双门限比较法 |
2.4 本章小结 |
第三章 语音特征提取算法的设计与优化 |
3.1 梅尔频率倒谱系数 |
3.2 基于小波变换的MFCC算法优化 |
3.2.1 小波变换 |
3.2.2 小波变换与MFCC算法的结合 |
3.2.3 实验结果及分析 |
3.3 本章小结 |
第四章 语音模式匹配算法的设计与优化 |
4.1 支持向量机分类原理 |
4.1.1 最优分类面 |
4.1.2 线性支持向量机 |
4.1.3 近似线性支持向量机 |
4.1.4 非线性支持向量机 |
4.1.5 多项式SVM核函数的优化 |
4.2 动态时间归正的识别技术 |
4.2.1 DTW基本原理 |
4.2.2 DTW与 SVM算法的结合(DTW-SVM) |
4.2.3 实验结果与分析 |
4.3 本章小结 |
第五章 嵌入式平台下语音识别系统的设计与实现 |
5.1 嵌入式平台概述 |
5.2 硬件电路设计 |
5.2.1 LD3320的通讯方式及内部架构 |
5.2.2 LD3320电路设计 |
5.2.3 EEPROM电路设计 |
5.2.4 POWER电路 |
5.2.5 回声降噪电路(CX20921) |
5.3 软件系统设计 |
5.4 硬件平台的测试与分析 |
5.4.1 识别准确率 |
5.4.2 系统响应时间 |
5.5 本章小结 |
第六章 总结与展望 |
参考文献 |
附录1 程序清单 |
附录2 攻读硕士学位期间撰写的论文 |
致谢 |
四、语音识别技术概述(论文参考文献)
- [1]基于非线性特性的语音安全和声波通信关键技术研究[D]. 张国明. 浙江大学, 2021(01)
- [2]基于BiLSTM的铁路调度语音识别系统研究[D]. 叶良攀. 兰州交通大学, 2021
- [3]基于不同发声习惯的数据增强在电话场景语音识别中的应用研究[D]. 李立峰. 浙江大学, 2021(02)
- [4]模糊语音的双模态抗噪特征提取研究[D]. 冯晓静. 太原理工大学, 2021(01)
- [5]语音识别工具对日汉数字交传影响的实验报告 ——以“讯飞听见”为例[D]. 卜雪儿. 大连外国语大学, 2021(02)
- [6]蒙古语发音词典建设及其语音识别的应用研究[D]. 萨仁高娃. 内蒙古大学, 2021
- [7]基于深度学习的说话人识别研究与应用[D]. 张兴明. 四川大学, 2021(02)
- [8]基于Julius语音识别技术的的车辆检修管理系统设计[D]. 易健. 浙江大学, 2021(01)
- [9]基于多粒度纠错的越南语语音识别方法研究[D]. 梁仁凤. 昆明理工大学, 2021(01)
- [10]基于嵌入式微处理器的人机语音交互系统的设计与研究[D]. 刘琼. 南京邮电大学, 2020(03)
标签:语音识别论文; 发音方法论文; 元音音素论文; kaldi语音识别论文; 语音芯片论文;