基于藏语拉萨方言语音识别中端点检测算法的研究

 2022-10-16 11:50:28

论文总字数:20936字

摘 要

随着计算机技术和人工智能的发展,语音识别也渐渐出现在大众的眼前。语音识别技术中最重要的就是端点检测方法。准确的端点检测可以成功的区分出语音段和噪音段,故而端点检测技术对于语音识别系统而言非常关键。而端点身为语音识别过程中的典型特点,在很大程度上影响其性能。但是,在实际工作以及实验环境下,有各种不确定的噪声,影响算法无法检测到准确的端点,带来误差。

本文从语音数字化的基础着手,分析了目前主流的几种语音端点检测算法。在噪声较大的情况下,大部分端点检测方法都会失效。通过对多种方法的分析,在噪音较弱的情况下,这些方法能做出有效的检测,但是当噪音较强时,即处于低信噪比的情况时,这些方法的准确率就会急速的下降。其中主要因素是鲁棒性较差,而鲁棒性的研究一直是目前的难点和重点,所以当我们能很好的解决这个问题时,端点检测的准确率不论在何种环境下都会较为准确。然后我们介绍了端点检测需要用到的几种软件,Matlab和HTK(HMM Tools Kit)工具包,还有隐马尔可夫模型(Hidden Markov Model, HMM),再通过Matlab的仿真结果可以知晓算法是否可以在强噪声中很好的检测语音。

最后我们对本文进行了总结。为了解决在低信噪比的情况下,算法的检测率较低的情况。我们基于短时能量和过零率的方法,通过构建HTK工具包和Matlab的仿真结果,来解决这个问题。之后我们对未来的研究提出了期许和展望。

关键词: 语音识别;端点检测;鲁棒性;信噪比

Research on Endpoint Detection Algorithms Based on Tibetan Lhasa Speech Recognition

Abstract

With the development of computer technology and artificial intelligence, speech recognition has gradually appeared in front of the public. Endpoint detection is the most important part of speech recognition technology. Accurate endpoint detection can successfully distinguish speech segment from noise segment, so endpoint detection is more important in speech recognition system. As an important feature of speech recognition, endpoint has a great impact on its performance. However, in the actual work and experimental environment, there are various uncertain noises, which affect the algorithm can not detect the exact endpoints and bring errors.

Starting from the basis of voice digitization, this paper analyses several current mainstream voice endpoint detection algorithms. In the case of high noise, most endpoint detection methods will fail. Through the analysis of various methods, these methods can make effective detection in the case of weak noise, but when the noise is strong, that is, in the case of low signal-to-noise ratio, the accuracy of these methods will rapidly decline. The main factor is the poor robustness, and the research of robustness has always been the difficulty and focus, so when we can solve this problem well, the accuracy of endpoint detection will be more accurate in any environment. Then we introduce several software needed for endpoint detection, such as MATLAB and HTK (HMM Tools Kit) toolkits, and Hidden Markov Model (HMM). Then we can know whether the algorithm can detect speech well in strong noise by the simulation results of MATLAB.

Finally, we summarize this paper. In order to solve the problem of low SNR, the detection rate of the algorithm is low. Based on the method of short-term energy and zero-crossing rate, we solve this problem by constructing HTK toolkit and MATLAB simulation results. Then we put forward expectations and prospects for future research.

Keywords: Speech recognition; Endpoint detection; Robustness; SNR

目录

摘要 II

Abstract III

第一章 绪论 1

1.1 语音识别研究背景和意义 1

1.2 目前的研究现状 1

1.3主要工作和章节安排 2

第二章 语音信号数字化处理基础 3

2.1 语音信号预处理 3

2.1.1预加重 3

2.1.2分帧和加窗 4

2.2 语音信号分析 4

2.2.1 时域分析 4

2.2.2 频域分析 4

第三章 语音识别端点检测方法 5

3.1 基于短时能量和过零率的语音端点检测 5

3.1.1短时能量 5

3.1.2短时过零率 6

3.2 基于倒普特征的语音端点检测 6

3.3 基于谱熵的语音端点检测 7

3.3.1 谱熵的基本原理 7

3.3.2 谱熵特征分析 8

3.4 本章小结 8

第四章 实验仿真与结果 10

4.1 建立藏语语料库 10

4.2 HMM模型的建立 10

4.3声学特征参数的提取 10

4.4 实验结果与分析 11

第五章 总结与展望 14

5.1 总结 14

5.2 展望 14

致谢 15

参考文献 16

附录 1

第一章 绪论

语音识别研究背景和意义

语言如同一个见证者,它见证了人类文明发展几千年的历程。而语音又是语言的具体表现形式,是人与人之间相互交流的一种主要方式。随着科技的发展,人类愈加的渴望通过自己的命令来让机器做出相应的动作,实现人机交互。为实现这一梦想,语音识别技术出现了,这一技术的出现大大提高了人们的生活品质,我们赋予机器“生命”,让机器通过指令来执行操作,从而进行一些繁重或危险的工作。

目前的研究现状

针对语音识别所进行的研究起源于20世纪五十年代ATamp;T贝尔实验室开发的Audry系统[1],其为全球首台可辨识出十个英文数字的系统[2]。伴随科学技术的不断发展进步,围绕语音识别所进行的探究同步得到了快速的发展,由固定的人、小词汇表与连续性的识别过渡至[3]以隐马尔科夫模型为基本结构的语音识别方式。之后,逐渐开发出基于小波[15]的特征提取方法,同时人们也在研究如何提高系统的适应性和抗噪性。

剩余内容已隐藏,请支付后下载全文,论文总字数:20936字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;