论文总字数:29574字
摘 要
语音是人类社会重要的沟通交流方式,其作为信息传播的媒介正逐渐被相关研究人员深入挖掘其原理。相比于其他人机交互形式,人的声音往往还有更明确的指令信息和特征优势,这对于疲劳中的人们或者行动有障碍的人士来说更加方便和人性化。而以此为基础发展起来的语音识别技术如今广泛应用于人们的日常生活中,在智能手机,车载系统,智能家居等领域发挥着越来越重要的作用。而在描述语音特征最常用的就是梅尔频率倒谱系数(MFCC)。相关研究表明,人耳对低频的声音比较敏感,而对于高频则比较模糊。梅尔倒频谱系数就是这样一种基于人类听觉机理的语音特征系数。设计了一种基于MFCC语音特征提取和DTW动态时间规整算法进行模板匹配的方法,将采集到的说话人以及指令作为样本,提取每个语音样本的39维MFCC特征系数作为模板,再通过DTW算法得到最接近测试样本特征的说话人和指令模板,对说话人和语音指令可以进行简单有效的识别。并封装为语音识别模块集成应用于电视遥控器中,实现语音控制电视的目的。
关键字:语音识别,说话人识别, MFCC,DTW,电视红外控制
Abstract
Voice is an important communication method for human society, as a medium of information dissemination, it is gradually being explored by researchers. Compared with other forms of human-computer interaction, human voices often have more explicit information and feature advantages, which is more convenient and humane for people in fatigue or action disabled. Based on this feature, the speech recognition technology is now widely used in people's daily life, and plays an increasingly significant role in smart phones, in-vehicle systems, smart homes and other fields. The most commonly used method for describing speech features is the Mel Frequency Cepstrum Coefficient (MFCC). Related studies have shown that the human ear is more sensitive to low-frequency sounds and more ambiguous for high frequencies. Mel cepstrum coefficient is such a speech feature coefficient based on the human auditory mechanism. A template matching method based on MFCC speech feature extraction and DTW dynamic time warping algorithm is designed. Using the collected speakers and instructions as samples, the 39-dimensions MFCC feature coefficients of each voice sample are extracted as a template, and then the DTW algorithm is used to obtain the speaker and instruction template that are closest to the characteristics of the test sample. The speaker and voice instructions can be easily and effectively identified. And the package is integrated into the TV remote controller for the purpose of voice control TV.
KEY WORDS: Speech Recognition, Speaker Recognition, MFCC, DTW,TV Infrared Control
目录
摘要 I
Abstract II
目录 1
第一章 绪论 2
1.1 研究背景 2
1.2 国内外研究现状 2
1.3 研究的意义 3
1.4 论文主要内容和结构 4
1.5 本章小结 4
第二章 语音识别技术原理 5
2.1 人体发声原理 5
2.2 语音信号特性 5
2.3 语音信号的预处理 7
2.3.1 预加重 7
2.3.2 加窗分帧 8
2.3.3 端点检测 12
2.4 语音信号特征 13
2.5 语音识别匹配算法 14
2.6 本章小结 16
第三章 MFCC特征提取 18
3.1 倒谱分析 18
3.2 MFCC相关知识 22
3.3 算法实现 24
3.4 本章小结 27
第四章 DTW匹配算法 29
4.1 算法实现 29
4.2 实验结果 31
4.3 本章小结 32
第五章 智能电视电源语音控制平台开发 33
5.1 系统开发平台介绍 34
5.2 语音识别模块 35
5.3 控制器模块 36
5.4 红外模块 37
5.5 红外控制测试 38
5.6 本章小结 39
第六章 总结与展望 40
6.1 课题工作总结 40
6.2 展望 40
致谢 42
参考文献 43
第一章 绪论
1.1 研究背景
人类自身对于信息获取主要依靠的是视觉和听觉这两种方式。视觉包含着颜色,形状等重要的图像特征信息,而声音则是无形的信息[1],而在无声的信息媒介往往有着说话人情感以及心理活动的流露。随着以计算机为代表的机器逐渐融入到人类日常生活和社会生产当中,并在各行各业中慢慢代替人力驱动的工作,如何实现与机器高效的信息沟通,提高人与机器的交流效率就具有很大的研究价值。
1952年Bell实验室的Davis等依据元音的谱共振,实现了世界上第一台能识别特定人10个英文数字的语音识别系统,标志着语音识别研究工作的真正开始[2]。此后,语音识别技术高速发展。70年代初语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的成熟有效地解决了语音特征提取和语音信号时间不等长匹配的问题;80年代重要的高斯混合模型(GMM)和隐马尔可夫模型(HMM)支持语音识别研究朝着大词汇量,非特定人连续语音识别的方向发展;到了21世纪初深度神经网络(DNN)的进一步发展再一次促进了声学模型的训练质量和模型自适应方法的改进。近年来随着人工智能的研究热潮,作为智能计算机研究的主导方向,语音识别技术继续在智能人机交互、虚拟现实等领域中有着广泛的应用前景[3]。
剩余内容已隐藏,请支付后下载全文,论文总字数:29574字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;