论文总字数:40537字
摘 要
作者姓名:马浩鑫 指导老师:赵力
语音识别是指将语音信息转化为文字信息,使得机器可以“理解”人类的话语,在语音助手、语音输入等领域有广泛的应用。语言模型作为语音识别系统中组成之一,对识别效果起到了至关重要的作用。早期的语言模型大多基于统计学方法,直到近些年人工智能的兴起,众多学者将研究重点转向深度神经网络,识别的准确率也大大提高。
基于语音识别这一领域,本文对神经网络语言模型展开研究。在Aishell中文数据集上分别进行解码实验,利用kaldi开源工具构建语言识别系统,将一次解码后的Lattice结果使用自己编写的神经网络语言模型重打分,实验结果以词错率以及困惑度为标准,在两种模型上广泛而详细地比较了不同网络参数对于语音识别效果产生的影响。具体比较方面包括:前馈神经网络的层数、激活函数、gram_size参数和循环神经网络中的循环结构,得到了一些有用的结论。此外,实验将共享embedding策略分别应用两个语言模型中,验证了该方法确实可以在大大减少模型参数的基础上对提升语言模型性能。
关键词: 语言模型,语音识别,前馈神经网络,循环神经网络
Abstract
Student’s name:Haoxin Ma Tutor:Li Zhao
Speech recognition is the task of transfering the speech segments into texts. It makes the machine understand the meaning of human languages. Speech recognition can be applied to speech input, voice assistant and many other scenarios. As one of the key components of the speech recognition system, the language model plays a vital role. Previously, statistic-based methods are used for language models. Among them, N-gram language models are the most popular. Recently, researchers turn their attention to deep-neural-network-based methods with the rise of artificial intelligence. The accuracy of speech recognition is greatly improved.
This paper studies the neural network language models. Firstly, we present the key concepts of speech recognition and what neural network language models are. Then, several experiments are conducted on Aishell dataset for the feedforward neural network language model and the recurrent neural network language model, respectively. This paper compares the influences of different network parameters on language model including the number of layers, the activation function, the parameter of gram size, and the gate in the recurrent neural networks. Additionally, we come up with some useful conclusions to design the neural networks. Besides, we apply the shared embedding strategy to our two neural network language models respectively, which verifies that the method can improve the performance of the language model and reduce the model parameters at the same time.
KEY WORDS: language models, speech recognition, feedforward neural networks, recurrent neural networks
目 录
摘 要 1
Abstract 2
第一章 绪论 1
1.1研究背景及意义 1
1.2语言模型发展历史及现状 2
1.3研究工作内容及组织架构 4
第二章 语音识别原理 6
2.1基本原理 6
2.2声学模型 7
2.3语言模型 9
2.3.1 N-gram 9
2.3.2评价标准 11
2.4解码搜索 12
2.4.1解码搜索原理 12
2.4.2维特比算法 14
2.4.3维特比算法的剪枝优化 15
2.4.4二次解码 15
2.5本章小结 16
第三章 基于前馈神经网络的语言模型 17
3.1原理 17
3.1.1网络的构成 17
3.1.2反向传播训练算法 18
3.2前馈神经网络语言模型的结构 20
3.2.1整体结构 20
3.2.2 Embedding层 21
3.2.3 Softmax层 22
3.3使用前馈神经网络语言模型进行二次解码 23
3.3.1搭建语言识别系统结构 23
3.3.2语言模型相关参数 24
3.3.3实验结果及分析 24
3.3.4模型改进:引入共享Embedding 27
3.4本章小结 28
第四章 基于循环神经网络的语言模型 29
4.1原理 29
4.1.1网络结构 29
4.1.2时序反向传播训练算法 29
4.1.3 LSTM结构 30
4.1.4 GRU结构 31
4.2使用基于循环神经网络的语言模型进行二次解码 33
4.2.1模型结构 33
4.2.2实验设计及语言模型相关参数 33
4.2.3实验结果及分析 34
4.2.4模型改进:引入共享Embedding 35
4.3本章小结 35
第五章 全文总结与展望 36
参考文献 38
致 谢 41
第一章 绪论
1.1研究背景及意义
在2016年备受瞩目的人机围棋比赛中,AlphaGo以4:1打败李世石[1],伴随这一标志性事件落幕,人工智能又一次站到浪潮的风口,迎来其发展中的第三次春天。机器学习、大数据、云计算等等成为当下的研究热点,它们在语音、图像、自然语言理解等方面的应用也取得了显著的效果,人们的日常生活也逐渐被人工智能所改变。
剩余内容已隐藏,请支付后下载全文,论文总字数:40537字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;