论文总字数:28396字
摘 要
为了使计算机理解人类的语言来提升计算机的工作效率,出现了自然语言处理,但领域内最初的发展仅仅是在使计算机翻译人类语言的文本信息上就遇到了许多困难,停留在分析语音信息对应的单词信息上,还无法做到分析并处理的阶段。人机交互领域,将语音交互界面(Voice User Interface,VUI)归为自然的用户界面。从定义上看,可知语音的交互是人类最自然最高效的交流方式,但要使计算机达到人与人交流的程序,并能根据内容做出决策是一件涉及多领域多人物的难题。
本文中主要是对语音转录文本的断句处理与视频相关信息结合,通过整合多源信息,开发一个新的交互模式。由于转录的文本仅仅由单词组成,为了使转录的文本阅读或更便于理解,需要在文本的基础上运用自然语言处理中的序列识别生成标点符号,通过句号、问号、感叹号等将各句子分割开。由于断句技术是在基于文本的基础上做出的判断,无法在语音信息中得到标点符号的信息,断句是人类对语言自己制定的规则之一,所以断句对文本的保存和产生新的交互方式具有很大的作用。在最后实验设计中可以看到,本文中提到的人脸识别技术与语音识别实现效果良好,在传统的语音识别结果上进行了标点符号的预测,本文中提到的方法在各项指标下表现出了良好的性能,使得实验最后展示的结果来看是比较成功的。
关键词:人脸识别,语音识别,标点预测,音频处理
Abstract
In order to make the computer understand the human language to improve the efficiency of the computer, natural language processing has emerged, but the initial development in the field is only to encounter many difficulties in making the computer translate the text information of the human language, and stay in the analysis of the corresponding voice information. The word information is still not analyzed and processed. In the field of human-computer interaction, it is simple to classify the Voice User Interface (VUI) as a natural user. From the definition point of view, it can be seen that the interaction of speech is the most natural and most efficient way of communication for human beings. However, it is a difficult problem to make computers meet the process of human-to-human communication and make decisions based on content.
In this paper, we mainly combine the sentence processing of voice transcribed text with video related information, and develop a new interactive mode by integrating multi-source information. Since the transcribed text is composed only of words, in order to make the transcribed text read or easier to understand, it is necessary to generate punctuation marks by sequence recognition in natural language processing on the basis of text, and separate sentences by period, question mark, exclamation point, and the like. . Since the sentence-sentence technique is based on the text-based judgment, the punctuation information cannot be obtained in the speech information. The sentence segmentation is one of the rules that humans make for the language itself, so the sentence segment saves the text and generates a new interaction mode. Has a great effect. It can be seen in the final experimental design that the face recognition technology and speech recognition mentioned in this paper have a good effect, and the punctuation marks are predicted on the traditional speech recognition results. The methods mentioned in this paper are under various indicators. It showed good performance and made the results of the last show of the experiment more successful.
Keywords: face recognition, speech recognition, punctuation prediction, audio processing
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1引言 1
1.2 研究现状 3
1.2.1 标点符号预测模型 3
1.2.2 语音识别技术 3
1.2.3 人脸识别技术 4
1.3 论文研究工作 4
1.4 论文内容安排 5
第二章 文本断句技术 6
2.1 断句技术的启发 6
2.2 早期标点预测的工作 6
2.3 LSTM网络 8
2.4 带注意机制的双向LSTM网络 10
第三章 音视频对话转录系统 13
3系统组成 13
3.1基于CTC的语音识别 13
3.1.1 早期的语音识别 13
3.1.2 传统的识别方法 14
3.1.3 CTC语音识别模型 15
3.1.4 基于BRNN模型的识别 16
3.1.5 识别的转录文本实例 18
3.2人脸关键部位的识别 19
3.2.1 人脸识别的应用和研究 19
3.2.2 方向梯度直方图 21
3.2.3面部关键点提取 22
第四章 实验结果 24
4.1 输入视频的预处理 24
4.2 输入音频的预处理 24
4.3 对视频帧的人脸进行识别 25
4.4 转录文本的嵌入 26
第五章 总结与展望 28
5.1总结 28
5.2展望 29
参考文献 30
致 谢 32
第一章 绪论
1.1引言
人类社会的进步是人类间的交流为标志,原始的人类语言可能无法靠声音来传播,更多的是吼叫和动作。语言使得人类的知识和历史得以保留并在此基础上发展起来,可见语言对于信息的交换和人类的思考与进化有着至关重要的作用。计算机的出现改变了生产力,不仅能存储比人类记忆还多的信息,在计算能力上也大大超出人类能力范围,一时间人类以为机器人会在短时间内替代人类。但现在来看,我们意识到计算机的帮助是在辅助人类把事情解决得更加高效和迅速。但有一个问题摆在人类面前,如何与更好地操作计算机本身。这个问题产生了人机交互领域,即计算机与人类之间的交互,当计算机问世的时候,计算机机身占据整个房间,而且需要大量的人员进行维护和操作,能处理的信息量少之又少。后来在体积上和操作性上逐渐简化后,出现了早期的便携式电脑,最早的人机交互方式聚集在鼠标和键盘上,那个时候还不存在当今的图形化界面,只能通过键盘执行命令行对系统进行对应的操作,刚开始没有人能轻易入门计算机,操作方式繁琐和低效,让人很难去适应这台机器。值得一提的是键盘随着发展中逐渐往打字更加快速和符合人类操作的地方上演化,这是最初人机交互的发展。
当下便携式电脑随处可见,人类的设计逐渐使计算机或其他机器去适应人类,从而提高人类做事的效率,这个理念催生了自然的人机交互模式。计算机的发展历史中,从单一的命令行执行界面到windows开发的图形界面是使计算机走向大众家庭的一大突破和关键因素,在图形化的界面上对计算机进行控制和学习,简化了学习的成本,加上视觉上的提升,计算机渐渐在普通家庭中普及开来。说到近代最成功的人机交互模式不得不提到触控操作。仅仅只用在屏幕上滑动和点击,就能完成交互。苹果公司将这项技术集成到更为小巧的手机之中,天生的便携性使得这项技术带动了整个手机行业的发展,也将触控技术带入人们视野。其中在人机交互的发展中,也有许多的技术涌现,但由于各种原因无法得到普及,语音交互技术就是一个案例,原本人类之间的语言交流是比人与书本之间更加高效和便捷的交流方式,但人类无法与计算机用人类的语言进行沟通。为了使计算机理解人类的语言来提升计算机的工作效率,出现了自然语言处理,但领域内最初的发展仅仅是在使计算机翻译人类语言的文本信息上就遇到了许多困难,停留在分析语音信息对应的单词信息上,还无法做到分析并处理的阶段。人机交互领域,将语音交互界面(Voice User Interface,VUI)归为自然的用户界面。从定义上看,可知语音的交互是人类最自然最高效的交流方式,但要使计算机达到人与人交流的程序,并能根据内容做出决策是一件涉及多领域多人物的难题。从当前自然语言处理的常见任务中可以看见语音交互任务里的主要问题,问答对话系统用来模拟人与计算机对话,并能根据人的对话内容计算出对应回答和知识推理。做到知识推理需要对文本含义与知识进行充分分析和理解,并且问句到答句的映射可能意味两者之间关联性为非线性,处理的信息量过大。最重要也发展最快的即是语音识别技术,在不断尝试理解人类语音中的特征并还原原始信息不丢失,在当下甚至准确率已经超过速记员的准确率,可其中还存在一些无法解决的问题。
剩余内容已隐藏,请支付后下载全文,论文总字数:28396字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;