论文总字数:28306字
摘 要
利用音视频驱动产生说话视频是人工智能、深度学习领域的一大热点。实现该技术的主要步骤是:从音视频中提取对应的特征,建立音视频映射,获得口型与语音的关系,后在脸部模型的基础下实现说话视频的生成。现阶段生成的结果分辨率不高,而且可能出现人物的面部特征丢失或是色差等问题,需要改进。
本文主要研究了如何通过解离的音视频系统(DAVS),在输入一段英文音频的情况下,产生对应的人脸说话视频。本系统使用了VoxCeleb数据库,其核心思想是联合视觉的语音识别(唇语识别),即识别来自纯视频唇型对应的词语和来自纯音频文件的词语。系统主要有学习联合音视频映射、解离对抗训练空间和应用至任意面部三个过程。首先,学习联合音视频空间,将从视频的得到的唇形和从音频得到的词语和相对应,生成与语音语义对应的唇形图像。接着,输入新的纯音频。系统会利用深度卷积生成对抗网络(DCGAN)训练产生可迷惑标准唇形集的新唇形。该唇形符合字词的语音语义但和音频对应的视频人物没有相关性。最后基于任意脸部图像,输入纯音频和新唇形即可产生说话的面部动画。
关键词:解离音视频系统 联合音视频映射 深度卷积生成对抗网络 对抗训练空间
ABSTRACT
Using audio and video to generate speech video is a hot topic in the field of artificial intelligence and deep learning. The main steps to realize the technology are: extract corresponding features from audio and video, establish audio and video mapping, obtain the relationship between mouth shape and voice, and then realize the generation of speech video based on the face model. The resolution of the results generated at this stage is not high, and there may be problems such as loss of facial features or chromatic aberration of the character, which needs improvement.
This paper mainly studies how to generate a corresponding face speech video by inputting a piece of English audio through the dissociated audio and video system (DAVS). The system uses the VoxCeleb database, and its key idea is audio-visual speech recognition (lip reading), which recognizes words from pure video lips and words from pure audio files. The system mainly has three processes of learning joint audio-visual representation, adversarial training for latent space disentangling and arbitrary-subject talking face generation. First, the joint audio and video space is learned, and a lip image corresponding to the speech semantics is generated from the obtained lip shape of the video and the words and corresponding words obtained from the audio. Next, enter the new pure audio. The system uses Deep Convolution Generation Against Network (DCGAN) training to create new lips that confuse the standard lip set. The lip conforms to the phonetic semantics of the word but has no relevance to the video character corresponding to the audio. Finally, based on any facial image, input pure audio and a new lip to produce a talking facial animation.
Keyword: audio-video system joint audio-visual representation DCGAN
adversarial training
目 录
摘要 II
ABSTRACT III
第一章 绪论 1
1.1 研究背景 1
1.2 相关研究现状 3
1.3 论文研究工作 7
1.4 论文内容安排 8
第二章 神经网络算法介绍 10
2.1 引言 10
2.2 卷积神经网络(CNN) 11
2.3 对抗神经网络(GAN) 14
2.4 深度卷积生成对抗网络(DCGAN) 15
第三章 解离的音视频系统(DAVS) 17
3.1 引言 17
3.2 解离的音-视频系统(DAVS)结构 18
3.3 学习联合音视频映射 20
3.4 潜在对抗训练空间的解离 21
3.5 推论:任意对象跟踪面部生成 22
第四章 基于音频生成说话人脸的实现 23
4.1 引言 23
4.2 图片/音频预处理 23
4.3 神经网络搭建 24
4.3.1 MFCC 24
4.3.2 VGG模型 26
4.4 神经网络检验 26
4.5 结果呈现 26
第五章 总结与展望 29
5.1 总结 29
5.2 展望 29
参考文献 31
致 谢 34
第一章 绪论
1.1 研究背景
在当今社会,科技不断进步和发展。近年来,人工智能一个词不断出现在人类的视野中。与人工智能相关的核心技术也愈发的火热。虚拟现实技术是深度学习应用的体现之一,现在可以说是一个热点的研究方向,吸引了广大高校、学者乃至企业的注意力。形式多样的虚拟现实软件、硬件快速发展。但遗憾的是,目前所应用的软硬件虽然在该领域给所使用的用户已经有了很直观的体验和感受,但并没有达到人们的预期,和人们所期待的还有一定的差距[1]。
在虚拟现实技术中,虚拟社交是广受关注的一项应用。就如在电视或电影中看到的,虚拟产生的人物可以进行语言说话,信息交流。可以说,产生模拟的人像是一种极具研究意义而且用途广泛的技术。在模拟人像时,如何保证虚拟的人像有着逼真的表情,符合逻辑的反应,流畅自然的脸部变化是需要不断提升和改进的。它们是图形学方面以及软件运行智能化上的难题。除此之外,内心活动、心理变化导致的虚拟形象产生的微小的细节变化也是值得考虑的。在现阶段,存在一些基于计算机的脸部生成技术,但是利用语音生成自然、流畅和符合逻辑反应的说话人脸仍然是研究者们的不懈追求。
剩余内容已隐藏,请支付后下载全文,论文总字数:28306字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;