基于深度学习的人体姿态估计毕业论文
2020-04-21 17:14:28
摘 要
本文所述的基于深度学习的人体姿态估计在生成式对抗网络的思想和方法下利用卷积网络、最大池化、残差网络和上采样层组合构成的Hourglass网络结构对输入的人体图像进行关键点检测最终输出完整的人体姿态估计。利用生成式对抗网络和沙漏结构进行的人体姿态估计在性能上相较于其它结构有巨大的飞跃。不仅在结构、损失计算上综合了各种生成式对抗网络变种的优势,而且处理速度也有很大的提高。但是,原生GAN网络结构的生成图像复杂度低,导致模式崩溃的问题仍未解决。本文综合了D2GAN的思想,利用两个鉴别器进行生成图像和数据集的平衡从而提高生成器对人体关键点图像生成的质量和复杂度,在Hourglass的结构中避免模式崩溃。
关键词:Hourglass;姿态估计;D2GAN;模式崩溃
Human Pose Estimation Based on Deep Learning
ABSTRACT
The human pose estimation based on deep learning described in this paper used Hourglass network structure composed of convolution network, max pooling, residual network and upsampling layer to detect key points of the input human image and finally output a complete human pose estimation under the idea and method of Generative Adversarial Network. Compared with other structures, the performance of human posture estimation using Generative Adversarial Network and Hourglass structure was greatly improved. Not only had the advantages of various varieties of Generative Adversarial Network been integrated in terms of structure and loss calculation, but also the processing speed had been greatly improved. However, the problem of mode collapse caused by the low complexity of generating images of the native GAN network structure was still unresolved. In this paper, the idea of D2GAN had been integrated, and two discriminators were used to balance the generated images and data sets so as to improve the quality and complexity of the generator's generation of human body key point images and avoid mode collapse in Hourglass structure.
Keywords:Hourglass; pose estimation; D2GAN; mode collapse
目录
摘 要 I
ABSTRACT Ⅱ
第一章 绪论 1
1.1 本论文的背景和意义 1
1.2 国内外研究综述以及对现有方法的认识 2
1.3 本论文主要内容 3
1.4 论文结构安排 3
第二章 人体姿态估计的总体设计及基本原理介绍 5
2.1总体设计方案 5
2.2生成式对抗网络基本原理 6
2.3 Hourglass基本结构 7
2.4各种GAN变种结构优势分析 10
第三章 人体姿态估计的软件设计 12
3.1 基于单鉴别器的人体姿态估计软件设计 12
3.1.1 生成网络的软件设计 12
3.1.2对抗网络的软件设计 14
3.2 基于双鉴别器的人体姿态估计软件设计 17
第四章 系统测试 22
4.1 软件测试 22
4.1.1基于单鉴别器的人体姿态估计实验结果 22
4.1.2基于双鉴别器的人体姿态估计实验结果 24
4.2 模型设计及调试经验总结 26
第五章 论文总结 30
参考文献 31
附录 33
致谢 46
绪论
本章对论文选取的背景及意义进行讨论,其次,对基于深度学习的人体姿态估计的国内外研究进行综述并对现有的技术发表自己的见解,然后阐述了本论文中的主要完成的内容,最后罗列出论文的总体结构安排。
本论文的背景和意义
人体姿态估计就是在给定图像或者视频中定位人体关键点位置的过程。基于给定的RGB图像的关键点定位在动画、人机交互、行为识别、游戏等领域具有良好的应用前景[1]。同时它也是在学术领域一个很有挑战性的方向,具有很高的研究价值。近年来,随着越来越多数码产品进入我们的生活,比如数码相机、智能手机、平板电脑、网络摄像头、监控摄像机等。大量新的数字图片和视频数据产生,其中最有价值且最能吸引人的就是这些数据中包含着的人类活动与行为,如何有效进行处理和理解数据中的活动,变得越来越重要。
根据输入图像的类型,人体姿态估计算法可以大致分为以下两大类:基于深度图的算法和基于RGB图像的算法。然而,由于深度图像的获取需要使用昂贵的采集设备,所以成本相对较高,并且难以在所有的应用场景中使用,但是RGB图像的采集不存在这些问题,因此具有更广阔的应用前景,并且取得了良好的学术成果。目前,虽然基于深度图像的技术更适应于复杂场景,但是就目前技术而言,基于RGB图像的人体姿态估计算法也能够很好地解决此类问题。从算法本身角度上讲,人体姿态估计可以看作是一个回归问题或者是一个检测问题,主要的区别在于,前者是期望得到的是精确的坐标值(x,y);而后者是用得到对应的热力图谱间接地求取关键点坐标值,因为不同部位在热力图上的响应是不同的,所以感兴趣的区域将会具有一个更高的响应,所以人体的不同部位可以通过不同的响应峰值得到。但是,直接利用回归方式去求解人体关键点坐标的效果不是很理想,主要的原因在于回归模型的可扩展性较差,不能有效地对不定量的问题进行建模,而人的肢体活动相对比较灵活;而且回归方法的鲁棒性也不强。而通过热力图的方法对以上的问题不是太敏感,因此目前人们使用更多地将人体姿态估计看作是一个检测问题。
然而,在具体的实际应用中,人体姿态估计仍然存在着许多挑战:1、现实世界中的复杂姿态;2、拍摄角度不固定;3、衣物遮挡。以上这些原因都会一定程度上使得人体姿态估计变得困难,为实际应用带来挑战[2]。如图1-1所示,很难根据局部信息去判断某一部分是否属于人体或者属于人体的哪一部分。
相关图片展示:
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。