论文总字数:27223字
摘 要
人体姿态识别是通过图像,视频流或者其他辅助传感器来对人体的姿态进行捕捉以及追踪,并通过例如识别关键关节点等的方法对姿态进行重建还原,继而利用所还原的各种各样的人体姿态,推断出所蕴含的更加丰富以及深入的语义。三维的人体姿态识别是近年来姿态识别的新热点,其在诸如虚拟现实,智能家居, 运动学分析以及无人商店等场景中有广泛的应用前景。本文的研究内容是探索基于神经网络的3D姿态识别,主要工作有:
1.调研姿态识别领域研究现状,对比不同的研究方法,学习相关知识。
2.通过训练神经网络模型,构建一个能从2D姿态数据预测3D姿态数据的系统,通过对比不同的训练参数以及网络结构产生的预测误差,分析不同因素对网络性能以及3D姿态识别任务的影响。
3.利用预训练的修改过的ResNet50卷积神经网络模型,构建一个能从图像/视频直接预测并重建姿态的系统。
实验结果表明,即使是利用较为简单的网络结构,通过训练,也能够利用真实的2D关节位置较为准确的预测出相应的3D关节位置,误差率能够在Human3.6m姿态数据集上控制在约30%。相较于直接从图像中预测2D以及3D姿态数据的方法,准确率较高。因此可以说明,3D姿态识别中的很大一部分误差来源于2D识别中误差的积累。
关键词:姿态识别,卷积神经网络,训练,3D
Abstract
Human pose estimation is to capture and track poses of human bodies through images, video streams, or other wearable sensors. Human pose is reconstructed and restored by, for example, identifying a key joint location. Furthermore, the various human body poses are utilized for inferring richer and deeper semantics. The 3D human pose estimation is a new hot-spot of pose estimation in recent years. It has a wide range of application prospects in fields such as virtual reality, smart homes, sports analysis and unmanned shops.
The research goal of this paper is to explore 3D human pose estimation based on neural network. The main tasks are:
1. Investigate the research status of the field of pose estimation, compare different research methods, and learn relevant knowledge.
2. By training the neural network model, this paper constructs a system that can predict 3D joint location from 2D joint location. By comparing average prediction error and training loss generated by different training parameters and network structures , this paper analyzes the influence of different factors on network performance and 3D gesture recognition tasks.
3. Use a pre-trained convolutional neural network model based on RestNet-50 to construct a system that can directly predict and reconstruct the pose from images/videos.
The experimental results show that even with a simpler network structure, through training, it is possible to accurately predict the position of the corresponding 3D joint using the real 2D joint position. The error rate can be controlled at about 30% on the Human 3.6m pose dataset. Compared with the method of directly predicting 2D and 3D posture data from images, the accuracy is higher. Therefore, it can be shown that a large portion of the errors in 3D pose estimation originate from the accumulation of errors in 2D recognition.
KEY WORDS: pose estimation, convolutional neural network, Training, 3D
目录
摘要 I
Abstract II
第一章 绪论 1
1.1 引言 1
1.2 国内外相关研究现状及趋势 2
1.3 本文主要研究内容 3
第二章 卷积网络结构及训练方法 4
2.1 卷积神经网络 4
2.1.1 卷积层 4
2.1.2 激活函数 5
2.1.3 汇合层 7
2.1.4 全连接层 7
2.2 残差卷积神经网络 8
2.3 网络模型优化算法 10
2.4 批规范化操作 11
第三章 实验设计 12
3.1 实验数据以及实验环境 12
3.1.1 数据来源 12
3.1.3 实验环境以及配置 12
3.2 探究姿态识别2D准确率对3D识别准确率的影响 12
3.2.1 实验目的 12
3.2.2 实验模型 13
3.2.3 模型训练方法 13
3.2.4 实验分组 15
3.3 利用预训练模型构建姿态识别系统 16
3.3.1 实验目的 16
3.3.2 姿态分析方法综述 16
3.3.2 系统设计 18
3.4 评估方法 20
3.4.1 利用欧氏距离评估准确率 20
第四章 实验结果 21
4.1 识别结果示例 21
4.2 训轮数对识别误差的影响 21
4.3 不同关节点识别准确率的区别 22
4.4 不同动作场景下关节识别误差 23
4.5 不同的网络结构对模型训练以及性能的影响 23
4.6 神经元失活概率对模型训练以及性能的影响 25
4.7 初始学习率对模型训练以及性能的影响 26
4.8 探究2D识别误差对3D识别的影响 27
4.9 利用预训练好的Vnect模型进行测试 28
4.10 总结与不足 29
致谢 30
参考文献: 31
绪论
引言
近年来深度学习在图像识别以及图像检测等领域的研究一直是计算机行业发展的热门方向。并且在这一方面,学界和业界的交流与联系格外紧密,各大IT企业都成立了各自的AI实验室。随着相关技术的发展与成熟,例如人脸识别,车辆检测,手势识别等方向,已经迈出实验室,逐渐在业界被广泛的应用了起来。
本文所要讨论的人体姿态识别(pose estimation)则是相对于面部检测和手势识别更为复杂的问题,其研究可以分为两个阶段,第一个阶段是通过静态图像,视频流或者其他辅助传感器来对人体的姿态捕捉以及跟踪,并通过例如识别关键关节点等的方法对其进行重建还原,第二阶段,通过所还原的各种各样的人体姿态,推断出所蕴含的更加丰富以及深入的语义。本文中所提到的人体姿态识别侧重于前者。可以预见到,人体姿态识别将被更广泛的应用,带来更大的改变。
剩余内容已隐藏,请支付后下载全文,论文总字数:27223字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;