论文总字数:23887字
摘 要
基于静态图像的动作识别侧重于从单个图像中识别一个人的动作行为,与使用视频或图像序列的传统动作识别的方法不同的是,静态图像中并不包含用于表示动作的时间信息。因而,基于视频的动作识别方法并不适用于基于静态图像的动作识别。目前,识别静态图像中的行为动作常用的方法是通过学习图像中的对象、场景和身体姿势的外观从而区分每个动作类,可是这些方法剥夺了图像中丰富的动作结构。
为解决上述问题,本论文设计了一种卷积神经网络,通过从数千个未标记的视频中学习人体和物体是如何移动的,进而获取视频中人体和物体如何移动的模型,然后将得到的信息嵌入到单个图像的表示中,即得到相应的光流图像。然后利用原始的RGB图像和生成的光流图像来训练一个双流卷积神经网络,最后通过这个训练好的双流卷积神经网络来对行为图像中的行为进行识别。通过这种方式不仅实现了密集光流预测的精度要求,同时也利用生成的光流图像增强了对动作识别和动态场景的识别。
关键词:基于静态图像;深度学习;行为理解;密集光流预测
Behavior Image Understanding Based on Deep Learning
ABSTRACT
Motion recognition based on still images focuses on recognizing a person's action behavior from a single image. Unlike conventional motion recognition using video or image sequences, static images do not contain temporal information for representing actions. Thus, the video-based motion recognition method is not suitable for motion recognition based on still images. Currently, a common method for recognizing behavioral actions in still images is to distinguish each action class by learning the appearance of objects, scenes, and body poses in the image, but these methods deprive the rich action structures in the image.
In order to solve the above problems, this paper designs a convolutional neural network to learn how the human body and objects move in the video from thousands of unlabeled videos, and then obtain a model of how the human body and objects move in the video, and then get The information is embedded in the representation of a single image, ie the corresponding optical flow image is obtained. The original RGB image and the generated optical flow image are then used to train a two-stream convolutional neural network. Finally, the trained dual-stream convolutional neural network is used to identify the behavior in the behavioral image. In this way, not only the precision requirements of dense optical flow prediction are realized, but also the generated optical flow images are used to enhance the recognition of motion recognition and dynamic scenes.
KEY WORDS: Still image based,Deep Learning,Action recognition,Dense Optical Flow Prediction
目 录
摘 要 Ⅰ
ABSTRACT Ⅱ
第一章 绪论 1
1.1 研究背景和意义 1
1.2 研究现状 2
1.2.1 生成式模型 2
1.2.2 判断式学习 3
1.2.3 学习中级特征 3
1.2.4 多特征融合 4
1.2.5 姿势匹配 4
1.3 论文组织结构 4
第二章 研究目标和内容 6
2.1 动作识别 6
2.2 视觉预测 6
2.3 图像与图像之间的转换 7
2.4 本章小结 8
第三章 系统设计 9
3.1 光流预测网络设计 9
3.2 静态图像动作识别 11
3.3 本章小结 12
第四章 系统实现及评估 13
4.1 光流预测系统实现 13
4.2 动作识别实现 16
4.3 本章小结 17
第五章 总结与展望 18
5.1 论文总结 18
5.2 未来展望 18
参考文献 19
致 谢 21
绪论
研究背景和意义
二十多年以来,识别人类行为和运动一直都是计算机视觉领域中的一个活跃的研究课题,但是其中大部分的研究领域都是基于视频的动作识别,因此这个课题已经得到了充分的研究。目前已经提出了各种各样的方法来利用视频中的外观和动作,比如,局部时空特征、中级特征和高级特征等。然而对于本文所涉及到的基于静态图像的动作识别,它与基于视频或者基于图像序列的传统动作识别的方法有很大的差异,这是因为静态图像中并不具备用于表征动作的时间信息,它更侧重于通过单个静态图像来识别图像中的动作和行为。因此,基于视频的动作分析的方法并不适用于对静态图像来进行动作识别。但是由于从互联网上下载得到的静态图像大多数都具有杂乱的背景以及非常有限的信息来源,故而对静态图像的动作识别比基于视频的动作识别更有难度且更加具有挑战性。
正如在前面所说的,在对静态图像的动作识别中,由于没有可用的时间信息,因此传统的时空特征不再适用。除此之外,在传统的对视频的动作进行识别的研究中,大多数都是通过从视频中的时空信息来提取得到有用的低级特征,并直接用到动作识别中去,比如基于时空兴趣点的特征。可是,在对静态图像的动作识别中,直接从整个图像中提取得到的低级特征并不能很好的对静态图像中的动作进行识别。由于在杂乱的背景下静态图像中只有空间信息能够利用,故而很多的研究人员尝试利用静态图像中的各种高级特征来更好的表征整个静态图像中的动作。各种的低级特征可以表示高级特征,然后通过组合不同的高级特征来识别静态图像中的动作。
剩余内容已隐藏,请支付后下载全文,论文总字数:23887字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;