论文总字数:25581字
摘 要
人体行为识别是计算机视觉领域的一个热门研究主题。人体运动的自由性和周围环境的极其复杂性给人体行为识别带来了极大的挑战性,目前相关研究技术还处于比较基础的阶段,需要更加深入的探索。
本文初步熟悉和探索基于深度学习的面向视频人体行为识别的方法。结合深度学习的相关知识,选择了适合本此研究目的的深度学习方法进行研究,并且根据获得的数据和传统经典的算法进行了对比。通过对视频的数据处理与分析,采用经典的卷积神经网络提取具有高层语义的静态行为特征,然后输入到循环神经网络RNN以捕获动态行为信息。本文从UCF101数据集选取了10种模式差异较大的行为(如动作游泳、射箭、骑自行车、引体向上、使用吹风机吹头发等)进行实验。为了增强模型的鲁棒性,通过图像裁剪去除杂乱的背景区域,以及通过图像平移或旋转扩充训练样本。最终,基于深度学习的方法获得了一个可以与当前先进方法可比较的性能。
关键词:行为识别;UCF101数据集;深度学习;递归神经网络
Abstract
Human behavior recognition in the field of computer vision has gradually become a hot research field. The freedom of human movement and the extremely complex nature of the surrounding environment have posed a great challenge to human behavioral identification. At present, the relevant research technology is still in a relatively basic stage, and people need more in-depth exploration.
This article is intended to be familiar with and explore the method of visual recognition based on depth learning for video. Through the video processing and analysis of the video, the classical neural network is used to extract the static behavior characteristics with high level semantics, and then input it into the cyclic neural network to capture dynamic behavior information. In this paper, we choose the behavior of 10 different models from UCF101 dataset (such as swimming, archery, cycling, pulling up, blowing hair with hair dryer) to do experiment. In order to enhance the robustness of the model, the clipping background area is removed by image clipping, and training samples by image translation or rotation expansion. Ultimately, the depth-based approach achieves a performance that can be compared with the current advanced method.
KEY WORDS: Behavior recognition; UCF101 data set; depth learning; recurrent neural network
目 录
摘要 I
Abstract I
第一章 绪论 1
1.1研究背景 1
1.2研究意义 2
1.3研究内容 2
1.4论文组织 2
第二章 人体行为识别的研究现状和基本理论 3
2.1人体行为识别的过程 3
2.2行为识别的研究现状 3
2.2.1传统的特征提取方法 4
2.2.2深度学习方法 4
2.3两种经典的分类方法 5
第三章 深层神经网络 6
3.1深度学习中的VGG卷积神经网络 6
3.2深度学习中的RNN神经网络 6
3.2.1递归神经网络(RNN)的特征 6
3.2.2双向递归神经网络 7
3.2.3 UCF101数据集 8
第四章 面向人体行为识别的端到端的深度网络 10
4.1 网络框架 10
4.1.1VGG_ILSVRC_19模型 10
4.1.2 BRNN模型 12
4.2实验实现与分析 14
4.2.1实验的实现 14
4.2.2实验结果与分析 16
4.3讨论 17
第五章 总结与展望 18
5.1论文总结 18
5.2未来展望 18
参考文献: 18
致 谢 20
第一章 绪论
1.1研究背景
现如今,视频和图像是主流的承载信息的方式,传统方式下的采集信息的方式已经很难跟上技术发展的节奏。随着计算机技术的提高,通过计算机视觉技术以及新兴的深度学习方法可以很好的获取所需的海量数据,研究人体行为识别方面的问题对于现如今的社会需求有很大的帮助。我们已经进入数字化的时代,视频与我们生活息息相关,它帮我们获得信息,也帮我们传递信息。尤其在视频监视的领域方面,这方面需求尤为重要。因为人们已经逐渐关注生命安全、个人财产方面的问题,所以在视频监视方面发展的很快,如在小区、校园、餐馆、景点、电影院、图书馆、火车站等地方都大量的安装了摄像头,这样为我们的安全带来了很大保障。但是这些摄像头的使用也有一些很重要的缺陷,比如我们的现如今的摄像头一般都是记录发生了的事情,这就会产生当危险行为发生时,摄像头仅仅是记录发生了的事情,无法自发的为危险行为发出预警和提示。另外,在不同的地方安装多个摄像头需要占用很大的社会资源,需要人力去安装,需要财力去维修、系统升级,同时长时间的监控会产生大量的无用的录像数据。这时,我们需要一种可以时时监控,并且可以在适当的时候发出预警信号的监控系统。行为的识别在基于内容的视频的检索也有很好的发展前景。随着许多视频分享网站的不断发展,比如bilibili、Acfun、优酷、爱奇艺等,用户在使用这些视频工具时会被大量无用或接近的视频干扰,而传统的仅仅只靠文字输入检索的方法无法满足这样的需求,这时就需要一种有效的根据用户需求的检索工具。人的行为与动作恰恰是视频中最主要的表现内容,所以对于相关人体的行为模式的学习以及检测可以更好地为视频检索服务,从而极大地提高了视频检索的正确性。
近年来,全世界范围内有许多科研机构和科研组织对人体行为方面做了大量的研究,这个领域虽然是新兴领域,但是也在快速的发展中。首先需要提及的是VSAM项目,这个项目是美国的国防部提出来的一个视觉研究的项目,目的是为战场的监控服务,同时也有民用的用途。欧盟方面也有比较大的进展,它们于1998年至2000年进行AVITRACK项目,这个项目的目的比较直接,就是分析个、群体的动作信息。于1999年欧盟还有一项相关计划,即Framework5项目,这个项目则是涉及人机交互方面,目的是为了做出对公共安全有帮助的软件。在国内,有许多高校和科研组织也纷纷投身于相关领域研究中,并且在成果方面也取得可不错的进展。个体和群体的行为分析已经成为973 项目“面向公共安全的社会感知数据处理” 的亟待解决的部分;对于863 计划中 “智能敏捷家庭助理机器人综合平台”项目则重点探索视频流方面的人体行为识别;“智能家庭服务监控机器人”这个项目由科研部发起,目的是为了研究人体跌倒等特异行为。另外,国内有许多研究机构在这方面也做了很多工作,比如清华大学、中科院自动化所、华中科技大学等知名单位。上述可以清楚地看出,目前有很多世界上知名的机构和组织在人体的动作、行为识别方面做着相关的研究,也说明了这个领域的研究价值很大。
1.2研究意义
人体的行为的识别目前还是一项前沿的领域,在很多方面它都可以发挥自己的作用,比如人机交互方面、计算机视觉分析、模式识别甚至在心理学方面都有涉及。在现实方面,人体行为识别除了上述的视频监控和基于视频内容的视频检索方面,还可以运用于根据行为特征来鉴别身份,这个技术很难被被检测者刻意的抹除,所以准确性很高。还可以用于环境的监控、运动捕捉、生物特征识别等方面。在商业领域,这项研究可以广泛的场所,比如车库、商场、教育场所、邮电场所等,并且在娱乐、体育方面作用也很突出。在心理学方面,知识的得到按照认知心理学的角度来解释是人对所获得信息进行表征、存储、加工来得到的。对于视频序列中的人体行为识别的过程与认知心理学对信息的处理方式解释类似,所以我们有理由可以把动作行为识别的研究作为研究相关心理学的启发点和另一种思路。所以综上所述,人体的行为识别在现实、商业、心理学等方面都可以发挥出它的作用,这也就是肯定了研究这一领域的意义是很大的。
1.3研究内容
本文主要利用深度学习的方法,对视频中的行为进行识别。主要研究工作:
剩余内容已隐藏,请支付后下载全文,论文总字数:25581字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;