论文总字数:17745字
摘 要
近年来,基于计算机视觉在各大产业中的应用越来越广泛,其中视频目标追踪与检测是研究热点之一。TLD作为一种较为可靠的长期跟踪视频序列中未知物体的目标追踪算法,以学习、检测和跟踪三大模块作为主要框架。TLD算法中跟踪和检测模块采用并行结合的方式,两者的结果作为学习模块的输入[1],学习后的模型将反馈给检测和跟踪模块,从而实时获取到目标的最新特征最终进行持续稳定的跟踪。但是TLD的算法缺陷也很明显,其计算过程复杂,计算资源需求量大,对于普通分辨率的视频在主流配置的电脑上其处理速度每秒7—11帧左右,算法实时性较差。基于此,本文通过分析TLD算法的结构层次,对TLD算法耗时最多的检测模块在GPU平台上进行并行化处理,在此基础上了设计实现了基于CPU-GPU异构计算平台的单目标跟踪算法。
关键词: 异构,并行处理,GPU,TLD,目标跟踪
Abstract:In recent years, computer vision has become more and more widely used in major industries. Video target tracking and detection is one of the research hotspots. TLD is a reliable target tracking algorithm for tracking unknown objects in video sequences over a long period of time. It uses learning, detection, and tracking as the main framework. In the TLD algorithm, the tracking and detection module adopts the parallel combination method. The results of the two are used as the input of the learning module. The learned model will be fed back to the detection and tracking module, so that the latest features of the target are obtained in real time and continuous and stable tracking is performed. However, the defect of TLD algorithm is also obvious. The calculation process is complex and the computing resources demand is large. For ordinary resolution video, the processing speed of the video on the mainstream configuration is about 7-11 frames per second, and the real-time performance of the algorithm is poor.
Based on this, this paper analyzes the structure level of TLD algorithm and uses GPU hardware to parallelize the TLD time-consuming detection module. Based on this, the target tracking algorithm based on heterogeneous and heterogeneous platforms is proposed.
Keywords: heterogeneous, parallel processing, GPU, TLD, target tracking,
目 录
1 绪论 5
1.1 视觉追踪研究背景及其意义 5
1.2 GPU背景以及意义 6
2 国内外研究现状 7
2.1视频追踪研究现状 7
2.2 GPU并行处理 8
3 相关技术介绍 8
3.1 CUDA计算介绍 8
3.2 TLD算法简介 12
4 并行化的TLD的算法 14
4.1 TLD各个模块耗时的实验与分析 14
4.2 基于GPU的TLD优化 15
5 实验结果与分析 22
5.1 操作环境 22
5.2 GPU并行方差过滤器加速效果分析 23
5.3 GPU并行集成分类器的加速效果分析 24
5.4 GPU-TLD最近邻分类器加速效果分析 25
5.5 GPU-TLD和TLD整体性能分析 26
结论 28
参考文献 29
致谢 30
1 绪论
1.1 视觉追踪研究背景及其意义
据科学研究表明,视觉承担着人类百分之八十以上的信息数据摄入工作。所以计算机视觉一直是人工智能不可或缺的一部分。计算机视觉识别是将运动目标图片转化成二进制字的数字流,然后输入深度神经网络,经过分析每层数据,建立模型,对神经网络内的各层信息与现有的图像数据库进行比对,最后可以重新还原并识别出运动目标。
依此产生的计算机视觉是一门融会了多范围,用摄像机和电脑代替人眼使得计算机具有类似于人类对视觉目标进行识别、分类、辨认、跟踪、辨别决议的学科[2]。这一切都要建立在预先对图片进行科学分类的基础上。ImageNet作为目前为止世界上最大的图像识别数据库,其图片分类有一千多类以上。在中国,百度大脑的图像识别技术的基础就是百度拥有4万类以的上图片种类的数据库。
计算机的视觉计划一般从四个方面来推进:
(1)人机交互
人机交互在机器视觉中技术主要表现为人脸识别。其中社会的大部分有安全需求的行业如军工、公安、边检、政府等已经广泛应用人脸识别技术。如IPhoneX的FaceID功能、人脸刷卡等功能,2017年中国农业银行推出的刷脸无卡取款等,都是运用人脸识别的功能。
(2)无人驾驶
伴随以人工智能发展,商用机器逐渐尝试使用无人驾驶技术,无人驾驶技术的应用场景不仅仅局限于汽车。无人驾驶产业的蓬勃发展,给机器视觉带来的带来了大量的财力、真实世界数据以及高精度三维信息。大数据时代造成数据的全面和丰富,以及算法突破发展,将会拉动计算机视觉研究,同时也加大其在无人驾驶中的技术地位。
目前除了新兴的互联网企业如百度/特斯拉等在研究的人驾驶,各大传统汽车公司如宝马、奥迪等也在急锣密鼓地研究自动驾驶技术。
(3) 智能监控
剩余内容已隐藏,请支付后下载全文,论文总字数:17745字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;