论文总字数:22979字
摘 要
图像处理是在人工智能领域备受关注的一个方向。它指的是通过技术手段利用电脑去处理、分析以及理解图像,以在多环境中找出目标图像为最终追求。而计算机视觉是条形码扫描器“看到”UPC中的一堆条纹的能力。手势识别系统由于其在多领域的应用以及它通过人机交互与机器巧妙的配合能力。近几年里,受到了非同一般的关注。对手语翻译、虚拟环境、智能监控、对机器人的控制,以及医疗系统等领域里都有着非常大的帮助。手势识别系统的核心目标是在于如何在人和电脑之间建立一种自然的交互。尽管我们的手机影响了触摸屏对屏幕创新的利用,但它还不够简易,无法在工作区域框架中实现。尽管鼠标在小工具控制方面非常有价值,但对于身体残疾的人和不熟悉使用鼠标进行连接的人来说,它可能会被错误地安排使用。而手势的应用在这种情况下可以得到很好的发展。
本文将以近期手势识别系统在神经网络帮助下的发展以及现已获得成就最为背景,重点陈述三种手势的识别系统的建立。其中背景中仍囊括了神经网络的构建流程,对于适用于图像识别的卷积神经网络的制作流程以及细节的介绍,同时对LeNet-5的结构构成予以说明。并且,本文着重陈述了两种方法,一是利用API的深度学习图像识别,二是通过自建的数据集来完成该手势识别系统。并且比较了两种方法之间利弊。在介绍第二种方法时,提供了两种获取图片数据集的方法。之后通过测试图片检测两种方法生成的模型是否合格。
关键词:手势识别,Python,Lenet5,tensorflow,API
The Recognition of Gestures Based on Machine Learning
Abstract
Image processing is a focus in the field of artificial intelligence. It refers to the use of computers to process, analyze and understand images through technical means, with the ultimate goal of finding target images in multiple environments. Computer vision is the bar-code scanner's ability to "see" a bunch of stripes in the UPC. Gesture recognition system due to its application in many fields and its ability to skillfully cooperate with machines through human-computer interaction, in recent years, it has received extraordinary attention. Translation of spoken language, virtual environments, intelligent surveillance, control of robots, and medical systems are all very helpful. The core goal of gesture recognition systems is how to establish a natural interaction between people and computers. Although our phones have influenced the use of touch screens for screen innovation, they are not easy enough to implement in a workspace framework. While the mouse is valuable for gadget control, it can be incorrectly scheduled for use by people with physical disabilities and those unfamiliar with using a mouse to connect. The application of gestures can be well developed in this case.
Based on the recent development of gesture recognition system with the help of neural network and its achievements, this paper focuses on the establishment of three gesture recognition systems. The background still includes the construction process of neural network, the introduction of neural nets-convolutional neural network, which is suitable for image recognition, and the structural description of lenet-5.At the same time, this paper mainly introduces two methods: one is the deep learning image recognition by using API, the other is to complete the gesture recognition system through the self-built data set. In the second method, two methods of obtaining the image data set are provided. Then test the pictures to check whether the models generated by the two methods are qualified.
Key words: gesture recognition,Python,Lenet5,tensorflow,API
目 录
摘 要 I
Abstract II
第一章 引言 1
1.1图像识别的发展 1
1.2 手势识别的发展 1
1.3 TensorFlow 1
1.4本课题的研究思路 2
1.5 本文工作内容安排 2
第二章 数字图像处理 3
2.1低层次的图像特征 3
2.1.1 颜色特征 3
2.1.2 形状特征 4
2.1.3 纹理特征 4
2.1.4 空间位置 5
2.2图像预处理 5
2.2.1灰度化 5
2.2.2 标准化图像 6
2.2.3图像增强 6
第三章 神经网络对于图像识别的发展 7
3.1 神经网络的概念 7
3.2 神经网络构建的流程 7
3.2.1 激活函数 9
3.2.2损失函数 11
3.3卷积神经网络CNN 11
3.3.1卷积层 13
3.3.2池化层 13
3.3.3 FC层 14
第四章 利用API实现深度学习下的图像识别 15
4.1 API的意义及发展 15
4.2基于API的图像识别的流程 15
4.3基于API的图像识别的实验过程 16
第五章 自制数据集以实现深度学习下的图像识别 19
5.1 基于自制数据集的深度学习图像识别的流程 19
5.2数据集 19
5.2.1 从网络上获取 20
5.2.2 自建数据集 21
5.3 神经网络模型的选择 22
5.3.1 LeNet-5 神经网络 22
5.4模型的训练及测试 26
第六章 结束语 30
致 谢 31
参考文献 32
第一章 引言
1.1图像识别的发展
十几年前,人工智能对于我大众来说,听起来就像是科技未来的科幻预言。而现如今,机器学习完全已经成为了人们日常使用的技术进步背后的助力器。图像识别是信息技术最容易使用的应用之一,它正在推动一场全新的在线视觉革命。目前看起来,非常多的新兴技术创新都依赖于图像识别。这种说法是非常正确的。近期,智能手机中的人脸识别技术、自动驾驶汽车中的自动模式以及医疗保健中的诊断成像技术都取得了巨大的进步。[1]他们都使用解决方案,使他们面前的物体有意义,这就是为什么它经常被称为“计算机视觉”。这些电脑能够根据它们“看到”的东西做出非常准确的选择。图像识别技术致力于识别对象、人、建筑物、地点、标识以及对消费者和企业有价值的任何其他东西。配备了摄像头的智能手机和平板电脑将这项技术从主要的工业应用(例如,水果分拣)推向了消费者应用。例如,标识、汽车、地标、葡萄酒标签、书籍和专辑封面都可以被消费者智能手机识别,使用的移动应用程序可以访问云中的图像识别软件。图像识别具有将图像转换为Internet上某物的超链接的潜力(例如,信息、服务、优惠券或视频)。它还可以用来发起搜索——这是谷歌和亚马逊投资这项技术的主要原因之一。此外,图像识别在安全和内容管理方面也有应用。我们对图像识别的定义不包括视频分析或视频搜索,尽管视频分析经常合并图像识别技术。[2][20]
1.2 手势识别的发展
手势识别是一种由计算机设备对人体动作所做的数学解释。在目前的大环境下,手势通常用于输入命令。将手势识别为输入,使身体受损的人更容易接触到电脑,并使互动在游戏或3d虚拟现实环境中更自然。手和身体的姿势可以通过一个包含加速计和陀螺仪的控制器来放大,以感知倾斜、旋转和运动的加速——或者计算设备可以配备一个摄像头,这样设备中的软件就可以识别和解释特定的姿势。例如,挥手可能会终止程序。[3]
手势通常用于输入命令。将手势识别为输入,使身体受损的人更容易接触到电脑,并使互动在游戏或3d虚拟现实环境中更自然。手和身体的姿势可以通过一个包含加速计和陀螺仪的控制器来放大,通过对倾斜的角度、运动的加速度、物体的旋转程度的感知,这样设备中的软件就可以识别和解释特定的姿势。例如,挥手可能会终止程序。[4]
剩余内容已隐藏,请支付后下载全文,论文总字数:22979字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;