论文总字数:19875字
目 录
1 绪论 1
1.1 研究背景 1
1.2 Kinect在国内外的发展情况 2
2.动作识别与PPT的控制 3
2.1.Kinect功能简介 3
2.1.1简单姿势识别——姿势识别方案 3
2.1.2 Kinect开发PPT播放助手 4
2.2.深度图像介绍与Kinect的骨骼追踪技术 6
2.3.动作的定义与识别 10
2.4.程序的编译 11
3.实验结果 13
4.工作总结 16
5.参考文献 17
致 谢 19
基于Kinect的PPT体感展示
王俊洋
,China
Abstract: In our daily life, the use of PPT in many occasions has become an indispensable part, and Kinect is known as the third generation of human-computer interaction epoch-making, so this article carried out based on Kinect PPT somatosensory display research work. My graduation design is based on Kinect PPT somatosensory display, mainly about the user through the body of some of the actions to correspond to PPT software on some of the shortcut keys to achieve the simulation of the PPT control effect of the keyboard. The graduation design mainly studied the depth of the human body through Kinect images, joint recognition and bone tracking technology. On this basis, this article describes in detail how Kinect control PPT.
Keywords: Kinect; PPT; C ; human-computer interaction
1 绪论
1.1 研究背景
Kinect是微软公司推出的最新的基于体感交互的人机交互设备。Kinect最初作为Xbox 360的外接设备发布,利用即时动态骨骼追踪、影响识别、麦克风输入、语音识别等功能让玩家拜托传统游戏手柄的束缚,通过自己的肢体动作来控制游戏。随着个人计算的普及和计算机技术的迅速发展,人机交互早已成为人们生活和工作中重要的一部分。在日常生活中,PPT的使用很是广泛,大大提高了使用者表达自己意图的效率,使使用者完全从呆板的板书中得到解放,而且PPT中可以在合适的位置上添加图片、声音、视频等元素,更加有利于使用者对所要描述的内容的表达,提高了使用者的传达效果。PPT中包含音频、视屏等多媒体元素和标准的文字,更加清晰易懂,使他人不用去刻意的猜解讲师板书中省属难懂的文字,从而提高了收听者对内容的理解和笔记录的质量。并且PPT有复制粘贴的功能,弥补了板书的实时性和死板缺陷,即使在课后的复习中,人们也会很容易的重现讲师的描述思路,有利于听课者对信息的接受与掌握。
但是,随着PPT的广泛应用,随之而来的问题也应运而生。在使用者操作的过程中,使用者往往通过鼠标、键盘等外设控制PPT,由于鼠标、键盘势必与讲台与电脑绑在一起,因而,这就将会把使用者也限制在了电脑周围。这样在某种程度上必然会增加讲师与听课者之间的距离,减少二者之间的交流,从而降低二者之间的互动性,进而影响到使用者的教学质量与传达信息的效率。即使使用了激光笔使得在教学中的灵活性得到了改善,但是“光点”的出现以及在屏幕上的晃来晃去也势必会扰乱听课者的视线,进而影响到讲师讲课的效率,达不到最理想话的效果。
而人机交互技术是通过计算机输入、输出设备,以有效的方式实现人与计算机的对话,通过Kinect可以解除鼠标、键盘等传统工具对人们的束缚,不再像传统意义上的通过鼠标和键盘等外设控制电脑而无法释放操作者身体,必须近距离操作。本设计可以通过Kinect传感器令使用者摆脱这些需要近距离操作的外设的束缚,仅仅通过肢体语言就可以让电脑读懂操作者的操作意图,给使用者绝佳的操控体验。
Kinect是2010年微软推出Xbox 360时,作为体感接收器一起发布的,随后微软推出来多款配套的游戏,其中有赛车游戏《Joyride》、冒险游戏《Kinect Adventure》、运动游戏《Kinect Sports》、Lucasarts出品的《星球大战》等等。Kinect提供了一种全新的操作模式,即通过语言、手势、动作来实现操作。Kinect有三个摄像头,中间一个是RGB摄像头,用来获取640x480的彩色图像,两边是两个深度传感器,左侧的是红外发射器,右侧的是红外接收器,用来检测玩家的相对位置。Kinect的两侧是一组四元麦克风阵列,用于声源定位和语音识别。Kinect的外观如图1所示。
图1 Kinect外观
1.2 Kinect在国内外的发展情况
现在Kinect已经被世界吉尼斯纪录组织称为史上最畅销的电子产品。如今,Kinect已经不仅仅局限在游戏领域了,更是在医疗领域、电子商务领域和计算机应用等方面也是风靡一时,甚至在欧洲的很多时装店都设有虚拟试衣间,使得客户在家里就可以试验心仪的衣服了。大家都知道医院的手术室对无菌的要求特别高,Kinect可以实现医生在手术过程中无须接触任何东西便可以对病人的病例或CT片进行放大缩小以及查阅。近日,英国的Nottingham Trent大学正在着手于打造一个可以识别面目表情和手势的设备,以此来帮助中风患者,使得他们可以在失语甚至行动不便的情况下表达自己的内心所想。中山大学的Kinect开发团队目前正在致力于虚拟网络试衣间,这样的话顾客无需亲自到店铺试穿,就可以看到各种衣帽饰品穿戴在自己身上的3D效果,实现了顾客在虚拟网络试衣间中体验真实的试穿体验,全方位多角度的感受衣帽饰品的穿戴效果,进而也免去了换衣服时所需要耗费的时间与精力。
换一种说法,现在的Kinect主要有三大类的应用场景。第一种是自然人机交互界面。这一类应用就是上述所阐述的Kinect应用于手术室的影像操作、虚拟试衣间的试穿操作,当然也包括Kinect对PPT的控制以及图片的浏览等等,这些自然人机交互界面的应用给人类带来了更多的用户体验。第二种是对自然环境的识别。主要有利用Kinect进行的机器人导航进行对障碍物的躲避等,这种对自然环境的识别的应用主要是依据Kinect利用红外线散斑对物体进行的三维扫描重建来产生的深度图像数据。第三种是对自然用户的识别。这一类应用就是大家所熟知的Xbox360中的体感游戏,这里用到的是利用Kinect对姿势、动作以及人脸的识别,从而使得用户可以参与到游戏当中。当然还有一些更加复杂的应用场景,会用到上述三个方面的特征,由于过于高级,在这里就不做过多的累述。
但是目前,Kinect的应用技术的开发才刚刚开始,还没有更好的面的大众,然而Kinect已然表现出了它的强大之处,也向世人展现了它的顽强的生命力以及多样性的发展趋势。随着现在大家对Kinect的了解以及进一步的挖掘,相信很快Kinect的技术就会进一步的日趋成熟,也会使得我们对它作进一步的最大化的挖掘。为人机交互带来突飞猛进的进步和质的突破,也势必会在更多的领域得到更广泛的应用。
2.动作识别与PPT的控制
动作识别效果的好坏是直接影响能否顺利的使用Kinect控制PPT的关键,本文的动作识别是通过对各个关节点之间的位置关系以及左右手的各种动作信息的分析来实现的,随后将识别的结果传递给计算机来实现对PPT的体感控制。
2.1.Kinect功能简介
- Kinect提供了骨架追踪的功能,最多可以同时提供两个人身上的四十个关节点的信息。当调整至坐姿模式时,最多可以同时提供两个人上半身二十个关节点的信息。
- 提供了脸部追踪的功能,可以获取脸部及其周围八十七个特征点的信息[12]。
- 声音识别功能,四个麦克风构成的阵列收集所在环境中的各种声音信息,通过算法分析搜集到的信息来辨别声音来源的位置,并能够识别用户的语音命令。
- Kinect交互,用于识别用户手部的特殊动作,如握拳、按压。
- Kinect融合,这是提供三维建模的工具。
2.1.1简单姿势识别——姿势识别方案
简析:身体的各个关节的位置和手势可以定义一个姿势,具体来说,就是一个关节的位置或手势相比较于其他的关节的位置或手势是会定义一个姿势,姿势的复杂程度又决定了识别算法的复杂程度,因此,通过关节的位置或手势的交叉和各个关节之间的角度可以对姿势进行识别。
首先,我们对关节点命中测试,因为所有的关节点都是处于在同一个坐标空间内,所以所需要的工作量相对而言很少,使得计算起来很容易。例如向左伸直左手的动作,可以用骨骼数据追踪的方法得知左肩和左手的位置,然后计算左手与左肩两点位置之间的距离。如果距离大于某一个阈值,就可以认为两点分离。
但是,在使用Kinect的过程中,我们发现因为Kinect的精度问题,就算可以使用一些平滑参数的设置,从Kinect中获取的关节点数据也不会是完全匹配的。而且,使得每一位用户都会做出一系列连贯且一致的动作,或者在一段时间内一直保持同一个动作也不是很现实。换句话说,用户运动的精度以及数据的精度是很难计算的。因此,测得两个点之间的长度,并且计算出这个长度是否在一个阈值内是唯一可行的选择,当然角度原理也是如此。
当两个关节点相距的比较的近的时候,则会导致对关节点位置测量的精度进一步降低,进而使得根据骨骼追踪来判断一个关节点的开始与另一个点的结束是否为同一点变得很困难。也就是说,手放在头上和手捂在耳朵上这两个动作是无法有效的区分开来的,抑或是单独的一个手放在头上这个动作,仪器也很难确切的识别出来,导致使用者无法按照事先设计好的程序来做出相应的姿势。而一些指令使用其他的动作就会使得识别度变得很高,比如T姿势,即使用者张开双臂和肩膀处于同一条直线上。这样可以使用节点的相交技术准确的判断此时的手、肘和肩膀是否处在Y轴上近乎于同一坐标上。除此之外,计算各个关节点连线之间的角度也可以达到同样的效果。骨骼追踪技术最多可以准确的识别20个关节点的数据,而其中的任何三个关节点都可以组成一个三角形(三点在同一直线上视为有一个角为180°的特殊三角形),利用几何三角定律就可以准确的计算出它们之间的角度信息。而实践上,我们有时候仅仅通过两个关节点就可以绘制出一个三角形,第三个关节点我们可以利用这两个已知的关节点来决定。接下来得到每个关节点在坐标系中的坐标,进而准确的计算出每个边的长度,然后使用余弦定理就可以得到我们所需要的各个角度。
比如在展示肱二头肌的这个姿势中,使用者的肩部和肘部处在同一直线上并且可以视为与地面平行,小臂和手与肩部和肘部垂直。在这个姿势中,我们可以抽象的看成一个直角三角形或者锐角三角形,接下来我们利用上述的方法得到三角形的每一个角度。
剩余内容已隐藏,请支付后下载全文,论文总字数:19875字
相关图片展示:
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;