论文总字数:38709字
摘 要
图像语义是机器理解场景信息的关键内容,是人工智能的重要方面,相关研究也在不断发展,从关注RGB颜色纹理特征到附加深度几何结构特征,从关注室外场景到开始研究室内场景,顺应目前发展方向,本文提出基于RGB-D图像的室内场景语义分割。主要从以下3个步骤展开研究。第一步、进行深度图像预处理,同时分析图像的深度信息和结构特点,提取几何特征;第二步、完成图像分割,首先用分水岭算法进行过分割,然后训练决策树不断迭代合并过分割区域,并将提取到的几何特征作为附加信息用于改善分割效果;第三步、实现语义标注,从图像的分割区域中提取特征,训练神经网络以构建多分类的Softmax回归器,进行特征分类。
同时,对算法中的关键步骤进行优化。在图像分割中,采用分割树分层分割的方法以提高分割效率和结果准确度;在图像语义标注中,综合人工提取特征和机器提取SIFT特征描述子,增加特征数量与种类以实现更好的标注,并采用字典学习的方法,对提取到的特征进行稀疏表示,压缩降维减少算法的时间复杂度。
将本文算法在公开的NYU室内场景数据集上进行实验,能实现较好的分割和语义标注效果,通过对比RGB特征和深度特征对结果的影响,证明了深度信息的有效性,也说明了特征选择的重要意义。
关键词:RGB-D图像,室内场景,语义标注,分类器训练
Abstract
Image semantics is the key content of machine understanding of scene information. It is an important aspect of artificial intelligence. Related research—from focusing on RGB color and texture features to additional depth geometric structure features, from focusing on outdoor scenes to the study of indoor scenes—is continuously developing. In this paper, a semantic segmentation algorithm of indoor scenes based on RGB-D images is proposed. Mainly from the following three steps to carry out the study. The first step is to preprocess the depth image. Analyze the depth information and structure features of the image, and then extract the geometric features. In the second step, the image segmentation is completed. The watershed algorithm is used to segment the image first, and then the training decision tree is used to iteratively merge the over-segmented regions. What’s more, the extracted geometric features are used as additional information to improve the segmentation effect. The third step is to implement semantic annotation. Extract features from the segmentation regions of the image, and then train the neural network to construct a multi-class Softmax regression for feature classification.
At the same time, the key steps of the algorithm are optimized. In image segmentation, a hierarchical segmentation method called segmentation tree is used to improve the efficiency and accuracy of the result. In image semantic annotation, synthesizing both features extracted manually and SIFT feature descriptors extracted automatically by machines, the number and types of features are increased to achieve better labeling. What’s more, the method of dictionary learning is used for the sparse representation of the extracted features. Because of the dimension compression, the time complexity of the algorithm is reduced.
Experiments on the published NYU indoor scenes dataset shows that the algorithm can achieve better segmentation and semantic annotation effects. By comparing the effects of RGB features and depth features on the results, the effectiveness of depth information is proved. It also shows the importance of feature selection.
KEY WORDS: RGB-D image, indoor scene, semantic annotation, classifier training
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 课题研究背景与现实意义 1
1.2 课题国内外研究现状 2
1.3 论文主要内容与结构安排 5
1.3.1 论文主要内容 5
1.3.2 论文结构安排 5
第二章 深度图像处理及特征提取 7
2.1 室内场景图像信息分析 7
2.1.1 室内场景图像的深度信息 7
2.1.2 室内场景的结构特点分析 7
2.1.3 室内场景图像的数据来源 8
2.2 深度图像预处理 8
2.2.1 深度图像空洞修复 8
2.2.2 深度图像导向滤波 10
2.3 校正空间坐标 10
2.3.1 计算室内场景表面法线 11
2.3.2 获得主要正交方向的候选方向 11
2.3.3 提取三个主要正交方向 12
2.3.4 计算坐标变换矩阵 12
2.4 提取和合并平面 12
2.4.1 提取局部平面 12
2.4.2 合并主要平面 13
2.5 实验结果与分析 13
2.6 本章小结 16
第三章 融合深度信息的图像分割 17
3.1 融合深度信息的分水岭算法过分割 18
3.1.1 分水岭算法过分割 18
3.1.2 融合深度信息优化 18
3.2 训练决策树改进过分割 18
3.2.1 特征提取 19
3.2.2 分割树分层分割 19
3.2.3 决策树分类器训练 20
3.2.4 Adaboost算法改进 20
3.3 图像分割结果与评价 21
3.4 本章小结 26
第四章 融合深度信息的图像语义标注 28
4.1 室内场景结构分类 28
4.2 特征提取及优化 28
4.2.1 语义特征提取 29
4.2.2 SIFT特征描述子提取 29
4.2.3 稀疏表示压缩特征 31
4.3 训练多分类逻辑回归器 31
4.3.1 逻辑回归分类器 32
4.3.2 神经网络结构 32
4.3.3 神经网络训练 34
4.3.4 神经网络超参数选择 35
4.4 语义标注结果与评价 35
4.5 本章小结 37
第五章 总结与展望 39
5.1 论文工作总结 39
5.2 论文工作展望 39
致 谢 41
参考文献 42
绪论
课题研究背景与现实意义
图像语义分割,顾名思义,就是理解图像表达的含义,将图像场景进行理解性分割。对人类而言,可以轻易通过视觉感知获取图像,运用逻辑思维来分析理解图像,对于机器,却是个不小的挑战。
一方面,从图像获取的途径来看,人类依靠双眼可以获得十分充足的视觉信息,视觉系统是人类认知客观世界最重要的感官,通过视觉,我们能够较为精确地感知光的亮度,色调和饱和度等颜色特征,能够合理有效地分清各个物体及其之间的三维空间结构关系;同理,机器想要对周围环境有良好的感知,也需要借助信息量丰富的视觉系统,机器依靠摄像头感知三维图像以进行二维成像,不论是二值图,灰度图,还是RGB彩色图像,在空间上已经损失了一维的景深信息,传统的图像分割大多依赖物体的颜色属性聚类获得一致性区域,而忽略了物体在物理上的连通性。为克服这一问题,机器又借助红外光,结构光,激光等传感来获取深度信息,力求更大程度保留场景状态,融合了深度信息的RGB彩色图像,增加了机器的感受域。
剩余内容已隐藏,请支付后下载全文,论文总字数:38709字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;