基于深度学习的语义分割算法研究

 2022-04-21 21:12:45

论文总字数:29328字

摘 要

语义分割是指在像素级别上对整个图像的内容进行分割,它是计算机视觉领域的基石性技术,对于自动驾驶、医疗诊断、地形识别等热门领域都有非常大的应用价值。本文主要研究基于深度学习的语义分割技术,重点是复现与改进DeepLabV3语义分割网络。

本文从语义分割网络的基本原理出发,研究了深度卷积神经网络的组成结构、经典模型和优化算法,从而深入分析语义分割网络的基本结构。以此为基础,剖析了DeepLabV3网络的算法特点,即空洞卷积和ASPP多尺度融合模块的使用,并深入探析了DeepLabV3的骨干网络,包括原骨干网络ResNet101以及本文所使用的改进网络Xception和MobileNetV2。

随后,根据DeepLabV3算法原理搭建网络,并制定训练策略,在不同数据集和不同骨干网络下进行实验。根据实验所得到的训练、评估和测试结果进行对比和分析,发现使用Xception作为骨干网络的DeepLabV3网络精准度最高,但训练时间最长;ResNet101精准度稍低,训练时间稍短;MobileNetV2精准度最低,但训练时间最短。因此在实际使用时,要考虑自己的优先需求来选择合适的骨干网络。针对实验结果,本文还提出了四点改进意见,对网络性能的改善均有一定的帮助。

关键词:深度学习,语义分割,深度卷积神经网络,DeepLabV3

Abstract

Semantic segmentation refers to the segmentation of the content of the entire image at the pixel level. It is the cornerstone technology in the field of computer vision with great application value for hot driving, medical diagnosis, terrain recognition and other popular fields. This paper mainly studies the semantic segmentation technology based on deep learning, focusing on the reproduction and improvement of DeepLabV3 semantic segmentation network.

Based on the basic principle of semantic segmentation network, this paper studies the composition, classical model and optimization algorithm of deep convolutional neural network, and then carefully analyzes the basic structure of semantic segmentation network. Based on these works, the algorithm characteristics of DeepLabV3 network are analyzed, including hole convolution and ASPP multi-scale fusion module. Then the backbone of DeepLabV3 is further analyzed, including the original backbone ResNet101 and the improved network Xception and MobileNetV2 used in this paper.

Next, this paper builds the network according to the DeepLabV3 algorithm principle, and develops a training strategy to conduct experiments under different datasets and different backbones. It can be observed from the training, evaluation and test results obtained from the experiment that the DeepLabV3 network using Xception as backbone has the highest accuracy but the longest training time; ResNet101 has lower accuracy and shorter training time; MobileNetV2 has the lowest accuracy and shortest training time. Therefore, the choice of appropriate backbone in practical application depends on one’s own priority needs. From experimental results, this paper also puts forward four suggestions for improvement, which will help the advancement of network performance.

Key words: Deep learning, Semantic segmentation, Deep convolutional neural network,

DeepLabV3

目 录

摘要 Ⅰ

Abstract Ⅱ

第一章 绪论 1

1.1研究背景和意义 1

1.2国内外研究现状 1

1.2.1传统语义分割技术研究现状 1

1.2.2基于深度学习的语义分割技术研究现状 2

1.3本文主要工作与组织结构 5

第二章 语义分割相关内容概述 6

2.1深度卷积神经网络原理 6

2.1.1组成结构 6

2.1.2经典模型 7

2.1.3优化算法 10

2.2语义分割相关内容 11

2.2.1基本结构 11

2.2.2常用数据集 12

2.2.3技术指标 12

2.3本章小结 12

第三章 DeepLabV3算法研究及改进 14

3.1DeepLabV3算法 14

3.1.1空洞卷积 14

3.1.2 ASPP多尺度融合 15

3.2骨干网络实现与改进策略 15

3.2.1 ResNet101 15

3.2.2 Xception 15

3.2.3 MobileNetV2 16

3.3本章小结 17

第四章 实验结果对比和分析 18

4.1实验环境介绍 18

4.2数据预处理与模型训练 18

4.2.1数据预处理 18

4.2.2参数初始化 18

4.2.3优化器与学习策略 18

4.3实验结果对比与分析 19

4.3.1不同骨干网络下的实验结果 19

4.3.2思考与改进 21

4.4本章小结 23

第五章 总结与展望 24

5.1本文总结 24

5.2工作展望 24

参考文献 26

致谢 28

第一章 绪论

1.1研究背景和意义

如今已经进入了智能AI时代,随着研究者们对于机器学习的不断探索,深度学习应运而生。深度学习通过搭建深度人工神经网络,模拟人脑中神经元的相互作用方式,可以让机器学会像人一样思考和学习,如学会描述图片[1, 2]、检测物体[3, 4]等等。深度学习在近几年发展迅猛,已经成功应用于计算机视觉、语音识别、自然语言处理等领域。

计算机视觉的主要任务,就是通过建立深度神经网络和高效的学习算法,使得计算机拥有模拟人眼观察和处理图像的能力,帮助计算机理解图像本身及其代表的深层含义。而语义分割作为场景理解的基石技术,在计算机视觉领域中有着举足轻重的作用。语义分割技术通过实现像素级别的精细分割,将图像场景中每个类别标上不同的颜色,帮助人们更快、更好地捕捉到场景中的关键信息,在许多应用中发挥着重要的作用。如无人车驾驶应用中,通过实时地识别和理解街景和道路,帮助无人车在正确地路线上行驶[5]。又如医疗影像分析应用中,将人工神经网络与医疗诊断结合,能够帮助诊断病人的病情,得到更全面的分析结果[6]。因此,研究语义分割技术是十分重要的。

剩余内容已隐藏,请支付后下载全文,论文总字数:29328字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;