论文总字数:22894字
目 录
1 引言 1
1.1 研究背景及意义 1
1.2 随机森林算法及其应用现状 2
1.3 论文结构 2
2 实验数据 4
2.1 实验数据 4
2.2 数据内插 4
3 基于随机森林的多光谱LIDAR地物分类 6
3.1 随机森林原理 6
3.1.1随机森林重要参数 6
3.1.2 特征贡献度 8
3.2 特征提取 8
3.2.1 光谱特征 9
3.2.2 纹理特征 9
3.2.3 植被指数 10
3.3训练样本 11
3.4 基于随机森林的多光谱LIDAR地物分类 12
3.5 分类精度 13
4 实验与分析 14
4.1 随机森林的多光谱LIDAR地物分类结果 14
4.2 变量重要性分析 15
4.3 对比实验 20
4.3.1不同训练样本的SVM分类 20
4.3.2后向特征选择的SVM分类 21
5 总结与展望 24
5.1 论文总结 24
5.2 研究展望 25
参考文献 26
致谢 27
多光谱LIDAR的随机森林地物分类研究
姚文静
,China
Abstract: Airborne LIDAR technology can quickly get the three-dimensional coordinates of ground objects by using laser to detect and ranging. Now it has been widely used in topographic mapping,engineering construction,environmental monitoring and classification research of ground objects. Random Forest (RF) is a classifier that trains and tests the sample data by establishing multiple decision tree models and synthesizing all predictions. The implementation process of this algorithm is to randomly select multiple sample sets from the original sample set by bootstrap resampling method in a back-to-back way. Then, for each bootstrap random sample, its decision tree (DT) model is established. And each decision tree will generate a prediction result, synthesize these predictions and get the final classification result by voting. In this paper, random forest algorithm is used to study the classification of ground objects in airborne multispectral LIDAR data, then make a comparison with the classification results of support vector machine(SVM). According to the experiment, we can draw a conclusion that the classification precision of RF is higher than SVM.What’s more, RF can calculate the variable importance of classification results.
Key words: Multispectral LIDAR;feature selection;random forest;feature classification
1 引言
1.1 研究背景及意义
机载LIDAR技术近几年来蓬勃发展,它可以迅速地得到地面目标物体的三维空间坐标信息以及激光反射强度信息,目前已经被广泛地应用于遥感制图、地物调绘、数字城市、工程建设以及军事探测等各个领域。利用该技术,实时获取地面物体的三维空间坐标信息得到了迅速的发展进步,同时它具有数据精度高、获取速度快、生产周期短、自动化水平高以及受外部条件影响小等特点。处理获取的原始机载LIDAR数据可以生成一系列我们所需要的地图产品,例如4D产品(数字高程模型(DEM)、数字正射影像图(DOM)、数字线划图(DLG)、数字栅格图(DRG))、等高线图以及数字地面模型(DTM)等等。相比于测绘领域中常规的测量方法和技术,机载LIDAR技术在很多方面都具有很大的发展空间以及广泛的应用市场。
尽管机载LIDAR数据能够向我们提供地面目标物体的三维空间坐标信息,但是它的数据在分布形式上呈现出离散状态,而且具有不均匀性;同时,由于硬件条件和数据获取方式的限制,机载激光LIDAR的扫描覆盖范围有限,且无法提供目标对象的光谱信息[1]。针对数据量庞大、形式复杂而且无规律性的原始机载LIDAR点云数据,对其进行插值计算生成数字表面模型(DSM)可实现快速的数据处理[2]。并可与多光谱遥感影像融合,同时结合各种植被指数以及光谱特征和纹理特征,实现对地物的识别和分类。但是,LIDAR数据与影像数据融合使用存在一定的数据配准问题。目前的多光谱LIDAR系统,比如Optech 公司的Titan多光谱LIDAR系统,可以在同一时刻获得多个波段下的独立激光点云数据,不仅提供了LIDAR的几何信息,而且还提供了多个波段的强度信息。因此,本文将探讨多光谱LIDAR数据在地物分类和识别方面的能力。
目前为止,国内外已经有很多学者和专家对LIDAR数据的地物分类方法进行了各种研究,比如最大似然分类法、决策树法[3]、贝叶斯网络法[4]、支持向量机法(SVM)[5]、ISODATA[6]等各种分类方法。但是传统的分类模型容易出现过拟合问题而且分类效果也不理想,所以就有学者研究将多个分类模型组合起来以提高分类精度[7]。在此基础上,Leo Breiman和Adele Culter等人于2001年首次提出了一种全新的集成学习技术——随机森林算法[8](Random Forest,RF)。随机森林算法进行分类处理相关的问题时精度很高,而且由于采用随机取样方法所以不容易过拟合,有很多其他模型没有的优点:①可以用来对特征变量数较多的样本数据集进行分类,而且分类完成后可以计算特征贡献度;②建立随机森林模型时,对于泛化误差的处理使用的是无偏估计,所以模型的泛化能力比较强;③针对样本中可能出现的缺失值,随机森林算法提供了多种处理方法,所以能够直接对带有缺失数据值的样本集进行分类;④随机森林算法可以有效地平衡样本数据集的错分和漏分误差,在很大程度上避免了出现分类不平衡的现象。众多实验和研究均表明随机森林算法在进行分类处理工作时精度很高,并且能够很好地处理异常值和噪声。因此,本文利用随机森林方法,对多光谱LIDAR数据进行地物分类研究。
1.2 随机森林算法及其应用现状
随机森林算法的实现过程是通过bootstrap重抽样方法从原始的样本数据集中有放回地随机选取多个样本集,然后利用节点分裂技术建立每个bootstrap随机样本的决策树模型。每棵决策树都会产生一个预测结果,综合所有的预测,再经过多数投票表决的方法得到最后的分类结果[9]。随机森林算法的中心思想在于“随机”也就是对选用的样本数据在样本类别(行)和特征变量(列)上随机采样。
国内外有很多学者和专家都进行了关于随机森林应用的研究,可以利用随机森林算法进行各种分类处理工作,在遥感领域中可以直接应用它进行地物分类、土地覆盖分类等研究。通过大量地阅读国内外相关文献发现,应用随机森林算法进行分类研究问题时,可以使用的影像数据源主要包括四种:高光谱影像数据、Landsat多光谱影像数据、LIDAR影像数据以及多源影像数据。
在文献中,以Landsat ETM 多光谱影像数据作为研究对象,利用随机森林进行地物覆盖分类研究,然后进行对比实验讨论随机森林、Boosting、Bagging和CART几种分类方法在精度上的差异,实验结果表明随机森林的分类精度与CART相比有明显的提高,但是与Boosting和Bagging的分类精度相差不大[10]。在文献中,利用随机森林对Landsat数据和其他辅助地理数据组合成的多源数据影像进行土地覆盖分类[11]。在文献中,研究了随机森林算法在多光谱LIDAR数据的城市测绘中的应用,同时也计算了每个特征变量对分类结果的贡献度[12]。Waske和Braun等人利用随机森林算法对多相位C波段的SAR数据进行地物覆盖分类研究,实验结果表明了使用多相位数据可以有效地提高分类质量[13]。
目前国内有关于随机森林算法在遥感领域中的应用特别是影像分类处理问题上的研究刚刚起步,孙洪等人研究将随机森林算法应用于极化SAR影像中的分类处理问题并且取得了良好的分类效果,周天宁等人应用改进后的随机森林算法进行土地覆盖分类研究[14],刘毅等人将随机森林算法应用于国产小卫星影像的分类处理问题中,并研究了其分类性能[15]。
大量的理论与实验证明了随机森林算法在各种数据源影像的分类处理问题中均有着优良的表现,分类精度较高。因此,本论文将研究随机森林算法在多光谱LIDAR数据地物分类中的应用,给出每个特征的分类贡献度,进行后向特征选择,并与支持向量机的分类结果对比。
1.3 论文结构
利用机载多光谱LIDAR技术可以快速地得到地面目标物体的三维空间坐标信息,结合地物表面材质的强度信息转化为距离与强度图像数据,提取植被信息、高程特征、纹理特征和光谱特征;根据一定数量的训练样本,研究随机森林算法在多光谱LIDAR数据分类中的性能,并评价分类结果的精度;最后与支持向量机(SVM)的分类结果比较。
剩余内容已隐藏,请支付后下载全文,论文总字数:22894字
相关图片展示:
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;