基于决策融合的多分类器系统研究

 2022-01-20 12:01

论文总字数:15512字

目 录

1绪论 1

1.1研究背景及意义 1

1.1.1研究背景 1

1.1.2研究意义 1

1.2 分类技术的研究现状及应用领域 1

1.2.1 研究现状 1

1.2.2 应用领域 2

2 多分类器融合系统分析 2

2.1 多分类器融合系统的研究依据 2

2.2 多分类器融合系统的构架 3

2.3 常见分类器设计方法介绍 4

2.4多分类器融合决策设计 6

2.4.1多分类器融合方法对比 7

2.4.2基于符号级的融合方法 8

2.4.3基于排序级的融合方法 10

2.4.4基于度量级的融合方法 10

3 实验分析 11

3.1数据准备 11

3.2决策树分类器集成 12

4 总结 16

参考文献 16

附录 18

基于决策融合的多分类器系统研究

孟仁东

Abstract:Remote sensing image classification is an important field of remote sensing data processing and application. It is also a key research focus in data mining, geographic large data processing, machine learning and pattern recognition. The research of different classification algorithms shows that different classification algorithms lead to different classification results, and no classifier can achieve good results for all applications. Multi-classifier fusion strategy results from different classification algorithms for decision fusion, so as to achieve the integrated classifier, the classification performance is usually the classification effect is more stable and higher classification accuracy than single classification algorithm. Based on multi-classifier is introduced, the multi -classifier fusion system systematically, especially the classification decision tree classification and linear discriminant classification of these two kinds of weak classifiers based on data fusion, the numerical results show that the method of the effect on classification accuracy has improved significantly.

Keywords:Classification; fusion; classification algorithm; classifier

1绪论

1.1研究背景及意义

1.1.1研究背景

由于遥感影像中具有丰富的对地观测信息,针对遥感图像进行分类一直是遥感数据处理和分析的一个重要研究领域。遥感数据分类是数据挖掘研究中的一个重要内容。数据挖掘通常指从海量数据中提取或“挖掘”相关信息,它在多个研究和应用领域都有重要的发展,如数据获取技术、数据库技术、计算机技术和遥感技术,特别是随着计算机数据处理速度的加快和存储能力的增强,大数据挖掘已经成为当前的研究热点,对遥感图像的分类研究也将会推动大数据挖掘的相关研究的发展,这种技术将会逐步应用于人工智能、海量数据自动处理与信息提取、机器学习等领域[1,2,3]

遥感图像分类算法通常可以根据是否具有训练样本分为监督分类和非监督分类两种类型,当训练样本具有较高的代表性和类间可分离性时,监督分类算法可以获取更高的分类精度,这也就成为大数据挖掘中研究较多的一类算法。但是,人们发现只利用样本的少量特征对分类目标进行分类难以获取较好的分类效果,特别是类别数较多、类别间差异小的情况下更是难以获得更好的分类效果[4]。如果将这些少量的分类特征输入不同的分类器,可以获取不同的分类结果,而这些结果之间存在一定的互补性,这启发人们对多种分类器的分类结果进行某种程度上的融合以获取更好的分类效果,决策融合由此而出现。这意味着利用分类效果较差的弱分类器也可以得到更好的分类结果,对多分类器的融合策略的研究也逐渐成为当前的研究重点内容之一。

1.1.2研究意义

由于决策融合可以将多个分类器的分类结果进行集成,从而可以避免单个分类器在分类上的缺陷。本研究的意义在于对多分类系统进行分析,通过多光谱遥感图像分类数值实验来说明该类方法的有效性,为更加深入的分类器集成研究打下坚实的基础。

1.2 集成分类研究现状及应用领域

1.2.1 研究现状

对于集成分类的研究从三个角度展开:对于分类特征的选择和集成、对于分类算法的选取策略、对多分类器分类结果的集成策略研究。在分类特征的选择和集成方面,首先,人们可以利用多种传感器获取分类目标的各种特征,如手写字体的识别方面,可以获取形状特征和其他特征,而不同的特征在描述目标时所起的作用是不同的,如何选取最有效的特征对分类目标进行最准确的描述一直是人们的研究重点之一;其次,对于多种特征在分类过程中的权重如何衡量也是需要考虑的,例如,在遥感图像分类中,光谱特征一直是人们赖以分类的基础,但是,纹理特征和形状特征也逐渐被应用于遥感图像分类,对纹理特征和形状特征的单一分类效果和集成分类效果的研究还有待于深入讨论。

在分类算法选取方面,人们倾向于建立更加高效的分类模型,如各种改进的支持向量机分类算法。但是,在集成分类研究中,人们注意到多个弱分类器也可以达到类似于支持向量机这样的强分类器的效果。对于多个弱分类器的选取以及不同的弱分类器的组合权重也会影响到分类精度,特别是不同类型的弱分类器在集成分类中的集成策略对最终分类结果的影响需要更加深入细致的研究。

在分类结果集成策略研究方面,人们已经提出了多种融合策略,如张量投票算法、Bag算法、AdaBoost算法等,对于这些集成策略的效果还需要利用更多的实验数据和特征进行更加深入的验证。

1.2.2 应用领域

目前,多分类融合技术己被广泛应用于众多领域,例如:

l) 遥感图像分类和目标提取;

2) 人体生物特征识别;

3) 医学诊断;

4) 手写字体自动识别及分类;

5) 人工智能;

6) 网络大数据挖掘;

7) 地理数据挖掘及模式分析;

2 多分类器融合系统分析

2.1 多分类器融合系统的研究依据

(l) 由于可以获取的特征是多方面的,用于分类的特征可能属于不同类型,如多光谱图像中的光谱特征、纹理特征、形状特征和上下文特征,将这些特征用于单一分类器未必能够得到更好的分类效果,如果采用多分类方法,不同的特征输入到不同的单一分类器进行分类,然后对分类结果进行某种策略下的集成,将会在一定程度上得到更好的分类效果。

(2) 如果分类特征具有较高的维数就会导致单一分类器分类困难,如高光谱遥感图像中的光谱特征会多达数百个波段,如果再考虑纹理特征和形状特征,就会得到维数更高的分类特征,也就是所谓的维数灾难。对这种高维分类特征,一个较好的解决策略是把高维特征分解成多个低维特征,将低维特征分别输入到多个分类器,然后将分类结果进行某种策略下的集成。

(3) 由于多分类器之间存在差异性,如线性判别分类器、决策树分类器、极大似然估计分类器等,每一种分类方法都有其自身的适用范围,同时也具有一定的的优势和局限性。如果能够考虑到多分类器的优点,对多分类器得到的结果进行某种策略下的决策融合,就可以得到更好的分类准确度。

2.2 多分类器融合系统的构架

多分类器系统[5]是指利用多个弱分类器进行分类,对分类结果进行决策融合,目的在于利用不同的处理方法以获得对地面目标的更加准确的分类效果,提高分类精度和可靠性。从多分类器系统的运作机制可以看出,它可由5个互不排斥的部分组成,分别是特征选取和输入、单一分类算法的建模、弱分类算法的选取、多分类器系统的体系结构、决策融合规则。特征选取和输入指对不同的分类特征进行选择,然后输入到分类系统。单一分类算法的建模是指对每个弱分类算法进行建模和效果评价,从而定义不同类型的单一分类器,为多分类器的结果集成提供准备工作。弱分类算法的选取是指在多分类器系统中对不同的弱分类器进行某种程度上的优化组合,达到最优分类的目的。决策融合规则指对多个弱分类器所得到的结果进行组合的策略。

多分类器系统的拓扑结构可以分为串行结构、并行结构、混合结构。对于一个多分类器系统,特征输入与需要解决的具体分类问题高度相关,针对不同的分类目标需要设计不同的多分类器系统,如手写字体的识别与分类、遥感图像分类、人工智能及数据挖掘等方面,通过设计不同的决策融合策略来达到最好的分类效果。

图1给出了多分类器系统不同结构的拓扑图,(a)(b)(c)分别表示并行结构,串行结构及串并行混合结构。

图1多分类器系统结构

2.3 常见分类器设计方法介绍

影响分类算法的性能的因素主要在于分类算法自身的建立机制,如支持向量机具有较高的分类准确度,而线性分类器的分类准确度较低。除了分类算法自身特点之外,其他的因素,如特征的选取方法、不同的特征、训练样本的大小、训练方法的选取等方面。

  1. 基于距离的分类算法

利用光谱特征之间的距离,可定义不同的距离分类器,如常用的马氏距离分类器、欧式距离分类器、绝对距离分类器、光谱角制图等。马氏距离分类器是比较常见的弱分类器,主要是在欧式距离的基础上考虑了不同权重矩阵。

距离分类器实现简单,直观有效,可以很好的避免样本分配的不均衡性。不足之处是,每次识别时都要计算待识别样本x与全部训练样本之间的距离并进行比较,因此需要很大的计算量。

剩余内容已隐藏,请支付后下载全文,论文总字数:15512字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;