论文总字数:22756字
摘 要
科学技术的飞速进步,伴随着天文数据指数性的爆炸增长,天文大数据时代已悄然来临。曾经被科学家们广为使用的光谱分类方法,已经难以应对数百亿量级的巡天测光数据。机器学习技术为天文大数据的研发保驾护航,已是天文信息时代研究方向的大势所趋。
本课题使用多种已相对成熟的机器学习单模型对天文大数据进行清洗挖掘、分析分类,并尝试使用Stacking模型融合技术提高分类精度。从而以此探究,机器学习技术在天文大数据数据集上的适应度和可开发性。
从结果上看,机器学习模型对天文大数据有较高的实用性,单模型精度均在70%-95%间浮动,而经过调整的stacking融合模型,最高精度可达到95%左右,完全具备较高的可操作性和可尝试性,也为机器学习精度提升研究提供了一种可尝试的方案。
关键字:天文大数据;机器学习;分类器;Stacking;模型融合
Astronomical big data classification and mining based on machine learning
Abstract
The rapid progress of science and technology, accompanied by exponential explosion of astronomical data, the era of astronomical big data has quietly come. The spectral classification method that was widely used by scientists has been difficult to deal with tens of billions of skylight data. Machine learning technology escorts the research and development of astronomical big data, which is the general trend of the research direction in the era of astronomical information.
This topic uses a variety of relatively mature single models of machine learning to clean and mine astronomical big data, analyze and classify, and try to use Stacking model fusion technology to improve classification accuracy. In order to explore this, the adaptability and developability of machine learning technology on astronomical big data datasets.
From the results, the machine learning model has high practicability for astronomical big data. The accuracy of the single model is between 70% -95%, and the adjusted stacking fusion model can achieve the highest accuracy of about 95%. It is fully equipped The high operability and trialability also provide a tryable solution for the study of machine learning accuracy improvement.
Key words: Astronomical big data, machine learning, classifier, stacking, model fusion
目录
摘要 III
Abstract IV
第一章 引言 1
1.1 研究背景与意义 1
1.2 国内外研究现状 2
1.3 分类器及其研究现状 2
1.4 集成学习的决策选择 2
1.5 本课题研究内容 3
1.6 本文的篇幅结构 3
第二章 数据部分 5
2.1 原始数据 5
2.2 数据处理 5
2.2.1 错误处理 5
2.2.2 全量数据的抽样处理 5
2.3 特征处理 5
2.3.1 数据降维 5
2.3.2 PCA降维 6
2.4 处理不平衡数据 6
2.4.1 上采样 6
2.4.2 下采样 6
2.5 本章小结 7
第三章 天文分类模型构建 8
3.1 Boosting 8
3.2 Stacking 8
3.3 随机森林 9
3.4 GradientBoosting 10
3.5 LGBM 12
3.6 Xgboost 14
3.7 模型调参 16
3.8 实验准备 17
3.9 本章小结 17
第四章 模型实验 18
4.1 精度评估方法 18
4.2 模型参数设置 19
4.3 实验结果比对 19
4.4 本章小结 21
第五章 结束语 22
致谢 23
参考文献 24
附录 25
引言
研究背景与意义
如果您要用通俗的语言来总结集成学习的优势,那么它可能就是“向他人学习”。在过去的二十年中,与机器学习相关的社区进行了许多研究,以通过组合从一个或多个学习算法生成的多个分类器来提高单个分类器的性能。
例如,Bagging和Boosting是集成学习算法的最具代表性的示例。自从Wolfert在1992年提出堆栈泛化研究以来,诸如Stacking等更高级的算法在生成异构分类器和集成学习中也变成了很普遍的技术。
解决堆栈问题的研究表明,在选择基本学习算法以生成分类器集成员时,设置学习参数和选择用于生成元分类器的学习算法是关键问题。过去,关于此主题的大多数主要研究是手动选择基本学习算法,并调整其学习参数的适当组合以提高准确性。本主题尝试通过使用集成学习方法将其应用于天文大学。数据,以达到比原始单个模型更高的精度。 “集体智慧是巨大的,无论个人有多强大,它都无法创造中国文明。”该原理还可用于指导机器学习算法。集成学习算法的指导思想正是针对许多基本模型(也称为弱学习者)的组合,以达到“所有人都挑高火柴”的效果[1]。
近年来,以科学技术进步为动力的天文数据呈指数增长,天文大数据时代已经到来。科学家使用的光谱分类方法很难处理数十亿的光度学调查数据。随着颜色的增加,过去使用的多色分类方法也变得非常复杂。无法给出函数表达式,分类精度低,污染严重。但是,二十世纪中叶开发的机器学习方法可以有效地检测多维参数空间中的隐藏规则,并帮助天文学家做出决策和预测。其核心思想是教计算机通过“经验”而非标准来判断未知数据。
这里的“经验”是指开发模型所需的训练数据,其准确性与最终输出的准确性直接相关。因此,频谱调查数据被认为是理想的“经验”数据。郭守敬望远镜(LAMOST)是国家主要的科学技术基础设施,已产生了近千万个数量级的天文光谱,为研究人员提供了开发机器学习模型的机会。首先,研究人员结合了LAMOST和SDSS的光谱分类结果;第二,结合可见光和红外测量数据,获得这些天体的多色数据库。再次,测试了不同的机器学习方法,以找到最有效的算法,并开发了天体分类器。通过不同的调查数据对分类器进行盲法测试,准确率为94%-99%;最后,根据频谱测量给出的恒星温度,开发恒星温度回归器,利用其他测量数据对回归器进行盲目测试,标准偏差为200K。此外,研究人员还将分类器应用于新发布的Gaia DR2,发现其中约98%是恒星,而2%是星系和类星体。使用相对视差误差的标准可以获得非常纯净的恒星样本。研究结果对天文大数据分析,机器学习和天文学的合理应用具有重要意义。
国内外研究现状
集成学习是通过组合策略来组合一系列个体学习者的预测结果,并预测新实例。集成学习的主要思想是群体决策,而使用多种模型的思想在人类社会已经存在了很长时间。 1998年,弱学习者和强学习者的概念首先在PCA(大概近似正确)模型中提出,指出弱学习者至少比随机猜测更好,并且从理论上证明了整合可以将弱学习者提升为强学习者指出在了解弱学习者正确率下限的前提下,可以通过适当的整合方法将弱学习者提升为强学习者。由于 集成通常比构成它的单个分类器更准确,因此自1990年以来,在监督学习中构建的集成学习方法一直是热门趋势之一,各个领域的研究人员都在探索集成方法的不同方面[2]。
早期整合研究有两个主要方面:组合分类器和弱学习者的整合。组合分类器主要用于模式识别。研究人员主要研究强分类器,设计更强的组合策略以获得更强的组合分类器。这在与策略相结合的深刻理解中积累了经验。弱学习者的整合主要用于机器学习。研究人员主要研究弱学习者,并尝试设计更强的算法以将弱学习者提升为强学习者。例如,一些学者提出了Boosting算法,但是Boosting算法要求在最坏的情况下很难事先知道学习者的分类错误率。这导致了著名的集成方法AdaBoost的创建。它们是高度可行的,并且经常用于实际任务中。
分类器及其研究现状
分类器是一个系统,该系统从数据集采用实例和类或类别分配给每个他们的。要执行此任务,分类必须有一些类型的知识。该分类可以通过使用各种形式的学习(例如,演绎,类比,或记忆)的创建,但获得这些知识的最常用的方法是从一组预先分类的情况下的推断它。这种学习形式被称为监督学习。
大多数研究机器学习一直致力于开发能够自动分类任务的方法。尽管已经提出了模型的品种和数量,包括artifi-官方神经网络、决策树、归纳逻辑编程和贝叶斯学习算法,但对于不同的数据集,其分类器相应方式也有所不同。在集成学习系统的战略是创建一套分类和组合其输出使得该组合优于所有的单一分类的。为了实现这一目标,就必须保证:(1)方法分类个人设置的既准确又多样化的输出组合,放大了正确的决定,并可以过滤其不正确的选项。在传统领域的研究已经通常集中于通过施加单一的学习算法和使用数学函数组合它们的输出生成所述集合成员。与此相反,集成学习产生使用多个学习算法的集成组合的成员之后,又时常使用另一算法来学习如何的再次整合它们的输出。
集成学习的决策选择
一旦构成该集成学习的基分类器已建成后,下一步是确定通过该个人决定被组合以获得最终的假设的过程。对分类相结合的主要策略为:融合与分类器选择的前提是每个分类皆为其所在空间的某些局部区域的专家。因此,当实例被提交分类,由负责该空间的区域分类给出的决定集成学习的选择一致,将分类器融合,并从所有成员的决定集成学习组合以某种方式做出决定集成学习。分类器融合算法包括combin- ING规则,如平均值,多数表决,加权多数表决,博尔达计数,丛集成模型,元分类等。元分类器是从由基础分类器学习者给出的输出产生的第二级分类器。堆叠,决策树,组合树等均被认为是基于元学习器集成重组方法。
剩余内容已隐藏,请支付后下载全文,论文总字数:22756字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;