论文总字数:24230字
目 录
1背景 1
1.1 机器学习及其发展 1
1.2 机器学习在气象方面的应用 1
2 预备知识 2
2.1 稀疏模型(Sparse) 3
2.2 Lasso和Group Lasso 3
2.3 SGL 4
3 实验平台及数据 6
3.1 MATLAB软件 6
3.2 SLEP工具包 6
3.3 数据来源 7
4 实验结果及分析 7
4.1 实验描述 7
4.2 实验准备 8
4.2.1 SLEP函数选择 8
4.2.2 NCEP/NCAR Reanalysis1数据集 9
4.3 实验实施 9
4.3.1 数据获取 9
4.3.2 参数说明 9
4.3.3 消除季节性影响 13
4.3.4 程序调试 13
4.4 实验结果 14
4.4.1 实验模型 14
4.4.2 实验结果精度 15
4.4.3被选择的变量 17
4.4.4 邻近地区对线性预测的影响 17
4.4.5 正则化参数影响 18
4.5 实验心得 19
5 结论与讨论 19
参考文献 20
致谢 22
基于组稀疏回归模型的气候数据关联分析
季繁繁
, China
Absract:In recent years,the datasets to be handled have a high dimensionality or super high dimensionality and these datasets’ structure are quite complex.Though these datasets have a large dimensionality,only few variables are related to the output variables.So the ways of finding the related variables have been very important in many science fields,which gives way for the contents of Sparse and Group sparse.In this paper has a theoretical basis of Sparse Group Lasso(SGL).In this paper,I will learn the theory of SGL roughly according to a foreign literature.I’ll learn the process of concistency of the climate data by the SGL mentioned in the paper and realize the algorithm and experiment in this paper by using the MATLAB and the SLEP package.In my paper,the process of experiment will occupy a lot. I will have a basic understanding of the SGL model and the role of the model in data analysis through this paper.
Keywords: Sparse Group Lasso(SGL); consistency;MATLAB;SLEP
1背景
1.1 机器学习及其发展
学习是人类特有的能力,但是由于科技的发展人类开始想将这种能力移植到计算机身上,这就促进了机器学习的产生。1959年,美国计算机领域先驱者Arthur Samuel简单地提出了机器学习(Machine Learning)这个概念,他认为机器学习就是在不直接对计算机进行纯粹编程情况下,而赋予计算机学习能力的学科领域。Arthur Samuel设计的西洋棋程序可以算是机器学习理论运用的一个雏形。1998年,美国人工智能领域科学家Tom Mitchell赋予机器学习一个更为明确的定义,他认为机器学习就是计算机A依据一些经历E学习所需技能T,且E越大,则T的评判标准P就越好。
二十世纪五十年代到七十年代,人工智能研究处于“推理期”,那时人们以为机器只要具备逻辑推理能力,机器就可以具有智能,但是随着研究的深入,人们发现仅具有逻辑推理能力是远远不能实现智能的。二十世纪七十年代中期开始,人工智能研究进入到“知识期”。这一时期产生了多种专家系统,但是由于种种原因,人们并不能将知识总结出来交给计算机。二十世纪八十年代,机器学习成为了一个独立的学科领域。各种机器学习技术相继涌现,机器学习走上了人工智能主舞台。如今,机器学习已经发展一门相当大的学科领域。
数据常常与信息挂钩。在过去二十多年里,人类数据收集、存储、传输处理的能力迅速提高。数据处理一直科学领域必须研究的问题。在大数据时代的背景之下,不同领域的数据集的收集和策划中经历了巨大的增长,通常涉及数千甚至数百万个变量。比如医学领域,地理科学领域还有气象科学领域等。机器学习的发展顺应了大时代这些学科的迫切要求,机器学习的迅猛发展也受到了人们的广泛关注。机器学习的发展为许多交叉学科很多困难问题的解决指明了方向。这些交叉学科包含数据获取、数据分析、数据管理及仿真等环节,而机器学习就可以应用到数据分析技术中。
今天,我们的生活已经离不开机器学习了。机器学习技术对卫星和传感器数据进行分析,提高了预测和检验的正确性,天气预报,能源勘测,环境评估等方面都运用到了这一技术。在商业领域,商家利用机器学习技术对客户信息还有销售数据进行分析,从而获取到了消费者的消费习惯,这就有助于商家制定有效的销售策略。如今,淘宝、谷歌、百度等互联网商家在其许多环节都运用了机器学习技术。相信,未来机器学习技术会在生活的各个方面扮演着越来越重要的作用。[4]
1.2 机器学习在气象方面的应用
气象资料具有数据量大、多样性、多维性、数据类型复杂性、连续性和时空性等特点。机器学习技术在气象科学领域有着十分重要的应用。气象数据的维度及其复杂度随着时间以及数据收集地点呈指数式增长。随着气象信息化程度的不断提高,气象相关部门积累了大量的数据,如何管理与利用这些数据是提高气象预测精度以及对天气灾害进行有效预警的关键。据统计 ,每天通过气象信息中心广播下发到各台站的气象数据高达 300-500M ;新一代天气雷达信息共享平台建成后 ,台站收到的气象雷达资料每天高达100 G ;而中央台站每天收到的资料更是高达 TB 数量级 ,业务应用的数据高达 PB 数量级[2] 。 如何充分利用如此庞大而又珍贵的气象资料成为数据分析技术重要研究的课题。
在研究许多问题时,搞清不同变量之间关联性是十分重要的,许多模型的建立就是依据变量之间的关联性关系。但是,传统的数据模型,比如最小回归模型(OLS)对高维甚至超高维数据之间关联性就发挥不了作用,因为该模型只适用于低维数据。因此,新的数据分析模型必须要被提出来解决高维数据集问题。同样,我们需要这些模型提供有效的实验和优化路径。在如今许多领域满足以上标准的模型对解决问题有十分重要的作用。
机器学习在数据挖掘中使用的方法主要有五种:(1)规则归纳(rule induction),(2)神经网络(neural networks),(3)事例推理(case-based reasoning),(4)遗传算法(genetic algorithms),(5)归纳性逻辑设计(inductive logic programming)[3]。气象数据挖掘技术如今也得到了迅猛的发展,这些技术主要包含以下几个方面:时空分析;降维分析(主要是精确分析和近似分析);分类预测还有关联分析。我们这次主要讨论的是关联分析。
根据气象数据时空特性和数据多维性特点,我们主要从两个方面分析数据的关联性:一是降低数据维度,指定属性进行数据分析;二是分析同一属性在不同时空的关联性关系。Rakesh Apwal等人首先提出关联规则挖掘这一概念。两个或两个以上的变量取值之间存在关系,就称为关联,数据关联研究是数据库中存在的一类重要的、可被发现的研究。关联分为又可以简单关联、时序关联和因果关联。关联分析的目的是找出数据库中各个数据之间存在的某种关联。[4]
国外的气象数据分析技术主要有关联规则方法、贝叶斯网络方法、聚类分析、粗糙集方法和空间数据分析等算法。比如Hinke T H等提出空间数据组成的矢量来并用矢量分析气象数据之间的关系[5]。Bilgin T T等利用聚类分析土耳其地区的温度数据[6]。Peters J F等利用粗糙集方法对雷达数据进行分析,从而识别夏季恶劣天气的风暴类型[7]。另外,国外还有专门的项目(欧洲的DEGREE项目等)对气象数据进行分析。[8]
国内的数据分析工作主要分布在一些研究所、高校还有部分公司。主要是研究数据分析技术的算法学习工作。国内一些人士通过在这方面工作发表了一些有建设意义的文章,这些文章中提出的算法也被运用到了实际生活中去。比如中国黄静华等人利用K-Means算法对气象站的气象数据进行了聚类研究[9],并取得了良好的效果。郑州大学何伟等人利用朴素贝叶斯方法对降雨量的进行了预测,研究结果也有很好的效果[10]。另外,我国于2003年统一布置自动气象站,各级气象部门通过各种方式为人们提供气象服务,很多数据分析技术在生活中有了实际应用。但是,国内外对气象数据的质量控制仍然存在两点不足:(1)质控方法太传统,主要是根据历史资料得出气候界限值及各要素允许值对观测值进行质量控,这就使得结果准确度不高;(2)数据挖掘算法的应用范围过于狭隘,主要集中于气象要素之间的相关性分析、天气现象的分类、降水量的预测等方面。[11]
虽然在机器学习技术在气象科学相关领域得到了许多应用,这些技术的应用在一定程度上改进了预测性能。但是预测性能的进一步改善存在两个问题:(1)为显示预测性能的改善,通常需要大量的数据预处理工作以及人为的协变量选择工作;(2)在规模较小的数据集上训练复杂模型通常会导致过度拟合,因而模型可解释性不高。因为我们需要研究的是印象气候因素的假说,所以这两个缺点是不能够被忽视的。[12]
近几年来,气象科学领域的许多改进传统物理模型预测性能的统计模型相继被提出,这些模型同时可以缩减统计范围。岭回归(Ridge regression)等方法被广泛运用到温度预测等领域。为缩减统计数据的范围,具有降低数据维度还有特征选择的回归方法常被使用,最常用的方法就是主成分分析法(principal component analysis ,简称PCA),对协变量使用该方法可以降低维度。其次就是运用于主成分分数上的多元线性或非参数回归模型。但是,特征选择在该方面没有得到过多的关注[12]。
剩余内容已隐藏,请支付后下载全文,论文总字数:24230字
相关图片展示:
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;