论文总字数:18199字
目 录
1 绪论 6
1.1 选题的背景、目的和意义 6
1.2 国内外相关研究现状 7
1.3 本文的主要工作 8
1.4 本文的组织结构及设计思路 8
2 数据预处理和相关性分析 9
2.1 数据的描述 9
2.1.1 数据的来源 9
2.1.2数据特征的分析 9
2.2 均值和方差对比分析 11
2.3 相关系数的分析 12
2.3.1 相关系数的意义 12
2.3.2 计算同种相关系数 12
2.3.3 计算不同种相关系数 13
2.4 逻辑回归分析 13
2.4.1 长宽的线性分析 13
2.4.2 误差的分析 13
3 数据特征的分析和方法改进 15
3.1特征数据的聚类 15
3.1.1 Kmeans方法的介绍 15
3.1.2 特征数据的聚类结果 16
3.2特征数据聚类分析的改进 17
3.2.1 改进方法的介绍 17
3.2.2 方法改进的运行结果 18
4 基于特征选择的决策树分析 19
4.1 决策树方法的介绍 19
4.1.1 决策树的简介 19
4.1.2 决策树判定与贝叶斯分类的区别 20
4.2 决策树算法的运行 20
4.2.1 结果及误差分析 20
4.2.2 性能分析 21
5 总结 22
参考文献 23
致谢 24
实验环境 28
相关性分析及其在特征选择中的应用研究
何帅
,China
Abstract
The continuous development and progress of today's society make the feature selection in data mining play an increasingly important role in the practical application of improving machine learning algorithms and classification efficiency. Correlation analysis and feature selection refer to the process of extracting and selecting those feature subsets that are applicable to requirements and related to each other under different data quality requirements. Among them, the classical feature selection has two methods, supervised and unsupervised, but many of the feature selection methods are affected by the discretization method. Aiming at the deficiencies of the above feature selection algorithm, this paper proposes a feature selection method based on correlation analysis.
The analysis based on the Iris dataset was created by R.A. Fisher, a prominent statistician, in themid-1930s and it is recognized as the most famous dataset for data mining. This article analyzes the features and correlations based on the data set from the following aspects: (1) Data collection (2) Preprocessing related to data (3) Data analysis (4) Adjustment of model (5) Establishment Model, test data.
Key words:Data Mining; Spark; Feature Selection; Correlation Analy
1 绪论
1.1 选题的背景、目的和意义
互联网的迅速发展,给世界带来革命的同时,也带来了一些新的问题,那就是庞大的数据。如何处理数据,将数据转变为资源,成为当今世界迫切需要解决的问题之一。随着大数据相关技术的发展,数据挖掘成为了当今世界研究的一大热题。“冰山只露出它的一角”,对于大数据亦是如此,信息的传播速度之快以及传播的手段之多,对数据挖掘的工作提出了挑战。得益于各类数据挖掘相关的算法,我们得以对这些数据进行分析利用,然而这个过程中,有效的数据质量,优秀的分析引擎,合适的分析算法,对未来合理的预测,以及数据结果的可视化缺一不可。
数据挖掘的目的就是从现有的繁杂的,不确定的一系列数据中,通过一些特定的算法,来挖掘到一些有用的信息,并通过这些信息,了解到数据背后的关联和意义,从而判定或预测即将要发生的事情。
可以这么说,在当今的这个社会,数据的挖掘即是信息技术进化的结果:前期,人工手动处理大量繁琐的各类数据,为了从这种无聊的生活中解脱出来,人类进入了数据库时代。伴随这数据库以及数据管理产业的不断发展,从数据收集到数据库创建,再到数据管理,数据库系统日趋成熟的同时又带来了一些迫切需要解决的问题,那就是大量的数据。
剩余内容已隐藏,请支付后下载全文,论文总字数:18199字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;