论文总字数:15587字
摘 要
现实世界中的数据大多都存在着问题,比如数据不完整,不一致等。不能直接对数据进行挖掘,或挖掘结果使人不满意。为了提升数据质量,于是就出现了数据预处理技术,数据预处理是数据挖掘与分析的重要基础,在大数据分析处理日益彰显其价值的今天,数据预处理显得更加重要。噪声数据的存在一直是数据预处理需要解决的一个主要问题。本课题考虑设计实现噪声数据平滑系统,利用已有的噪声数据平滑技术实现对所选定关系表中噪声数据的自动处理。
主要工作如下:
- 完成系统需求分析,设计了包括基于等深、等宽、简单聚类数据平滑处理等功能模块。
- 实现基于等深、等宽、基于简单聚类的噪声数据平滑模块,对用户选取的关系表,用户可以选择三种平滑方法中的某一种,对其进行噪声数据平滑。
- 采用VS2010工具,实现所设计系统,验证设计的有效性。
关键词:噪声数据;数据预处理;数据平滑
Abstract
The problem of data in the real world are incomplete data, inconsistent and dirty data, data mining can not be directly, or just passable mining results.In order to improve the data quality of data preprocessing technology arises at the historic moment, data preprocessing is an important foundation for data mining and analysis, in the data analysis processing increasingly heightens the value today, data preprocessing becomes more and more important.It is a main problem to solve the noise data has been data preprocessing.Design and implementation of system of smoothing noise data, using existing noise data smoothing technology to realize automatic processing of selected relation table of the noise data in considering this issue.
The main work is as follows:
- To complete the system demand analysis, including the design of module depth, width, simple data smoothing function based on Clustering.
(2)Implementation based on depth, width, based on a simple cluster noise data smoothing module, the user selected, users can choose three smoothing methods of a kind, the of smoothing noise data.
(3)Using VS2010 tools, the design of the system, to verify the effectiveness of the design.
Key words: noise data; data preprocessing; data smuthing;
目 录
摘 要 III
Abstract I
目 录 2
第一章 绪 论 4
1.1系统的开发背景及其意义 4
1.2国内外研究现状 4
1.3 可行性分析 5
1.4 论文主治结构 5
第二章 系统涉及的关键技术 7
2.1 Visual Studio 7
2.2 C 7
2.3数据清洗和聚类分析介绍 8
第三章 系统分析与设计 11
3.1 系统需求分析 11
3.2 系统功能目标 11
3.3 系统非功能性需求 11
3.3.1 界面需求 11
3.3.2 软硬件配置需求 12
3.3.3 性能需求 12
3.4 系统详细设计 13
3.4.1简单离散化方法 14
3.4.2简单聚类算法 14
第四章 系统实现 17
4.1 系统总体实现 17
4.2 平滑结果及分析比较 17
第五章 系统测试 19
5.1 环境测试 19
5.2 系统测试 19
5.2.1 代码测试 19
5.3 测试结果分析 22
总 结 23
参考文献 25
致 谢 25
绪 论
1.1系统的开发背景及其意义
现实世界的数据多数存在脏数据、数据不完整及不一致的问题。这些存在于世的数据对其的应用如同数据挖掘等其陷入混乱,导致数据的混乱的输出。数据清洗通过试着用填写空缺在数据中的值,来平滑噪声数据,对其进行处理,并识别、修正或删除孤点。然后通过解决不一致的问题来提升数据的质量,因此数据清洗的重要性以不用多说了。
数据清洗的一个重要环节是噪声数据的处理。对有着噪声数据并对其进行清洗的过程中,如今已有的方法是找到这些区别于其他的数据记录并把他们除掉,但在现实中它的缺点是通常只是对一个属性上的数据进行修正或删除,如果对记录了整条的数据删除会丢失很多纯净的、有用的信息。在数据仓库技术当中,通常在的数据清洗过程之前会应用数据仓库,它的目的就是为了提升数据质量,使得后面的联机处理分析及数据挖掘应用得到更接近正确的结果。但这个过程也是可以反着过来的,就是利用数据挖掘技术来进行数据清洗,从而提升数据的质量。
相对于同类算法,一个在属性级别上来处理噪声数据并基于聚类分析的算法,其优点有2点:
- 在属性级别上对噪声数据进行分辨并修正改善了删除整条记录所产生的缺点,与此同时还可提升识别噪音的准确率。
- 要深入了解噪声数据产生的原因就是需要对噪声数据产生的过程建立模型,并且在以后的数据采集过程中运用相应的方法来提高数据质量。
1.2国内外研究现状
时以今日,对数据挖掘及发现噪声方面做了许多的研究。对于关系型数据库,对噪声数据的处理,大量的工作集中在记录级别上,去去除噪声数据点和删除记录。在大型数据库异常数据的检测中,例如线性方法。这种方法假定全程记录的数据或噪声,或干净的数据,这就是确定的记录在级别上的噪声数据,该方法具有高效性,但缺点是一旦发现一个记录数据是噪声,它将会失去干净的数据记录信息。这种方法是在大量的噪声数据单元的数据库的明显不可行。
最近,数据仓库和数据清理是噪声发现和数据清洗的一个研究热点。这工作主要涉及:识别重复记录,并结合异构数据库,处理数据不一致数据等等。像噪声数据处理,这些工作通常在数据库中的数据结构了解了足够多的情况下进行。例如,在名称属性的错误数据确定将按照该属性的拼写或格式来进行。事先理解的数据结构不需要本文所提出的方法。
剩余内容已隐藏,请支付后下载全文,论文总字数:15587字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;