基于信息增益的判定树分类软件设计与实现

 2023-04-19 17:48:35

论文总字数:19713字

摘 要

信息化技术的快速发展使得各行各业产生并储存了大量的业务数据,这些数据中蕴含着丰富的知识,数据挖掘能够从大量数据中发现潜在的知识和模式,为数据所有者的业务活动提供辅助决策信息。分类作为数据挖掘的重要功能,在很多领域有着广泛的应用,论文工作结合判定树分类算法,设计实现基于信息增益的判定树分类软件,实现对给定数据集的自动分类。

论文主要工作包括:

(1)结合java IO(文件读写)原理,实现对txt文本文档里数据的读取,读取的所有数据将用于分类。

(2)结合所设计的业务逻辑和功能模块,选择数据的类别属性,基于信息增益的判定树分类算法对数据进行分类,最后展示分类规则。

(3)结合实际数据,对生成的规则进行试验分析,验证设计的有效性。

所设计软件实现了对txt文本数据的有效读取、数据的分析,用户可以根据类别属性对目标数据进行分类,利用判定树算法最终得到所需的分类规则。

关键词:信息增益,判定树分类;B/S;MyEclipse;Java

Abstract

The rapid development of information technology makes all walks of life to generate and store a large number of business data,These data contains rich knowledge,data mining can find the potential knowledge and patterns from large amounts of data,it provides decision support information for the data owner"s business activities.Classification is an important function of data mining,it has been widely applied in many fields,this thesis combines the decision tree classification algorithm,to design and implement classification software based decision tree,to realize the automatic classification of the given data set.

The main work of the thesis includes:

  1. Combined with Java IO (file read and write) principle,Read the data from txt text document,the data will be used for classification.
  2. Combined with the business logic and function module design,select the class attribute of the data,then classifying the data by the decision tree classification algorithm based on information gain,finally,the software will show the classification rules.
  3. Combined with the actual data,to test and analyze the generated rules,to verify the effectiveness of the design.

The software realizes effectively reading data and analyzing data,the user can classify the target data according to the class attribute.Using decision tree algorithm to get the final classification rules required.

Keywords:Information Gain,Decision tree classification;B/S;MyEclipse;JAVA

目录

第一章 引言 1

1.1 背景与意义 1

1.1.1背景 1

1.1.2意义 1

1.2 主要工作概述 2

1.3 论文结构安排 2

第二章 相关技术 3

2.1 分类 3

2.2 主要分类算法 3

第三章 系统设计 5

3.1系统分析 5

3.1.1 需求分析 5

3.1.2 概要设计 6

3.1.3 详细设计 6

3.2 系统架构 7

3.2.1 Java Swing 7

3.2.2 具体设计 7

3.3 功能模块 7

3.3.1 主要功能模块 7

3.3.2 处理功能设计 8

3.4数据库设计 13

3.5数据流程 13

第四章 系统实现 15

4.1 运行环境及工具介绍 15

4.1.1 运行环境 15

4.1.2 工具介绍 15

4.2 核心代码的分析 15

第五章 系统运行及运行分析 21

5.1 系统运行效果 21

5.2 运行分析 23

第六章 总结 24

6.1致谢 24

6.2参考文献 24

第一章 引言

1.1 背景与意义

1.1.1背景

(1).商业背景

数据挖掘首先是需要商业环境中收集的大量数据并进行挖掘的知识是有价值的。对于商业而言,是否有价值主要体现在三个方面:是否降低了开销;有没有提高收入;股票价格是否增加。

(2).技术背景

数据挖掘是在八十年代,所投资的人工智能研究项目失败以后,人工智能转入实际应用时提出的。它是一个新兴的、面向商业化应用的人工智能研究。之所以选择数据挖掘这一术语,是想表明与统计和精算等没有技术重叠。数据挖掘技术主要三部分:算法和技术;数据;建模能力。

数据挖掘的相关技术包括:

  1. 机器学习

机器学习是人工智能和计算机科学发展的产物,机器学习可以分为两种方式:自组织学习(例如神经网络)和从例子中归纳出一个规则(例如决策树)。而本文就是着重介绍了第二种方式,决策树,以及利用决策树算法最后得出数据规则并且展示出来。

  1. 统计

统计包括预言算法(回归)、抽样、基于经验的设计等,现在也开始支援数据挖掘。

  1. 决策支持系统
  2. 数据仓库
  3. OLAP(联机分析处理)、DataMart(数据集市)、多维数据库等将数据仓库和OLAP和数据挖掘等技术融合在一起,构成了企业决策分析环境。

(3).社会背景

数据挖掘能通过对历史数据的分析,预测客户的行为,而事实上,客户也有可能都不知道自己下一步要做什么,所以,数据挖掘的结果也不一定完全准确。社会背景与客户的行为是相关联的,所以数据挖掘也是受社会的影响的,比如,在美国特别适用的,但是用于中国,不见得适用。

1.1.2意义

从大型数据库挖掘信息和知识已经得到许多研究者的认可并且成为了一个关键性的研究课题。不同领域的研究人员对数据挖掘都表现出极大的兴趣,信息里的一些新兴应用,例如建立在因特网上的数据仓库和在线服务,还要求各种数据挖掘技术,以便更好的了解用户的行为,从而改善所提供的服务并增加了商业机会,响应这样的一个需求。而分类,可以让冗余的复杂的数据条理化,更易于人们透过数据表发现数据间的内在关系。可以让我们更清楚的知道并且获取我们所需要的信息。而数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。基于此,本课题实现基于信息增益的判定树分类系统,实现对给定数据集的自动分类。

1.2 主要工作概述

开发基于信息增益的判定树分类软件,分类挖掘是最终目标就是要从大量数据中,挖掘出条件属性和类别属性其背后的规律或数据间的关系,最后对用户未知类别的数据进行有效地分类。 数据挖掘是一个多步骤的处理过程,一般可以分为:

剩余内容已隐藏,请支付后下载全文,论文总字数:19713字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;