论文总字数:22172字
摘 要
就目前国内外数据挖掘技术研究情况而言,在教育方面的应用还很少,而数据挖掘在学生成绩分析上优越性很强。本文基于weka软件平台,运用数据挖掘技术,对某高校学生的成绩进行分析研究,首先,简单概述了国内外在数据挖掘领域的研究背景以及关于数据挖掘技术的分类算法的介绍;其次,选取了某高校自动化系一个班的学生成绩作为样本进行数据挖掘分析,在数据挖掘阶段,经历了数据预处理、数据挖掘、结果的解释和评估三个步骤,最后,从数据挖掘的结果中分析提取出了有用的知识,并给学校和老师提出了可行的教学建议,从而为学校更好地教育管理提供了可靠的支撑。
关键词:weka;数据挖掘;分类算法;教育管理
Analysis of student achievement based on Data Mining Technology
Abstract
In terms of data mining technology research situation at home and abroad, there is few applications in education, and the data mining in student performance analysis on the advantages of strong. This article is based on the weka software platform, using data mining technology, to research and analyze some university student"s result, first of all, the simple Outlines research background at home and abroad in the field of data mining as well as the classification algorithm on data mining technology is introduced. Secondly, select the students of a university computer science department a class achievement as sample to analyze the data mining, the data mining stage, after data preprocessing, data mining, the result of interpretation and evaluation of three steps, finally, from the results of data mining analysis to extract the useful knowledge, and puts forward feasible for schools and teachers teaching Suggestions, and better education for the school management provides the reliable support.
Key words: weka; Data mining; Classification algorithms; Education management
目 录
摘 要 I
Abstract II
第一章 引 言 1
1.1 研究背景 1
1.2 研究意义 1
第二章 数据挖掘的理论 2
2.1 数据挖掘的基本概念 2
2.2 数据挖掘的过程 2
2.2.1 数据预处理 2
2.2.2 数据挖掘 2
2.2.3 结果的解释和评估 2
2.3 数据挖掘的分类算法 2
2.3.1 Bayes 3
2.3.3 Trees 3
2.3.4 Rules 3
2.3.5 Meta 3
第三章 数据预处理 4
3.1 数据清理 4
3.2 数据集成 6
3.3 数据变换 7
3.4 数据规约 7
第四章 基于数据挖掘的学生成绩分析 8
4.1 对学生成绩的处理与分析 8
4.1.1 NaiveBayes算法 8
4.1.2 J48算法 11
4.1.3 JRip算法 13
4.1.4 AdaBoostM1算法 14
4.2 分类结果汇总 16
第五章 结果分析 17
5.1 对比分析算法的优劣 17
5.2 根据分类结果提出教学建议 18
第六章 总结展望 19
谢 辞 20
参考文献 21
第一章 引 言
1.1 研究背景
从数据库中发现知识(KDD)一词首次出现在1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上,1995年在加拿大蒙特利尔召开的首届KDDamp;Data Mining国际学术会议上,把数据挖掘技术分为科研领域的知识发现与工程领域的数据挖掘。之后每年召开一次这样的会议,经过十几年的努力,数据挖掘技术的研究已经取得了丰硕的成果。目前,对KDD的研究主要围绕理论、技术和应用这三个方面展开。在应用方面主要体现在KDD商业软件工具从解决问题的孤立过程转向建立解决问题的整体系统,主要用户有保险公司、大型银行和销售业等。许多计算机公司和研究机构都非常重视数据挖掘的开发应用,IBM和微软都相继成立了相应的研究中心。
随着我国的科技的不断发展和中国教育制度的日趋完善,各大高校对教务管理工作提出了越来越高的要求。各大高校不再满足于传统的成绩管理方式,开始运用数据挖掘领域的先进方法对学生成绩进行分析和研究。教务工作人员使用关联规则挖掘算法分析课程间的内在联系,可为学校的改进教学工作提供依据,并为学生的选课和学业规划提供指导。科研人员对数据挖掘技术的研究已经有多年的历史,研究方向主要是数据挖掘算法的发现和改进、数据挖掘技术在相关领域的应用两个方面。由于数据挖掘在数据分析方面的优越性,该技术已成功地应用到大型商业、金融业、保险业等许多领域,可是在教育教学领域应用较少,还处于发展的初级阶段。
1.2 研究意义
如今,学生成绩在高校学习生活中占据越来越重要的地位,它不仅是学校评估教学质量的重要依据,也是学生在学习生活中对所学课程的掌握程度的重要依据。然而,影响学生成绩的因素很多,如何从大量的学生成绩数据中得到某个学生的学生成绩至关重要,在学生成绩的分析过程中,从大量成绩数据中存在的关系、规则中对学生成绩进行分析研究,预测其发展趋势,从而对教师的教学方案提出宝贵意见,对学生的教学指引是十分有利的。
在现在这个信息时代,传统的运用学生成绩的平均值、方差、信度等数学方法对数据内在的价值的分析要求已无法满足,采用数据挖掘技术分析学生成绩,对学校现有的学生数据进行有效的数据挖掘,利用相应的算法和其中的关系规则作出相应的决策,给学校及老师提供教学建议,从而对学校更好的教育管理提供了可靠的支撑。因此,数据挖掘在学生成绩中的分析应用具有现实意义。
第二章 数据挖掘的理论
2.1 数据挖掘的基本概念
数据挖掘:数据库中的知识发现(KnowledgeDiscoveringDatabases,简称KDD),能够从大量、不完全的、模糊的、有噪声的实际应用数据中抽取有效、隐含的、潜在的有用的知识。它是一个涉及多学科交叉的研究领域,综合了人工智能、机器学习、数理统计等学科,它把对数据的应用从较低层次的简单查询提升到了从数据中挖掘知识。简而言之,数据挖掘就是从数据中获取知识。
2.2 数据挖掘的过程
2.2.1 数据预处理
数据预处理可以分为以下四个步骤:数据清理、数据集成、数据变换和数据规约。数据清理过程通常包括:缺少属性值的处理、噪声数据的平滑、孤立点的识别和利用以及不一致数据的解决。数据集成是解决数据取自多个数据源的问题,有效的将多个数据源的数据合并,存放到一个一致的数据存储中避免代表同一概念的属性在不同数据库中可能具有不同名字而导致的不一致性和冗余,有助于提高数据挖掘的精度和数据挖掘的效率。数据变换主要是对数据进行规格化操作,使之适合于挖掘的形式。数据规约是采用一定的方法,缩小数据的规模,但能产生同样的分析结果。
2.2.2 数据挖掘
数据挖掘阶段是知识发现过程中的核心环节,首先要明确此次数据挖掘的任务,确定是要对数据进行分类还是聚类,是要发现关联规则还是序列模式等等,同时对数据进行挖掘的算法选择也很重要。挖掘算法的选择一般不能仅限于一种,即便实验是在同一研究领域,也可能有好几种算法供选择挑选,那么该如何正确选择合适的挖掘算法呢?这需要考虑两个因素:一是要考虑所选数据的特点,选择与实验数据领域相关的算法来进行挖掘分析;二是根据用户对挖掘结果形式的需求,有的用户希望得到表述清晰、容易理解的知识,而有的用户需要得到准确度较高的预测结果。选择好挖掘算法后,要进行数据模型的建立和调整,然后对经过处理的数据进行分析,从而获取有用的模式。
2.2.3 结果的解释和评估
结果的解释和评估,是对数据挖掘发现的模式或数据进行解释和评价,总结出有用的知识,包括消除多余的模式,过滤后呈现给用户,利用可视化的形式表示,转化成用户可理解的语言。如果数据挖掘过程中发现过滤出的知识不能满足用户的需求,则需要重新对数据进行处理,选择另外的算法来再次进行挖掘,过滤出满足用户需求的有价值的知识。
2.3 数据挖掘的分类算法
我们将使用weka软件来对学生成绩数据进行挖掘分析,weka中自带了一些典型的分类算法,这一小节中,我们将简单介绍下这些算法,并且分析对比各个算法的优缺点。
2.3.1 Bayes
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
朴素贝叶斯(NaiveBayes),朴素贝叶斯模型(NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。NBC 模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC 模型的性能最为良好。
2.3.3 Trees
决策树算法,决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的测试输出导致不同的分支,最后会到达一个叶子结点,这个过程就是利用决策树进行分类的过程,利用若干个变量来判断所属的类别。
剩余内容已隐藏,请支付后下载全文,论文总字数:22172字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;