论文总字数:22576字
摘 要
如今,人工智能成为当下越来越热门的话题,而机器学习则是人工智能中的重要分支,也是人工智能的核心。机器学习主要是通过对数据进行分析,并利用规律对未知数据进行预测,其核心为数据和模型(算法)。随着数据量的增多,模型训练的越完善,预测的准确率也会相对越高。
本课题主要是对朴素贝叶斯算法的设计与实现,首先在绪论中介绍了机器学习及朴素贝叶斯算法的研究背景及概念。第二章对朴素贝叶斯算法的原理及实现进行详细的介绍,包括数学背景,数据定义,代码实现等内容。第三章介绍实验的具体内容,包括数据集来源,数据集预处理,实验步骤及实验结果等。通过对是否使用拉普拉斯平滑的实验结果进行比较,得出了拉普拉斯平滑可有效避免因训练样本不充分而导致概率估值为零的结论。第四章总结全部工作。
关键词:朴素贝叶斯分类器,机器学习,人工智能
Abstract
Today, artificial intelligence is becoming the hot topic in the present, and machine learning is an important part of artificial intelligence. Machine learning can be trained a large number of samples, and according to certain rules of the algorithm, to predict a condition is something that may occur, which can simulate human behavior and can constantly improve itself by increasing the training sample. What’s more, the accuracy of machine learning can also be higher.
This topic is mainly to the design and realization of the Naive Bayesian classifier. First of all, in the introduction introduces the Naive Bayesian algorithm and machine learning’s concept and the research background. The second chapter mainly discusses the Naive Bayesian algorithm, Naive Bayesian classifier is introduced in detail, including the algorithm implementation, the main program file, the algorithm details and need to focus on the introduction of importance. The third chapter mainly introduces the experiment of concrete work, including the use of data sets, the division of data set, the experimental results, such as whether to use Laplacian smoothing results and conclusions are obtained, if do not use the data smoothing will have fitting phenomenon in the fourth chapter summarizes all the work.
KEY WORDS:NaiveBayesian classifier ,machine learning,artificial intelligence,
目录
摘要 I
Abstract II
第一章 绪论 2
1.1 研究背景 2
1.2 本文工作 5
第二章 朴素贝叶斯分类器 6
2.1数学背景 6
2.2朴素贝叶斯分类器 6
2.2.1条件独立性假设 7
2.2.2分类准则 7
2.2.3离散属性与连续属性值的分别处理[2] 7
2.2.4数据平滑 8
2.2.5分类流程 8
2.3本文的实现 10
2.3.1数据预处理 10
2.3.2朴素贝叶斯分类器主要变量及数据结构 10
2.3.2.1 样本结构及类别变量定义 10
2.3.2.2 属性映射表定义 11
2.3.2.3 属性频率变量定义 11
2.4 主要程序文件 12
2.4.1 adult 12
2.4.2 DataProcess 12
2.4.3 NaiveBayesian 13
2.4.4 main 15
第三章 实验 16
3.1 实验数据集 16
3.2 结果校验方法 16
3.3 实验结果 17
3.3.1 实验步骤 17
3.3.2 实验结果 18
3.4 实验结果分析 22
第四章 结语 23
参考文献 24
致谢 25
第一章 绪论
研究背景
近年来,人工智能正在深入到社会的各个领域,比如在围棋领域,谷歌的AlpahGo战胜了围棋世界冠军李世石;在游戏领域,value公司开发的open AI在dota项目上从1v1到5v5再到2019年AI战队战胜世界冠军OG战队。随着人工智能技术的不断发展,其应用领域也在不断扩大,并逐渐成为人类社会中的重要组成部分。
机器学习在人工智能领域是一个新兴的分支,它始于20世纪50年代末,由Hebb提出的Hebb学习规则,这一规则是基于神经心理学理论。随后的60年代中,逐步提出了第一个神经网络—感知器,和KNN聚类算法,在此期间机器学习发展热烈,基础理论逐步健全。在60年代中叶到70年代中叶时期,机器学习到了瓶颈阶段。因为科学家提出的目标过高,计算机不足以实现该目标,因此研究缓慢,理论也不够完善,发展停滞不前。从70年代中叶到80年代中叶,机器学习的发展开始复兴。科学家从让计算机学习单个感念扩展到学习多个概念,探索不同的学习策略和学习方法,并提出了多层感知器(MLP)及神经网络反向传播(BP)算法,机器学习的发展进入了一个新阶段。从90年代开始到现在,是机器学习的成型时期。随着支撑向量机、Boosting、最大熵方法等理论的提出,应用这些理论的模型对于解决很多实际问题卓有成效。除此之外,这些理论还推动了其他学科的发展,这些学科也对机器学习开辟新的理论道路。
现在我们可以通过以下思路来解决这些问题:
剩余内容已隐藏,请支付后下载全文,论文总字数:22576字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;