论文总字数:29318字
目 录
1 引言 2
2 知识预备 2
2.1 因子分析 2
2.2 决策树分类器 3
2.3 朴素贝叶斯分类器 4
3 建立因子分析模型 4
4 建立决策树分类模型 6
4.1 决策树的初步建立 6
4.2 注册人数的第一个分支划分 10
4.3 注册人数的第二个分支划分 13
4.4 注册人数的第三个分支划分 17
4.5 决策树的剪枝与精度计算 18
5 朴素贝叶斯分类模型的建立 21
5.1 建立朴素贝叶斯分类模型 21
5.2 朴素贝叶斯分类模型的检验与精度计算 22
6 结论 23
参考文献 23
致谢 25
基于决策树和朴素贝叶斯的微信推广效率的研究
薛超
, China
Abstract: In recent years, with the influences of WeChat public number growing, more and more enterprises start to utilize it to make spreads for their products. Thus, it has a certain practical significance to build a sound classification system for reference when enterprises make decisions. To study its effectiveness to spread novel and find a proper taxonomy model, this paper studies six indicators generating from the promotion effects of 199 WeChat public number in total from September 1st to October 13th in 2016. Then, it makes a factor analysis on this set of data and gives the synthesis score. These 199 WeChat public number are sorted according to their final scores. Further, the decision tree method and Naive Bayes classification method are used to model this sample set, respectively. Also, it makes a comparative analysis of two different classification models obtained by these two methods. Finally, the better one will be adopted to help enterprises select a proper WeChat public number to make spread for their products much more rapidly.
Key words:WeChat public number spread; Factor analysis; Decision tree classification; Naive Bayes classification
1 引言
近几年,随着微信公众号的影响越来越大,越来越多的企业利用微信公众号来进行企业产品的推广[1]。在如今微信发展如此迅速的情况下,企业如何利用微信公众号来推广本公司产品,哪些因素会对微信公众号的推广产生影响,怎么评价微信公众号的推广效率都是企业所感兴趣的,很多学者都对微信公众号的影响力进行了研究,但并没有具体对这些公众号推广效率进行研究说明。因此,在选择微信公众号过程中,有一个较完善的分类系统供企业参考是具有现实意义的。从理论来说,本文的研究能够推进微信公众号推广效率的研究。在实践上,本文研究的主要是影响公众号推广的因素,以及建立一个较完善的分类系统供企业在决策时进行参考,这些都是具有一定的实际意义的。
通过对本课题的研究,可以有效地获得微信公众号推广小说效率的分类模型,得到决策树分类和朴素贝叶斯分类这两种分类方法之间的异同点,为企业选择合适的公众号提供帮助。
国内外对分类的研究有很多,本文着重用了决策树分类和朴素贝叶斯分类两种分类模型,下面介绍了这两种模型的一些国内外研究状况。
国外应用决策树分类与贝叶斯分类方法的研究有很多。Ramamurthy等[2]将决策树应用于教育领域来评估每个学生的分类类型的答案。HARRY等[3]研究了朴素贝叶斯精确分类问题,实验表明该方法的优点不仅包括学习的简单性和快捷性,而且分类期间所需的存储空间较小。
最近国内学者利用决策树和贝叶斯进行分类的文章也有很多。李爽等[4]将决策树运用到了土地覆盖分类中,表明了决策树分类相对简单,结果明确,分类直观,对空间数据具有更好的弹性。蔡洁等[5]将朴素贝叶斯分类方法应用到了学生成绩分类领域,表明了对于学生的成绩分类,使用综合权值的结果优于一般权值的分类结果。
曾经也有很多学者对微信公众号进行过研究,例如江雪晴[6]对微信公众号信息传播现状与改进策略进行了研究,发现在当今社会下微信公众号在传播过程中存在的问题影响了信息传播的效率和质量,并对其提出了相应的改进措施。但对于利用微信公众号推广小说能力的分类问题目前研究的人还尚少。
本课题选取了对评判微信公众号推广小说效率有影响的六个因素[7],并得到了199个样本数据,将数据分成训练集和验证集进行建模分析。数据主要来源于公司内部,详细数据见附表1和附表2。首先,对199个样本数据进行因子分析,得到199个公众号的总因子得分,根据因子得分对公众号进行等级分类;其次,利用决策树模型和朴素贝叶斯模型对训练集进行建模,分别计算这两种模型的精度并适当进行修正,并进行比较;最终得到较佳的利用微信公众号推广小说效率的分类模型。
2 知识预备
2.1 因子分析
因子分析方法是多元统计分析方法中很重要的一种方法,它是在主成分分析基础上的扩展的。因子分析实质是从原始变量中提取公共因子的统计方法,基本思想则是将不同的变量根据他们之间的相关性大小进行分类,将相关性高的变量分在同一组,相关性较低的则分到不同的组,每组的变量都代表了一个公共因子,而这个公共因子是不可观测的。
假设总共有个样本,每个样本选取了个指标,而且这个指标之间的相关性较强。因子分析模型的一般矩阵形式是:
,
其中是直接观测得到的随机向量,,是不能直接观测出来的向量,。详细见参考文献[8]。
2.2 决策树分类器
决策树是在知道各种情况发生的概率的情况下,构建出一颗类似于树的形状的图,可直观分析出每个分支的意义及可行性。决策过程如图1所示。
根节点
划分属性1 划分属性2
......
结点
......
叶结点
划分属性
......
图1 决策过程图
它的关键在于如何选择最优划分属性,在决策过程中提出的每一个判定问题都是对某个属性的划分,其决策过程的最终结果就是我们所希望得到的判定结果。在本文中,选择的划分方法是利用信息增益这个指标来进行划分属性选择。即在决策时选择属性来进行划分,是样本中任意属性,是样本中所有属性的集合,是样本集。
记
剩余内容已隐藏,请支付后下载全文,论文总字数:29318字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;