论文总字数:14497字
目 录
1引言 1
1.1问题的提出及研究意义 1
1.1.1问题的提出 1
1.1.2研究的意义 1
1.2国内外研究现状 1
2数据来源和预处理 2
2.1数据的来源 2
2.2数据预处理 2
3协同过滤算法 4
3.1基于用户偏好的最近邻推荐 4
3.1.1基于用户偏好的方法介绍 4
3.1.2基于用户偏好的实例分析 4
3.2基于物品的最近邻推荐 7
3.2.1基于物品的方法介绍 7
3.2.2基于物品的实例分析 7
4关联规则挖掘算法 8
4.1关联规则 8
4.2 Apriori算法 9
4.2.1 Apriori算法的介绍 9
4.2.2 Apriori算法的实现 9
4.3 FP-growth算法 11
4.3.1 FP-growth算法的介绍 11
4.3.2 FP-growth算法的实现 11
5结论 12
参考文献 12
基于推荐系统的用户偏好分析
季灵燕
,China
Abstract: Aiming preference of Internet users,use collaborative filtering algorithm to analysis the logging behavior of telecommunications users,measure the users' attention on the games based on the users' preferences and the games' association ,provide users with recommended menu by
comparing the scores.In addition,the paper transplantes the association rule mining into collaborative recommendation,the application of apriori algorithm frequent itemset mining game and strong association rules.Considering the shortcoming of apriori algorithm that requires multiple scan data sets and will generate a lot of candidate frequency item sets,this paper introduces FP-growth algorithm,using a tree structure generate frequent item set directly,improving the efficiency of the algorithm mining association rules greatly.
Key words: collaborative filtering algorithm;data mining ;association rules; apriori ;FP-growth
1引言
1.1问题的提出及研究意义
1.1.1问题的提出
在这个互联网兴起的信息时代,用户对信息的需求越来越大,然而面对海量的信息,人们往往找不到蕴藏的那部分真正有用的信息,这反而降低了人们对现有信息的使用率,导致大量的信息处于一种无意义的状态,这就是所谓的信息超载(information overload)问题。当前面临的最关键的问题之一就是如何从这些海量的数据中获取到有价值、有意义的信息。互联网的智能化发展需要计算机去揣摩人们的心思,通过分析用户在互联网上的一些历史行为,了解到用户的偏好和实际可能需求,从而给用户推荐相关的产品、信息,这体现了个性化的服务。
1.1.2研究的意义
随着互联网时代的到来,数据逐渐从小样本数据向海量数据发展。所以,对于如何从大量数据中提取到有用的信息,并提高信息利用率成为当今热门的研究话题。在现有的数据处理技术中,数据挖掘就是为了简化数据提取过程而发展出来的一门新技术。个性化推荐系统是一项在解决信息超载问题上非常有用的方法,它通过将系统用户爱好,需求等结合起来,为用户推送用户感兴趣的信息,是一种个性定制的系统。比起搜索引擎,个性定制系统能主动为用户找到有用的信息,并进行个性化计算,发现用户的兴趣点。一个优秀的推荐系统,能为用户进行个性化定制服务,从而在用户间建立起精密的联系,使得自身和用于之间产生不可或缺之感,提高用户的忠诚度。
1.2国内外研究现状
目前电商领域的一个重要的研究内容就是电子商务的个性化推荐系统。一个成功的推荐系统能准确地捕捉到用户的需求,而适当的推荐算法又是推荐系统的一个关键性因素。S.J.Gong[1]针对协同过滤的可扩展性和稀疏性问题,提出了一种加入用户聚类技术和项目集群技术的个性化推荐方式。J.Bobadilla等[2]针对新用户的冷启动问题,提出采用基于神经学习的方法设计新的相似性度量标准。除了协同过滤算法外,要想发现数据库中的关联关系,还能应用数据挖掘中的关联规则挖掘技术。国外在这方面的研究内容非常广泛,并取得了显著成效。 Lazcorreta E等[3]基于Apriori数据挖掘算法,通过两步修改先验的技术,把问题转化成用户适应建议的关联规则挖掘的过程。Kim J等[4]基于Web使用挖掘关联规则和决策树,引入个性化推荐过程,并将其应用到互联网商场。虽然国外很多研究人员对Apriori算法做了大量的研究和改进,然而这些算法都不能够避免需要多次扫描数据库的缺陷,并且可能会产生大量的候选频繁项集。Jiawei Han等[5]为了避免这一缺陷,提出不产生候选频繁项集的FP-growth方法。
目前国内在推荐系统的理论和技术方面的研究也获取了丰硕的成果。针对数据的稀疏性问题,邓爱林等[6]提出了一种基于项目评分预测的协同过滤推荐算法,采用一种新颖的相似性度量方法计算目标用户的最近邻。林鸿飞等[7]提出基于内容和合作模式的信息推荐机制。综合考虑数据内容和合作对用户的评价影响,采用Fisher判别分析,把相关的文本推送给用户。近年来,国内的关联规则挖掘算法研究逐渐掀起高潮,主要集中于算法的研究、关联规则挖掘的理论研究以及关联规则挖掘的实际应用。宋爱波等[8]提出一种新的MBP算法,利用关联规则挖掘发现的频繁项集找出所有满足阈值约束的频繁浏览路径。吴胜兵等[9]等研究了基于关联规则的Web模式挖掘,通过对Web数据进行深层分析,挖掘有意义的规则,把有关联的产品进行捆绑销售。刘滨[10]介绍了日志挖掘技术的步骤和数据预处理的过程,以及其中一些难点的解决方法。李春等[11]针对传统方法的稀疏性问题和可扩展性问题,提出一种凭借邻居数做决策的方法,比较不同待测位置的近邻用户数和近邻项目数,由数量较多的一方做预测,以提高推荐质量。
2数据来源和预处理
2.1数据的来源
随着“宽带中国”建设步伐的加快,及4G、4G 网络的快速覆盖,网游已经成为广大互联网用户热衷的娱乐方式。2015年中国互联网络信息中心(CNNIC)的数据显示,截止2014年12月,中国网络游戏用户规模为3.32亿。本文搜集了部分电信用户近一个月内搜索游戏名称的记录,见表1.
表1 原始数据
序号 | 用户ID | 游戏名称 | 搜索次数 |
1 | f54f525d6dd13ae163292cb5a5a327d19f92f093 | 魔兽世界 | 28 |
3 | f52d76a2479e318fbfd5a12de499dd3e5023c5cb | 英雄联盟 | 28 |
4 | f4dc80af5fa1069e94a14603d36db9c125e572b0 | 英雄联盟 | 28 |
5 | f4d03dc9dc0ae63a6de9d2665ceb677340d28d2b | 天涯明月刀ol | 28 |
…… | …… | …… | …… |
865637 | 25fc87eb43c8344b23680a4a8eb2549a20e8e7a9 | 穿越火线 | 1 |
865638 | 25fc46d17427c65ae955ed0c019e138b45eb299b | 英雄联盟 | 1 |
865639 | 25fc3f1bb2acebef6fc2f98a028884d36d3e16bf | 英雄联盟 | 1 |
2.2数据预处理
网站中直接获取到的数据往往是比较杂乱的,存在着许多噪声数据,如果不对原始数据做一些处理的话,会直接关系到整个web日志挖掘的成效,这样即使算法再高级、模型再优秀也于事无补。因此,有必要对相关数据进行预处理。
从表1中可以看出,用户对游戏的搜索次数在1到28之间,区间长度略大,如果把搜索次数作为用户对该游戏的评分来计算相似度的话,可能会对后面的分析结果造成影响,降低模型的准确度。因此,图1统计出了这个区间内每个搜索次数出现的频数。
剩余内容已隐藏,请支付后下载全文,论文总字数:14497字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;