论文总字数:25634字
目 录
1 绪论 1
2 系统相关的技术和算法 1
2.1 网站相关的技术 1
2.2 网站相关的算法 3
3 个性化新闻推送系统分析 5
3.1 系统需求陈述 5
3.2 系统功能需求分析 6
3.2.1 系统用例图 6
3.2.2 系统顺序图 6
3.2.3 系统类图 8
3.3 系统数据需求分析 8
4 个性化新闻推送系统设计 10
4.1 系统总体设计 10
4.1.1 爬虫模块 11
4.1.2 推荐模块 12
4.1.3 行为处理模块 13
4.2 系统详细设计 13
4.2.1 系统架构 13
4.2.2 应用服务器 14
4.2.3 爬虫模块详细设计 15
4.2.4 推荐模块详细设计 16
4.3 数据库逻辑设计 19
5 个性化新闻推送系统实现 22
5.1 系统开发环境 22
5.2 模块实现 22
5.2.1 爬虫模块实现 22
5.2.2 推荐模块实现 24
5.3 系统运行实例 25
6 结论 28
参考文献 29
致谢 31
个性化新闻推送系统开发
谭文政
,China
Abstract:We are located in an age of information explosion. Every day we produce innumerable news information. The traditional news media cannot filter all the information. Therefore, the initiative of filtering news information gradually shifts away from the traditional news media. Algorithmic recommendation news distribution platform Then there are two parts of the main research content of this paper: reading the relevant literature, and implementing the personalized news push system. Firstly, a recommendation algorithm based on Hidden Markov Model is studied to treat the user's history reading process as a Markov chain. By using Viterbi to decode the Markov chain, a recommendation list is generated for the user. Second, a long-term interest recommendation based on statistics is researched, and a recommendation list is generated based on the long-term interest recommendation to synthesize the user's evaluation information on the news. Actual proof, this algorithm can track the user's interest in real time, the recommended effect is significant.
Key words:Recommended System; Text Analysis; Hidden Markov Model
1 绪论
当今社会信息处于一种大爆发的状态,伴随而出的问题也越来越多,在新闻阅读方面更是这样,海量的新闻信息扑面而来,常常使人无所适从。如何从这新闻海洋中快速且精确地获取自己最想要的信息,变得十分困难,用户的新闻阅读体验大打折扣。为了解决上述问题,个性化推荐系统就产生了。
个性化新闻推荐是通过将个性化的推荐算法和推荐过程应用于新闻资讯领域的推荐[9],可以对用户的新闻阅读历史进行分析,获取用户的特征并构建特征模型,根据模型预测各类目的概率,将海量新闻中符合个人兴趣的新闻给用户生成一个推荐列表[10]。让用户所获得的新闻是自己需要的。从而减少用户将时间花费在检索新闻上,提高了阅读效率。
目前,个性化新闻推荐在很多网站得到了成功应用,国外有新闻网站Digg、谷歌新闻Google News,国内有百度新闻、腾讯新闻、今日头条等,而其中今日头条使用多种推荐方式构建多种模型共同给用户生成推荐列表达到混合推荐,其中的效果十分显著,用户数呈现倍数级的增长是最明显的现象。
本文在参考已有的新闻推荐算法上加以改进,综合考虑常规协同过滤算法和基于内容的推荐算法,致力于寻找一种更好的算法解决传统算法中的冷启动和数据稀疏性问题。本文通过搭建一个新闻网站,在用户阅读新闻的同时收集用户的行为记录,建立用户兴趣模型,然后使用模型向用户推送新闻列表,来达到个性化的推荐。
2 系统相关的技术和算法
本章主要介绍本文采用的相关技术,涉及WEB前后端框架、WEB服务器以及本文相关的算法等。
2.1 网站相关的技术
Nginx是一款轻量级的WEB 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器[15]。Nginx占有内存少,并发能力强,同时它具有很多优越的特性。Nginx在安装过后,默认占用了80端口,用户通过域名访问网站,Nginx会去找域名对应的本地端口的服务,并返回相应的网页给用户。而Nginx在这其中的角色就是一名代理,这样的好处是用户不必知道网站的IP和端口,避免不必要的暴露被不法分子利用。本文中Nginx版本为1.94。
WebLogic是一个基于J2EE架构的中间件,它是一个用于开发、集成、部署和管理大型分布式WEB应用、网络应用和数据库应用的Java应用服务器[18]。它拥有包含支持业内多种标准、超强的可扩展性、支持EJB和JSP等开发和部署WEB应用系统所需的多种优势,凭借WebLogic Server的Servlet组件架构体系可以迅速的部署应用系统,其容错能力、系统管理和安全性能已经在全球数以千计的场景中得以验证。本文中WebLogic版本为10.3.6。
剩余内容已隐藏,请支付后下载全文,论文总字数:25634字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;