论文总字数:28796字
摘 要
2007年5月,被称为中国版Twitter的饭否社交网络上线运营。相比较于目前国内最为流行的社交网站新浪微博,饭否仅仅能够为用户提供时间线顺序的消息检索和浏览功能,并不支持用户推荐及内容推荐。面对大量的用户和海量的消息,用户难以有效地发现其潜在感兴趣的用户或者内容。
针对饭否社交网络服务,本论文设计、实现并部署了一个的基于Chrome的浏览器插件,以实现用户推荐与内容推荐。该插件包括众多功能模块,可分为如下三个部分:1、基于jQuery Mobile等技术实现的浏览器插件界面,包括配置界面和展示界面。通过配置界面,用户能够选择推荐算法、配置推荐参数;通过展示界面,用户能够获取后台推荐结果和爬取过程日志。2、基于Java Web技术实现的插件服务器。该服务器能够提供的功能模块包括:数据交互模块、分布式爬虫模块、存储模块。数据交互模块负责前后台通信和推荐脚本调用;爬虫和存储模块负责爬取用户的二跳好友信息并保存到数据库。3、推荐算法,该部分基于现有的推荐算法理论,对数据库中存储的已爬取信息进行处理,计算出最值得向用户推荐的消息与用户。
该插件简洁易用,有效地填补了饭否网站推荐功能的需求缺口,提高了用户浏览饭否网站的效率,同时也为实验室后续的推荐算法研究提供了数据支持和实验平台。
关键字: 饭否社交网络, 社交推荐算法, 浏览器插件, 数据库, 网络爬虫
Abstract
Fanfou, launched in May 2007, is a Twitter like blogging service and was very popular in the mainland of China since then. The service provided by Fanfou is not complete, e.g., compared to Sina Weibo. Since it has a limitation that it can only display sequential posts, i.e., it lacks support on user recommendation or content recommendation. As a result, it’s difficult for a user to effectively find out the users and posts in which he is probably or potentially interested, from the mass of information all over the network.
This thesis introduces a plug-in based on chrome to enhance the user experience in surfing and socialnetworking in Fanfou, by exploiting the state-of-the-art recommendation algorithms. This plug-in includes many function modules which are categorized into three classes: 1. A browser plug-in interface. It is mainly based on jQuery Mobile, and includes a configuration interface and a presentation interface. Users can select a recommendation algorithm and configure the recommendation parameters in the configuration interface. The presentation interface displays recommendation results and crawler logs. 2. A plug-in server. It is implemented by Java Web, and includes a data interaction module, a distributed crawler module, and a data storage module. The data interaction module is responsible for communication between the foreground and the background, and the invocation of the recommendation script. The crawler module crawls and the storage module stores, the user’s two-hop friends’ information. 3. A recommending system. It outputs the most recommended posts and users. The crawled data stored in the database is processed based on the state-of-the-art recommendation algorithm.
The plug-in is easy to use. It can satisfy the user requirements for the recommendation function, and can significantly improve the efficiency in surfing in Fanfou. Moreover, it provides some data and support for future research on recommendation.
KEY WORDS: Fanfou site, social recommendation algorithm, browser plug-in, database, web crawler
目 录
摘 要 1
第一章 绪论 1
1.1插件开发背景 1
1.2插件开发意义 1
1.2.1饭否用户对推荐的需求 1
1.2.2推荐算法研究意义 1
第二章 插件需求分析和总体设计 2
2.1针对饭否网络的浏览器插件需求分析 2
2.1.1 插件界面 2
2.1.2 数据爬取、数据存储、日志部分 2
2.1.3 推荐部分 3
2.2 总体设计 3
2.3 开发环境介绍 5
2.3.1 浏览器 5
2.3.2 页面开发框架 5
2.3.3 服务器开发 6
2.3.4 推荐算法编写语言 6
2.4本章小结 7
第三章 插件界面设计和实现 8
3.1 界面总体设计 8
3.1.1 插件开发简介和框架选择 8
3.1.2插件整体设计 8
3.2 参数配置界面设计与实现 9
3.2.1 页面外观 9
3.2.2 界面行为 10
3.3 推荐界面设计与实现 12
3.3.1 界面外观 12
3.3.2 页面行为 13
3.4 爬取界面设计与实现 15
3.4.1 界面外观 15
3.4.2 页面行为 15
3.5 本章小结 16
第四章 推荐算法设计与实现 17
4.1 用户推荐 17
4.1.1 用户推荐算法理论 17
4.1.2 用户推荐算法实现 17
4.2 内容推荐 18
4.2.1 内容推荐算法理论 18
4.2.1 内容推荐算法实现 19
4.3 本章小结 20
第五章 服务器设计与实现 20
5.1 数据爬取 21
5.1.1 数据爬取总流程 21
5.1.2 爬虫函数接口 21
5.2 数据存储及前台日志 22
5.2.1 数据库表设计 22
5.2.2 存储接口 23
5.2.3 解决存储去重问题 24
5.2.4 前台日志接口 24
5.3 Python脚本调用 24
5.4 基于Spring MVC整合服务器 25
5.5 本章小结 26
第六章 系统测试与成果演示 27
6.1 插件界面测试 27
6.2 爬取与存储测试 31
6.3 推荐算法测试 33
6.4 整体演示 33
6.5 本章小结 38
第七章 总结与展望 38
7.1 工作总结 38
7.2 未来展望 38
致 谢 40
参考文献 41
第一章 绪论
1.1插件开发背景
饭否社交网络[5]被称为中国版的Twitter。2007年5月,饭否社交网络正式上线,这是中国大陆地区第一家提供微博服务的网站,在微博类网站发展初期,类似的网站有6、7家,饭否是其中各方面功能较为完备的一个。在2009年时饭否网站人数达到顶峰,用户激增到百万,可惜由于舆论监管被关停了一段时间,这一关停,便被新浪微博占领了微博市场,2010年11月25日,被关闭505天的饭否网站重新复活,虽然许多市场用户在这一时期选择加入新浪微博,但饭否作为老牌网站,便利、快捷的风格使其仍拥有一批忠实的用户。
饭否作为一个功能比较完备的社交类网站,即使是现在这个社交网站辈出的时代,饭否社交网络仍是目前国内网友发布消息较多,更新内容较快的一个社交网站。除了基本的消息功能之外,还能通过图片来发表自己的动态。同时,饭否自身也向开发者提供了很多便利的API,通过这些API人们可以获取到饭否网站上用户活动的信息。
1.2插件开发意义
1.2.1饭否用户对推荐的需求
饭否功能作为社交网站功能比较完备,但相比于现下火热的新浪微博,饭否网站仅仅能获得时间线顺序的消息,并不支持用户推荐及内容推荐,用户难以有效地发现其潜在感兴趣的用户或者内容。
剩余内容已隐藏,请支付后下载全文,论文总字数:28796字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;