在线社交网络中特定用户观察与分析系统的设计与实现

 2021-11-25 14:36:41

论文总字数:21156字

摘 要

近年来,随着社交网络的迅速发展,社交网络越来越成为人们生活的重要组成部分,另一方面,社交网络用户的数量也迅速增长。因此,观察社交网络中用户的行为具有重要的意义,特别是对于特定用户的行为进行观察分析可以支持社会计算领域中较多重要的研究。本系统实现的意义在于,系统提供的数据可直接用于对特定群体进行动态行为分析,研究特定人员对于舆论发展和热点话题的演化作用。

本系统实现了对Twitter中特定用户的行为进行实时的观察与分析,支持客户对Twitter中特定用户的个人信息、特定用户间关系和特定用户发布推文的情况进行实时观察分析,并可以动态展现特定用户间关系随时间变化的过程。该系统使用MongoDB作为备份数据库,使用MySQL作为查询数据库,通过twitter4j提供的接口与Twitter的REST API进行交互得到所需的Twitter数据源,使用Hibernate框架支持数据持久化,使用Struts进行MVC的分离,并使用Spring管理Struts和Hibernate框架,而前后台交互则使用了Ajax和Json技术,前端页面的实现使用了基于JQuery的easyui工具包。

所完成的系统,经功能测试满足设计需求,能够提供对特定在线人员的微博推、发和评价行为的实时观察。

关键词:在线社交网络,特定用户,实时观察分析

ABSTRACT

Nowadays, social network has played a more and more important role in people's life. On the other hand, with the quick development of the social network, it becomes so common for people to have several SNS accounts that the quantity of users rises sharply. As a result, it makes sense to detect the users' behavior in the social network, especially the specific users, which can support many researches in social computing area. The significance of this system is to directly support the behavior analytics of the specific users in need.

This system supports the dynamic detection and analytics of the specific users' behavior in Twitter. It can display the user profiles, the dynamic evolvement of their relationships and the tweets pushed by themselves. Two databases are used in this system design including MongoDB to store duplicate data and MySQL to support the query operation. The source of data is acquired by the interaction of REST API through the support of twitter4j. The Hibernate framework is used to support data persistence, the Struts framework is used to separate model, view and control, and the Spring is used to manage Struts and Hibernate frameworks. When it comes to the interaction of browser and backstage, Ajax and JSON are used. Finally, the tool easyui is used to write the web page in this system.

Last but not the least , the complete system is tested successfully to meet the design requirements so that it can provide real-time observation of specific users of online social network and find out their profile, timeline and social behavior.

KEY WORDS: online social network, specific users, dynamic detection and analytics

目录

摘要 I

ABSTRACT II

目录 III

第一章绪论 1

1.1. 研究背景与意义 1

1.2. 研究现状 2

1.2.1. 用户行为分析研究现状 2

1.2.2. 研究现状总结 3

1.3. 研究目标与内容 3

1.4. 论文的主要工作 4

1.5. 论文组织结构 4

第二章系统需求分析与总体设计 6

2.1. 系统需求分析 6

2.1.1. 概述 6

2.1.2. 功能需求 6

2.1.3. 非功能需求 6

2.2. 系统总体设计 7

2.2.1. 系统框架说明 7

2.2.2. 系统关键模块 7

2.3. 本章小结 12

第三章系统详细设计 13

3.1. 软件框架 13

3.2. 服务器 13

3.3. 关键模块设计 13

3.3.1. 数据抓取模块 13

3.3.2. 数据存储模块 14

3.3.3. 可视化模块 16

3.4. 本章小结 17

第四章系统实现和结果分析 18

4.1. 关键模块实现 18

4.1.1. 概述 18

4.1.2. 数据抓取模块 18

4.1.3. 数据存储模块 21

4.1.4. 特定用户信息管理模块 24

4.1.5. 可视化模块 25

4.2. 系统测试 26

4.3. 本章小结 29

第五章总结与展望 30

致谢 31

参考文献 32

第一章绪论

研究背景与意义

当前,以Facebook、Twitter为代表的在线社交网络迅速兴起,取得了巨大的成功,并在互联网中发挥着越来越重要的作用。同时,在线社交网络每天产生大量的信息,已经成为当前最重要的媒体之一。据统计,在线社交网络的用户量已经超过了10亿[1],在这样的背景下,研究用户的在线行为显得尤为重要。

研究用户的在线行为对于各互联网实体的意义主要表现在以下几点:[1]

(1)对于互联网服务供应商而言,随着在线社交网络流量的快速增长及其重要性的日益突出,供应商希望研究在线社交网络流量格局的演化。这可以指导他们去做一些基础设施性质的行动,如在网络中间件进行流量优化等。

(2)对于在线社交网络服务提供商而言,这类研究可以帮助他们了解客户对于不同功能的态度,特别是对于一些处于试运行中的功能。此外,从基础设施投资的角度来讲,如果我们想知道在哪个位置建立数据中心最有效或者哪个内容分发网络(CDN)群集可以提供频繁访问的数据,那么了解用户的地理位置分布和流量活动也是很重要的。

(3)对于在线社交网络的用户则可以提高用户体验。在线社交网络中存在许多恶意账号,这些账号会向合法用户发送垃圾信息,因此识别和屏蔽恶意用户对于确保良好的用户体验是十分重要的。

本课题的重点是针对特定用户进行观察与分析。所谓特定用户观察分析,是指以某种选择方法(社区发现、影响力节点发掘等算法)确定一系列具有观察价值的用户群体,并对其及其相互关系的动态变化进行跟踪,进而做出分析。依据选择方法的不同,这一系列特定用户或同处某一社区、或在网络中处于关键的位置、或具有其他重要性质。一方面,它可以支持社会计算领域中较多重要的研究,如对社区演化的分析、对网络意见领袖的分析等;另一方面,本系统提供的数据可直接用于对特定群体的动态观察、分析其对舆论发展和热点话题的演化影响。

研究现状

用户行为分析研究现状

在线社交网络用户行为涵盖了用户在线时的多种社交活动,包括推、发微博,发表评论,浏览个人主页等。这些活动可以是合法的也可能是恶意的。

对于用户在线行为的研究目前主要涵盖了四个部分。[1]

  1. 在线用户的联系与交互

社交图是一种经典有效的用来体现在线社交网络中用户关系的数学模型,它有利于社会交互的分析和用户行为描述。通常情况下,根据在线社交网络的性质,社交网络可以被模型化为无向图(如朋友关系图、用户交互图)或者有向图(如潜在交互图、粉丝图)。

对于一个朋友关系图,每个用户代表一个节点,任意用户间存在的朋友关系用边表示。但是研究人员很难将在线社交网络中的朋友关系视为现实世界的朋友关系,于是他们提出了一个新的交互图来反映社交网络中真实的用户交互。在这张图上要创造一条边仅当两用户间有可见的交互而不仅仅是朋友关系。

潜在交互图表示的是在线社交网络用户的被动行为(如个人主页浏览),传统的测量技术是不能观察这些行为的。在有向潜在交互图中,从A到B的有向边表示A访问了B的个人主页。因此,一个节点的入度表示的是这个用户个人主页的访问量,而一个节点的出度表示的是这个用户访问的个人主页数量。而在粉丝图中,一条从A到B的有向边表示A订阅接收了B最近发布的消息。

基于以上这些类型的图可以讨论在线社交网络用户的联系与交互。此外,研究人员提出了图的抽样和爬取数据技术以提高大规模社交图的分析效率。

  1. 从流量活动分析用户行为

网络监测记录了在线社交网络的具体流量活动并为我们提供了一种方法来了解在线社交网络的网络使用情况。同时,比起只使用社交图,基于网络的测量结果可以显示更多的用户活动。Benevenuto[2]等人基于从社交网站集获取的详细点击流数据分析了在线社交网络的用户行为,Wittie[3]等人则考察了在美国以外的Facebook用户有较长的响应时间以及互联网骨干网产生许多不必要流量的具体原因,并确认了缓解机制。最后Dunn[4]等人试图了解用户通过在线社交网络访问网页站点与通过搜索引擎访问网页站点的相似点和不同点。这些发现对于互联网服务供应商在网络配置和流量工程方面将会非常有利用价值。

  1. 移动社交行为

移动平台和移动应用程序的快速发展对于在线社交网络相关应用程序有重要的作用,移动设备不仅为用户提供了一个随地访问在线社交网络的平台,而且建立了移动中心的功能,例如在线社交网络中基于位置的服务(LBS)。了解移动用户的行为可以提高移动社交应用程序和系统的性能。目前,对于移动社交行为的研究内容包括大量移动社交应用程序的开发、在线社交网络中的地理预测、基于位置的社交网络(LBSN)中社会关系与用户流动的相关性、手持设备形成的网络(PSN)中基于社交的路由以及MSN中的内容分布。

  1. 恶意行为

在线社交网络为安全和隐私带来了新的挑战。一些恶意的行为,如垃圾邮件和女巫攻击会发生在在线社交网络中并带来严重的安全威胁。

Lumezanu[5]等人开展了对于电子邮件和社交网络中垃圾邮件的联合分析。从Yahoo的基于网页的电子邮件服务和Twitter中得到的垃圾邮件数据被用来描述这两个平台的广告发布行为和垃圾邮件的有效性。

女巫攻击是p2p和其他分布式系统的基础问题。在一次女巫攻击中,恶意的攻击者会创建多个虚假身份,依靠开放的成员关系(如推荐和发送系统)来影响系统的工作。最近,研究人员提出了一些基于社交网络的项目来减轻女巫攻击。。研究表明,现存的女巫防御项目可以被看做图形分割算法,通过识别一个被信任节点周围的本地社区(例如,在一个被信任节点周围的一组比图的剩余部分联系更紧密的节点)发挥功效。

研究现状总结

对于用户行为的分析,许多现有的工作尝试用相对静态的方法——通过收集和研究一个静态的数据集快照——来考察一个在线社交网络。而动态的特点对于深入了解在线社交网络的某个用户的行为是很重要的一个方面,研究不同时间段和时间粒度会带来更多有趣的发现。但在做动态分析时存在着一些挑战。一是快速的数据收集和有效的图形采样算法会扮演重要的角色。二是收集动态数据提高了信息存储的难度。另外,大多数现有的测量和分析项目是由学术团体或互联网服务供应商牵头领导的,没有在线社交网络服务供应商的积极参与。最后,女巫防御仍然是一个热门话题,预计从用户个人主页和社会行为中提取的语义信息可用于女巫侦测,并应该与现有方案协同使用。

研究目标与内容

本文的目标是设计并实现一个针对社交网络中特定用户群体的动态行为观察与分析系统。该系统对确定的在线社交网络中特定用户的集合进行实时观察和分析,获取用户自身信息以及用户间的交互信息,从而可提供对网络演化的实时呈现。

根据研究目标,本文的主要研究内容有以下两个方面:

  1. Twitter数据源的获取。Twitter数据源在获取时需要代理服务器的支持和配置,同时REST APIs在获取数据量方面又有频率的限制,最后是为了保证系统实时性还需要对REST APIs定时地发出连接请求。
  2. 数据的可视化。由于系统需要可视化的数据是多样的,因此实现可视化需要不同的方法,比如列表需要用来表示特定用户的个人信息和他们发布推文的情况,而社交图需要用来表示特定用户间关系。

论文的主要工作

系统选取了具有代表性的在线社交网络Twitter作为数据来源,从中获取用户实时(或固定时间周期)的基本信息,这些基本信息包括特定用户的个人信息、用户间好友关系的变化及其发表微博、转发微博的情况;为了向用户展示这些信息,系统对信息进行可视化。因此,本文的主要工作包括以下几个方面:

  1. Twitter数据源的获取。系统实现了与Twitter运营商提供的REST APIs进行定时连接并获取特定用户相关数据的功能。
  2. 数据的存储和分析。系统实现了Twitter数据源的备份,并建立了易于扩展的系统框架以支持数据分析。
  3. 数据的可视化。系统实现了抽象数据的可视化,以图表具体准确地表示了特定用户的相关信息。
  4. 功能测试。通过功能测试,证实所完成的系统满足设计需求,能够提供对特定在线人员的微博推、发和评价行为的实时观察。

论文组织结构

本文设计并实现了对在线社交网络中特定用户行为进行观察与分析的系统,全文由五章组成,各章节内容组织如下:

第一章为绪论部分,介绍了研究用户在线行为的背景和意义,以及观察分析特定用户在线行为的意义,并说明了本文的研究目标、研究内容和本文的组织结构。

剩余内容已隐藏,请支付后下载全文,论文总字数:21156字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;