基于网络爬虫的社交网络数据挖掘分析系统的设计与实现

 2022-11-22 09:54:41

论文总字数:18066字

摘 要

随着互联网普及率的提升,社交视频用户规模持续增长,Bilibili、微信、视频、豆瓣、知乎等社交软件的兴起促进了人们相互参与、沟通交流,使得网络上海量信息爆炸式的增长;通用搜索引擎面临着规模、更新速度和个性化需求等多方面的挑战[1]

本文以Bilibili这个社交平台为例,使用python语言,基于爬虫技术和搜索策略爬取UP主发布的视频相关用户数据,获取信息后,然后对用户数据进行提取,并对用户发表的评论进行情感分析,同时还提取了评论中的关键字,依据这些信息生成了词云,让人们更直观的了解用户数据。这种对Bilibili数据的爬取与分析有利于分析人们的情感倾向和言论,为后续的数据挖掘及舆情分析打下坚实的基础。

爬取的海量数据资源中不但包含了大众广泛关注的社会信息,还蕴含着用户潜在的行为特征,对其加以分析挖掘更大的有关利益的热点内容。爬虫就像机器一样,模仿人类行为自动的去爬取网页,高效的获取到数据;然后对获取的数据使用一定规则提取出有价值的数据。本课题设计实现基于基于Web娱乐的网络爬虫以及数据挖掘,完成1.社交网页内容的爬取;2.NLP自然语言处理;3.生成词云及可视化分析展示图表等主要功能。

关键词:社交娱乐;爬虫;数据挖掘;竞品排名;NLP

Design and implementation of social network data mining and analysis system based on Web Crawler

With the increase of Internet popularity and the continuous growth of social video users, the rise of BiliBili, wechat, video, Douban, Zhihu and other social software has promoted people's mutual participation, communication and exchange, making the explosive growth of information on the Internet; general search engines are facing many challenges such as scale, update speed and personalized demand [1].

Taking BiliBili as an example, this paper uses Python language to crawl the video related user data published by up based on the crawler technology and search strategy. After getting the information, it extracts the user data and analyzes the user's comments. At the same time, it extracts the key words in the comments. Based on the information, it generates a word cloud, which makes people more intuitive Understand user data. This crawling and analysis of BiliBili data is conducive to the analysis of people's emotional tendency and speech, and lays a solid foundation for subsequent data mining and public opinion analysis.

The massive data resources crawled not only contain the social information that the public pays attention to widely, but also contain the potential behavior characteristics of users, and analyze and mine more hot content related to interests. Like a machine, a crawler automatically crawls a web page to obtain data efficiently, and then extracts valuable data by using certain rules for the acquired data. In this project, we design and implement web crawler and data mining based on Web entertainment, and complete the following main functions: 1. Crawling the content of social web page; 2. NLP natural language processing; 3. Generating word cloud and visual analysis and display chart.

Keywords:SocialEntertainment; Reptile; DataMining; CompetitiveRanking

目 录

摘 要 I

Abstract II

第一章 引 言 1

1.1课题研究背景及意义 1

1.2国内外研究现状 1

1.3论文主要研究内容及章节安排 2

第二章相关技术背景 3

2.1网站类型和爬虫类型 3

2.1.1网站类型 3

2.1.2爬虫爬行策略 3

2.3.1深度优先搜索策略 4

2.3.2广度优先搜索策略 4

2.2常见网络爬虫的类型 4

2.2.1通用爬虫 4

2.2.2聚焦爬虫 5

2.3本章小结 6

第三章系统需求分析 7

3.1系统可行性分析 7

3.2系统功能分析 7

3.3系统流程分析 8

3.4本章小结 9

第四章爬虫设计与实现 10

4.1系统总体架构 10

4.2开发环境介绍 10

4.2.1开发语言 11

4.2.2开发工具 11

4.3数据库设计 12

4.4信息爬取模块的设计与实现 13

4.3.1娱乐社交网页登陆 13

4.3.2社交视频内容爬取 13

4.5用户情感分析设计与实现 14

4.5.1评论过滤 14

4.5.2用户喜好倾向分析 15

4.5.3生成词云图与可视化分析 16

4.6本章小结 16

第五章自然语言处理 17

5.1nlp自然语言处理-切词 17

5.2nlp自然语言处理tf-idf 18

5.3nlp自然语言处理lcs 21

5.4本章小结 22

第六章实验结果与展示 23

6.1界面模块 23

6.2功能演示 23

第七章总结与展望 26

7.1总结 26

7.2展望 26

致谢 27

参考文献 28

第一章 引 言

1.1课题研究背景及意义

随着"互联网+"的兴起,各行业都在积极的跟随着"互联网思维"的步伐,导致其网络信息种类繁多、覆盖面广,可能就会夹杂着一些内容相近以及低质量的网页信息,使人们很难快精准的从Web信息中搜取到自己想要的资源;因此搜索引擎被开发出来了,并在网络信息搜索中发挥了极大的作用,用户在输入框输入自己想要获取的信息,就可以从浩瀚的信息海洋中搜取到。现流行的捜索引擎有Google、百度、搜狐等,虽然他们能够返回大量的网页信息,但存在着覆盖率低、更新不及时、失准确性和全面性、返回结果相关度和质量不高等缺点,针对以上局限性,搜索引擎无法满足不同背景、不同目的用户的需求;用户需要一种智能化、专业化式的搜索引擎-基于特定主题网络爬虫的垂直搜索引擎由此而生,帮助用户在Web这个浩瀚的信息空间中快速以及准确的查找到指定的信息。

剩余内容已隐藏,请支付后下载全文,论文总字数:18066字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;