论文总字数:24263字
摘 要
随着科学的发展,学术博客的个数正飞速增长。越来越多的科学团体、学者和专家教授使用学术博客来探讨学术问题、进行学术交流。分析博主的好友网络,可以了解博主兴趣爱好、专业方向等,也可以了解博主群体的关注热点。通过好友网络信息爬虫进行好友网络数据的爬取,具有非常现实的意义。
本文实现了一个网络爬虫工具,通过对一些学术博客网站的抓取,获取博主的简要信息,以及众多博主之间的好友关系。将上述信息存储在Mysql数据库中,通过Java程序将所需要的信息输出到一个txt文件中,使用一个网络展示工具pajek,将txt文件展示为网络并对该网络进行初步的结构特征分析。
关键词:学术博客网;好友网络;网络爬虫工具;网络特征分析
Abstract
With the development of science, the number of academic blogs is growing at a rapid speed. More and more scientific teams, scholars and experts use academic blog to discuss science problems and exchange their experience. One can get the interests and study field of the bloggers by analysing blogger's friends network, and one can also understand the focus of the bloggers. It has a very practical significance to crawl the friend network data by a web crawler.
This thesis implements a web crawler . One can use this web crawler to get the brief information of the blogger and the relationship between the bloggers. The information of the crawled network data is stored in the MySQL database and it is put into a TXT file by a java program. This thesis shows the network by using a tool named pajek. Also, it shows some analysis of the characteristics of this network.
Keywords: academic blog websites; friends network; web crawler; network characteristic analysis
目录
摘要 1
目录 2
第一章 绪论 3
1.1研究背景与意义 3
1.2网络爬虫现状 3
1.3本文的主要工作及流程图 5
1.4 论文的组织与结构 6
第二章 网络数据的获取 7
2.1网页源码的下载 7
2.1.1 Java.net.URL介绍 7
2.1.2 网页源码的存储 8
2.2网页源码的解析 9
2.2.1 htmlcleaner介绍 9
2.2.2 Xpath介绍 10
2.2.3 网页源码解析逻辑 10
2.3 本章小结 12
第三章 网络数据的存储 13
3.1 Mybatis 13
3.1.1 Mybatis介绍 13
3.1.2 Mybatis配置 14
3.2 Mysql 14
3.2.1 表的设计 14
3.3 本章小结 15
第四章 工具界面设计 16
4.1 GUI介绍 16
4.1.1文本输入框 16
4.1.2按钮与事件监听 16
4.2 界面说明 16
4.3 本章小结 18
第五章 好友网络的展示 19
5.1 输出txt文件 19
5.2 网络展示 19
5.2.1 txt文件转net文件 19
5.2.2 应用Pajek展示所爬取的博客好友网络 20
5.3 本章小结 21
第六章 好友网络的特征分析 22
6.1 好友网络的初步特征分析 22
6.2 本章小结 23
第七章 结论与展望 24
致谢 25
参考文献 26
第一章 绪论
1.1研究背景与意义
在现在这个信息大爆炸的时代,互联网技术在促进虚拟社交快速发展的同时,也诞生了复杂的基于互联网技术的学术交流活动,电子图书馆,BBS论坛,学术博客等各种学术网站如雨后春笋,一个个迅速地冒了出来。这些新兴的网站逐步取代了原来单一的纸质文献,承载着越来越多的学术交流活动。互联网上的学术资源增长迅速,几乎是呈指数型增长,很多学术研究者都开通了自己的博客,其中以博客为主要代表的学术交流网络已成为大多数人用以表达自己的思想、传播学习内容和互相交流学习经验的平台,研究学术博客网网络已经成为研究社交网络的另一个热点。
互联网上各种各样的学术网站聚集了大量学者、教授、专家。学术博客是一些专家学者,他们的学术知识和学术背景一般都比较接近,他们以共同的知识为基础进行学习和交流而形成的交流方式,博客网络的成员的交流一般是具备创新性和探索性的学科热点问题。
社交网络领域内的许多研究专家、学者、教授都已经开通了学术博客,网站上的博主及博主间的交流方式(好友链接、回复帖子、浏览主页、好友留言等)构成了一个巨大的繁杂的社交网络,研究人员通过学术博客这一个简单快捷、快速高效的方式共同研究他们专业领域的学术热点以及前沿问题。因此,研究科学工作者基于学术博客网络的非正式交流,探讨博主之间的交流方式和规律以及学术博客网络结构特征已经成为当前一个研究热点[3]。
对学术博客网络的整体网络结构特征分析,有利于研究博主之间的基本关系;对学术博客网局部的结构和博主的中心性分析,有利于发现博客网站成员之间的知识交流模式,从而推动博客网站的学术交流活动,创建良好的专业知识交流环境,推进知识得共享和创新,推动学术活动的发展[5]。
1.2网络爬虫现状
随着互联网的快速发展,网络正在时刻地影响着我们的日常生活。而在网上发展最为快速的是网页技术,,网页技术简单易学,灵活多变,而且可以最直观形象地展示为文字或者图片,所以称为了传播信息的主要手段。
随着网络信息资源的快速增长,越来越多的信息涌向了人们的眼睛,然而人们在使用互联网获取各种各样信息的同时又产生了新的需求:如何将人们需要的内容快速地筛选出来呢。互联网信息是不同的,丰富多彩的,这也导致很难找到真正有用的信息,于是在这样的背景下搜索引擎应运而生,并在互联网信息的搜索中发挥了巨大的作用,成为帮助人们获取信息的一个有效工具和一个举足轻重的网络应用手段。
随着互联网信息的爆炸式发展,互联网用户找到他们需要的只是像大海捞针一样的信息,那么为了可以快速地筛选出需要的信息,人们发明了搜索引擎。从1990年起,人们在搜索引擎的道路上共迈出了四个大步:
剩余内容已隐藏,请支付后下载全文,论文总字数:24263字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;