基于web的数据抓取工具的设计与实现

 2022-02-06 18:28:34

论文总字数:20463字

摘 要

数据的主要来源是网络,而且网络的规模还在不断的增加。在如此庞大的数据前提下,如何搜索到特定的信息就成为了一个急需解决的问题。其中怎么去证明被搜索的网页是否与主题有关联是一个难题。怎么去证明被搜索的网页是否与主题有关联是一个难题。这当中有许多技术状态的关联,但是如果从关注用户的角度来指导搜索就会发现基于语义的网络抓取工具才是最核心的解决问题的方法。基于数据库的Web数据抓取工具要关联到地图是需要词汇库的帮助的。数据抓取工具使用词汇数据库所提供的资源来发现搜索查询有关联的被搜索网页。能够抓住重点的网络数据抓取工具能有助于找到网页的相似性,而不是需要通过下载该网页来做到搜索查询。因此,更好的方法是去获取并且分析一个页面的HTML文件。本文提出并讨论了一个这样的方法来实现基于web的数据抓取工具。

关键词: 数字数据, Web, 数据抓取工具, HTML, 数据库

Design and implementation of crawler based on Web

Abstract

The world is completely working on digital data. The largest and prime or main collection of this digital data is web. The size of this web is increasing round-the-clock. The principal problem is to search this huge database for specific information. To state whether a web page is relevant to a search topic is a dilemma. There are many techniques to state the relevancy but if focus on the users' perspective as key issue to guide search then semantic based web crawler are unsurpassed. Database web crawlers maps relevancy with the help of lexical database. The crawler uses the senses provided by lexical database to discover relatedness among the search query and the web page being searched. Focused web crawler helps to find the similarity of web page to the search query without downloading that page. Thus focused web crawler is saving the bandwidth required to download a HTML page. This paper proposes and discusses one such approach to implement semantic based focused web crawler.

KEY WORDS: digital data, Web, crawler, HTML, database

目录

摘要 …………………………………………………………………………………………2

Abstract …………………………………………………………………………………………2

第一章 绪论 …………………………………………………………………………………5

1.1 课题研究背景 ……………………………………………………………………5

1.2 国内外研究现状 ………………………………………………………………6

1.3 主要研究内容 ……………………………………………………………………7

1.4 论文结构安排 ……………………………………………………………………7

第二章 相关技术基础 ………………………………………………………………………8

2.1 网页抓取策略 ……………………………………………………………………8

2.2 数据库的选择 ……………………………………………………………………9

2.3 爬行运用 ……………………………………………………………………9

第三章 数据抓取工具的需求分析 …………………………………………………………10

3.1 系统实现的目标 ………………………………………………………………10

3.2 功能性需求描述 ………………………………………………………………10

3.2.1 信息获取模块 ………………………………………………………………10

3.2.2 信息处理模块 ………………………………………………………………11

3.2.3 信息存储模块 ………………………………………………………………12

3.3 非功能性需求 ……………………………………………………………………13

第四章 数据抓取工具的设计和实现 …………………………………………………………15

4.1 系统设计原则 ……………………………………………………………………15

4.2 系统体系结构 ……………………………………………………………………15

4.3 系统详细设计和实现 …………………………………………………………16

4.3.1 获取HTML页面 ……………………………………………………………16

4.3.2 处理HTML页面 ……………………………………………………………17

4.3.3 关键字匹配 ………………………………………………………………19

4.3.4 数据入库 ………………………………………………………………19

4.3.5 数据库管理 ……………………………………………………………20

4.3.6 线程间通信 ……………………………………………………………20

第五章 数据抓取工具的测试结果 …………………………………………………………22

5.1 开发环境 …………………………………………………………………………22

5.2 抓取工具运行结果 ………………………………………………………………22

第六章 结论 …………………………………………………………………………………27

6.1本文工作总结 …………………………………………………………………27

6.2存在的问题和展望 ………………………………………………………………27

致谢 …………………………………………………………………………………………28

参考文献(References) ……………………………………………………………………29

  1. 绪论

1.1课题研究背景

互联网在最近几年进入了高速发展的时代,他的发展速度快得超出了人们的预料。我们可以从2010年的一项数据来看:中国的网民数量2010年末比2009年末增长了7330万,达到了4.58亿,与此同时网络普及率也上升到了35%,这是一个令人可怕的数据,并且手机网民的增加速度也毫不逊色,2010年有增加6930万手机网民,让中国的手机网民数量在2010年末达到了3.05亿。从这个数据我们可以看出来在几年后的今天,我们的日常生活会随着互联网越来越快的发展更加的离不开互联网。

剩余内容已隐藏,请支付后下载全文,论文总字数:20463字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;