Web页面表格检测与内容提取软件设计与实现

 2022-10-17 09:46:43

论文总字数:20290字

摘 要

随着互联网的受欢迎和发展,网页中包含的信息越来越多,网页中包含数据的格式也日渐复杂,表格是网页中常见的数据形式,因其具有显而易见的描述数据之间的关系的优势更是成为表格数据提取的重要目标,然而在现实生活中,Web页面主要是提供给用户浏览查询的,很难提取和使用,考虑设计并实现Web页面表格检测与内容提取软件,实现对给定网页中表格信息的自动检测和提取管理。

系统主要使用.NET爬虫技术,主要实现了三个主要的功能模块分别是:网页解析模块,表格识别与数据提取模块以及数据库连接与存储模块,实现了用户输入相应的URL,系统将检测网页中是否含有表格并提取表格数据进行查询展示。系统是以VS2012作为开发环境,基于.NET开发的三层架构模式,数据库则是使用的SQLServer数据库作为数据存储的载体,方便数据提取之后的查询和展示。

关键词: .NET爬虫;正则表达式;表格数据结构;数据库技术;

ABSTRACT

With the popularity and development of the Internet, there are more and more information contained in web pages, and the format of data contained in web pages is becoming more and more complicated. Forms are common forms of data in web pages because they have obvious descriptions of the relationship between data. Advantages are an important goal of tabular data extraction. However, in real life, web pages are mainly provided to users for browsing queries, which are difficult to extract and use. Consider designing and implementing web page table detection and content extraction software to achieve Automatic detection and extraction management of form information in web pages.

The system mainly uses .NET crawling technology, which mainly implements three main functional modules: webpage parsing module, table identification and data extraction module, and database connection and storage module, which realizes the user input corresponding URL, and the system will detect the webpage. Whether to include the form and extract the form data for query display. The system is based on VS2012 development environment, based on the three-tier architecture mode of .NET development, the database is the SQLServer database used as the data storage carrier, convenient for query and display after data extraction.

Keywords:.NET crawler;Regular Expression;Tabular Data Structure;Database Technology;

目 录

第一章 绪 论 1

1.1 课题背景和意义 1

1.2 研究现状 1

1.3 主要研究内容 1

1.4 论文组织结构 2

第二章 相关技术 3

2.1关键技术 3

2.2开发工具 3

第三章 系统需求分析与总体设计 5

3.1 系统的业务流程分析 5

3.2 功能需求分析 6

3.3 非功能性需求分析 7

3.4 环境需求分析 7

3.5 系统总体设计 7

第四章 系统详细设计与实现 9

4.1 Web网页解析子模块的设计与实现 9

4.2表格识别与数据提取子模块的设计和实现 11

4.3数据库连接与存储模块的设计和实现 14

第五章 系统测试 18

5.1测试方案 18

5.2功能性测试 18

5.3非功能性测试 22

5.4本章小结 23

结束语 24

致 谢 25

参考文献 26

绪 论

1.1 课题背景和意义

随着互联网的快速发展,我们真正迎来了信息爆炸和数据网络的时代。在各种类型的Web网页中,表格结构的数据占了绝大多数,大约52%的使用Table标记的HTML网站使用完整的页面表结构,例如火车图,购物网站和选项页面。 虽然某些表单用于网页布局,但大多数表单用于存储数据信息。表单类型允许用户更直观地理解信息关系,使表单数据更易于理解,并且越来越多的人在Web页面中使用表单结构,Web信息提取技术的研究越来越多地集中在识别表单结构上。

由于Internet上存在着大量的页面,表单是Web上数据的重要表示,而且网页文件难以直接编辑,因此从网页中提取表格的结构和内容比较复杂,所以本文的主要研究的就是考虑设计并实现Web页面表格检测与内容提取软件,实现网页中表格的检测和内容提取保存。

1.2 研究现状

杨少华[[1]]等人提出HTML内部结构特征会影响基于模板的网页正文提取算法的处理效果。该算法假设Web页面中有相似结构特征,然后通过分装器提取网页中的数据,即可以通过信息模式提取用户需要的内容。

沈凯[[2]]已经在分布式计算环境下产生了一些Web挖掘,并催生了Web构建和Web内容的学科和动态特性,同时Web挖掘分类问题上还从三个角度分析了Web内容,结构和使用的直接关系。

剩余内容已隐藏,请支付后下载全文,论文总字数:20290字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;