基于机器学习的Webspam检测方法

 2022-08-06 10:15:49

论文总字数:25060字

摘 要

webspam是目前一种主要的web安全问题,通过在网页中嵌入spam信息,达到地下产业搜索引擎优化的效果。 本课题计划基于自然语言处理和机器学习算法,实现一种高效准确的检测方法对于webspam进行检测。该检测方法对于网页进行了格式化文本的解析,通过自然语言处理和机器学习算法建立了一套基于格式标记和词袋的特征集合。基于已标记样本训练机器学习算法,通过特征工程选择最有效的测度,实现高效的webspam机器学习检测方法。 具体方法是对于网页内容进行分块处理,基于对标签等格式特征的标记提取特征矩阵,使用机器学习方法基于已标记的特征矩阵进行训练,得到网页结构的特征模型,并使用自然语言处理中优势率的算法对块文本进行处理,处理后将文本优势率特征和网页结构特征模型结合起来进行检测。除此之外,本论文设计的检测方法具有一定学习能力,主要设计是通过增量学习的方法使模型不断适应新的格式特征数据,同时根据文本分词在数据中出现的次数更新优势率字典,实现了具有对新数据学习功能的webspam检测算法。

关键词:Webspam,机器学习,自然语言处理,特征工程

Abstract

Currently, webspam is an important web security problem. Some malicious people embed spam information in the web page to make their underground industry have a good rank in search engines. This project realizes a method to detect webspam based on the Natural Language Processing(NLP) and Machine Learning(ML). The method extracts the web page and build a complete feature set according to marked data by using NLP and ML, trains machine learning model based on the marked data sample and selects the most effective feature set, finally realizes the effective webspam detection algorithm. The specific detail is to separate the web page into block and extract feature array based on some html format feature, such as tag, and use machine learning method to train the marked array data, and get the format feature model, then deal with text in the block by using Odds Ratio algorithm, after text analysis, combine the text Odds Ratio feature and format feature model to detect the webspam. Furthermore, the detection method can learn from the new data which realized by incremental learning. The method uses incremental learning to learn new html format data and at the spam time updates the Odds Ratio dictionary based on the occurrence time of the spam words and non-spam words and finally realize a webspam detection method with learning ability for new data.

KEY WORDS: Webspam, Machine Learning, Natural Language processing, Feature Engineering

目 录

摘要 I

Abstract II

第一章 绪论 3

1.1 研究背景及意义 3

1.2 论文主要研究内容 3

1.3 论文章节安排 4

第二章 webspam基本概念及类型 5

2.1 webspam基本概念 5

2.2 webspam类型 5

2.3 webspam检测研究现状 6

第三章 基本概念和所用技术 7

3.1 HTML超文本标记 7

3.2 独热编码(one-hot encoding) 7

3.3 优势率(Odds Value) 8

3.4 python编程语言及其机器学习库sklearn 9

3.5 增量学习(Incremental Learning) 10

第四章 系统框架设计 12

4.1 系统环境 12

4.2 系统设计 14

4.2.1 阶段开发原则 14

4.2.2 易用性原则 14

4.2.3 业务完整性原则 14

4.2.4 可扩展性原则 14

4.3 系统模块 14

4.3.1 数据获取模块 14

4.3.2 数据训练模块 14

4.3.3 数据检测模块 15

4.4 数据存储设计 15

4.4.1 网页分块的存储 15

4.4.2 网页结构特征的存储 15

4.4.3 网页结构特征矩阵的存储 15

4.4.4 停词表及优势率字典的存储 17

4.4.5 网页结构机器学习模型的存储 17

第五章 网页分块设计及特征提取 18

5.1 html分块 18

5.2 生成html块中标签树标签集合的特征向量 18

5.2.1 生成html块中叶标签属性的特征向量 18

5.2.2 特征向量拼接和处理 19

5.2.3 文本内容的特征提取 19

第六章 机器学习算法选取与检测算法设计 21

6.1 机器学习算法选取 21

6.2 检测算法设计 21

第七章 效果测试与分析 23

7.1 测试标准 23

7.2 测试方法 23

7.3 测试结果 23

7.4 讨论分析 24

第八章 总结与展望 27

8.1 总结 27

8.2 展望 27

致 谢 29

参考文献 30

绪论

研究背景及意义

2018年1月第41次中国互联网络发展状况统计报告[1]指出,截至2017年12月,中国互联网用户数达到7.72亿,普及率达到55.8%,超过全球平均水平(51.7%) 4.1个百分点。亚洲平均水平(46.7%)为9.1个百分点。比2016年新增网民4074万人,提高5.6个百分点。截至2017年12月,中国网页数量为2604亿,同比增长10.3个百分点。其中,静态页面数为199.6亿,占页面总数的75.6%。受众最广的三大网络应用分别是即时通信(93.3%),搜索引擎(82.8%),网络新闻(83.8%)。截至2017年12月底,搜索引擎用户达到6.3956亿,比2016年增加3716万,年增长率6.2%,利用率82.8%。网页的爆炸性增长对搜索引擎的准确度提出了更高的要求。一些虚假页面或者含有垃圾信息的网页降低了用户的搜索体验甚至给用户带来利益上的损害。如何处理非相关网页,质量低下网页,大量重复的页面成为了搜索引擎的重要课题。

剩余内容已隐藏,请支付后下载全文,论文总字数:25060字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;