论文总字数:30002字
摘 要
随着互联网的迅猛发展,网络用户随之增多,上网成为了人们生活中很重要的一部分。然而,与网络应用相关的社会问题也日益显现出来,如通过网络渠道发布淫秽色情、反动暴力信息等等。因此有必要通过对网络用户行为进行分析,来实现网络用户识别,从而达到对网络用户的监管,使人们能够健康地上网。
针对上述内容,本文基于DNS记录数据集进行了网络用户行为的分析,来实现对网络用户的识别。在处理和分析DNS记录数据集的基础上进行了相关的特征提取,得到特征向量,基于提取出来的特征向量使用相关分类算法训练得到了不同的分类模型。分类算法的选择是支持向量机和决策树,通过对分类模型进行比较与评估,最终选择决策树作为分类算法,基本上能有效的实现网络用户的识别,准确率达到76.5%。
关键词:行为分析,用户识别,DNS,机器学习
Research on Network User Behavior Analysis Technology Based on DNS Record
Abstract
With the rapid development of the Internet and the increase of network users, Internet access has become an important part of people's lives. However, the problems related to the application of the network are increasingly emerging, such as the release of obscene and pornographic information through the network channels, reactionary violence and so on. Therefore, it is necessary to analyze the behavior of network users to realize the identification of network users, so as to achieve the supervision of network users, so that people can access the Internet healthily.
In view of the above content, this paper analyzed the network user behavior based on DNS record data set to realize the identification of network users. On the basis of processing and analyzing DNS record data sets, relevant feature extraction is carried out, and feature vectors are obtained. Based on the extracted feature vectors, different classification models are trained by using correlation classification algorithm. The choice of classification algorithm is support vector machine and decision tree. By comparing and evaluating the classification model, the decision tree is finally selected. Basically, the recognition of network users can be realized effectively, with an accuracy rate of 76.5%.
Keywords: Behavior Analysis, User Identification, DNS, Machine Learning
目 录
摘 要 1
Abstract 2
第一章 绪论 1
1.1 研究背景和意义 1
1.2 国内外研究现状 1
1.3 研究目标及内容 3
1.4 论文组织与结构 3
第二章 基础理论知识 4
2.1 网络数据包 4
2.1.1 网络数据包的格式 4
2.1.2 网络数据包的捕获 5
2.2 机器学习技术 7
2.2.1 特征提取 7
2.2.2 分类算法 9
2.2.3 分类模型评估方法 11
2.3 本章小结 12
第三章 DNS数据采集和处理 13
3.1 实验环境与设值 13
3.1.1 软件环境 13
3.1.2 硬件环境 14
3.2 DNS记录数据获取 15
3.2.1 Winpcap简介 15
3.2.2 捕获数据包 15
3.3 DNS记录数据分析 17
3.3.1 数据处理 17
3.3.2 one-hot编码 18
3.4 本章小结 20
第四章 基于DNS分析的用户识别 21
4.1 分类模型构建 21
4.1.1 scikit-learn库 21
4.1.2 数据切割调整 23
4.1.3 训练集测试集比例调整 23
4.2 算法参数调整 24
4.2.1 分类算法参数 24
4.2.2 决策树 25
4.2.3 支持向量机 26
4.3 分类结果分析 26
4.4 本章小结 27
第五章 总结展望 28
5.1 论文总结 28
5.2 工作展望 28
参考文献 29
致 谢 30
绪论
- 研究背景和意义
互联网的出现使得人类社会产生了巨大的变化,随着互联网迅速而猛烈的发展,我国网络用户的数量不断增多。互联网已经深入到千家万户,许多人的工作和生活都已经离不开互联网了,上网已经成为大多数人学习、工作、生活的一部分。根据中国互联网络信息中心(China Internet Network Information Center)的最新官方统计数据,从互联网出现到2018年的12月,中国的网络用户数量有8.16亿,基本上全国58.8%的人都在使用互联网,这一年里,有5613万的人开始使用互联网。使用手机上网的用户有8.07亿,说明98.9%的网络用户都是以手机上网的形式使用互联网。到了2019年,又有更多的人开始使用互联网,网民数量进一步增加,同时,移动流量资费越来越低,使得人们上网的成本进一步降低。
与此同时,与网络应用相关的问题也日益显现出来,如通过网络渠道发布淫秽色情、反动暴力信息等等。怎么样对网络用户的行为进行有效的监管已经成为了一个非常热的话题。网络用户的识别作为网络监管的一种重要手段,对于用户行为的追踪及网络负责人的认定等等具有非常重要的意义。另一方面,网络服务的提供商需要分析网络用户的行为和爱好,来提供符合用户需求的服务,亦或是通过分析网络用户行为的构成与其行为上的特点,使得他们的服务系统更加合理与科学,并且具有针对性。而对于网络用户本身而言,网络服务提供商对网络用户行为进行有效的分析之后,有针对性地提供网络服务可以大大节省网络用户获得自身所需信息的时间。
剩余内容已隐藏,请支付后下载全文,论文总字数:30002字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;