论文总字数:22769字
摘 要
由于网络技术日益发展,用户访问网站时极易被第三方网站追踪,虽然目前有很多第三方追踪者黑名单以及很多对第三方追踪的研究可以协助用户屏蔽追踪者,但是不少需要基于用户的反馈与举报,也难以保证识别的准确率。因此,本文提出一种基于机器学习的第三方流量分类与追踪者识别的方法,首先对流量进行分类,然后提取流量中的Cookie等信息,形成所需要的数据集,再手动标示部分追踪者创建并训练分类器,最后利用分类器识别追踪者,其中分类器能够在使用中根据分类数据集自我学习。实验表明,该方法能够有效地识别追踪者,查准率和查全率均接近百分百。同时也对第三方追踪这一现象进行了系统的研究,开发了一款运行在客户端的第三方流量测量及分析器,分别对Alexa排名网站中最著名的国内100个网站和国外100个网站进行了测量,量化了追踪情况在这些网站中的普遍程度,国内网站追踪者的覆盖率要略高于国外网站,我希望这样的研究能够提高大众隐私保护的意识。
关键词:第三方流量,追踪者,测量,识别
A STUDY ON MEASUREMENT OF WEB THIRD-PARTY NETWORK FLOW AND DETECTION OF TRACKERS
Abstract
With the increasing development of network technology, users can be tracked by third-party websites when surfing the Internet. Although there are some third-party trackers black lists and some studies on third-party tracking which can help users avoid being tracked, most of them are based on users’ feedback and report, so that it’s difficult to ensure recognition accuracy. Therefore, a classification approach based on machine learning is proposed to classify third-party network flow and detect trackers in this paper. Firstly, it classifies HTTP requests, and then exact cookies of HTTP request to create datasets. Then, it uses a train dataset which has been marked manually to create and train classifier. Finally, classifier is used to detect trackers. The classifier can learn from data while in use. Experimental results show that this approach can effectively detecting trackers, and achieves almost 100% Recall and 100% Precision. At the same time, I study the third party tracking phenomenon systematically, and I develop a client software which can measure and analyze third party network flow and detect third party trackers. We measure Alexa China top 100 and Alexa Global top 100 websites, study how universal third party tracking occur and discover that tracking coverage in China’s websites is larger than which in others countries’. I hope this kind of studies will raise awareness of protecting privacy.
KEY WORDS: third-party network flow, tracker, measurement, detection
目 录
摘 要 2
Abstract 2
目 录 4
1. 引言 5
2. 相关研究 6
3. Web第三方流量测量及追踪者识别方法 7
3.1 Web第三方流量测量及追踪者的识别机制 8
3.2 特征选择与分类器 11
3.3 Web第三方追踪者识别算法流程 14
4. 实验与分析 15
4.1 实验数据集 15
4.2 分类器性能评估指标 17
4.3 追踪者识别结果 17
4.4 实验结果分析 19
4.5 分类器性能分析 20
5. 相关工作 21
6. 结论 22
7. 致谢 23
参考文献 23
1. 引言
随着移动互联网的快速发展以及云计算概念的提出,越来越多的网站将自身架设在云服务供应商的平台上,同时不少网站还会采用第三方的代码库,这就很容易引发隐私泄露的问题,第三方追踪者追踪用户的现象也变得更加普遍。我们经常可以看到这样的现象发生,如果我们搜索并访问了手表相关的网站,那么当我们继续浏览其他网站时,很可能就会在网页上看到有百度推广的手表网站链接或淘宝网提供的手表购买链接,而这正是第三方追踪的常见表现形式。概括而言就是当我们访问网站时,第三方网站会链接到这些网站,通过与客户端的合理交互,便能得出用户的浏览偏好,追踪用户的浏览行为。为什么说第三方网站可以与客户端合理交互呢,因为这些第三方网站往往都掌握着我们想要访问的网站的源代码或其他源数据,而且这也没有违反任何法律。在用户浏览网页的过程中,目标网站作为第一方而存在,用户作为第二方,很多人认为用户上网浏览信息就是用户(第一方)与目标网站(第二方)的直接互动,其实这是不正确的,在用户访问的过程中,还会有很多除了目标网站之外的第三方网站参与,包括但不限于持有网站源数据的第三方实体,提供开源网页源代码(例如CSS,JS等文件)的第三方网站等。并不是所有的第三方网站都是追踪者,很多只是为了提供更好的服务。几乎所有的第三方网站对用户都是透明的,所以也就出现上文所述的用户认为自己只与目标网站发生互动这样的情况。第三方追踪则是指第三方网站通过一定的手段获取用户信息,唯一识别用户,并且追踪这一用户的浏览行为,访问偏好,个人喜好等信息,并在此后根据这些信息进行广告推送等行为的过程。
针对这样的问题,研究者们做了很多研究,以期让广大用户能够抵御第三方追踪者,切实保护个人上网隐私。其中不少研究者一直在跟进第三方追踪的最新进展,揭露了第三方追踪者很多日益更新的,更狡猾的追踪机制[1,2,3,4],并且也提出了一些应对策略来保护用户隐私,其中典型的是以浏览器插件的形式提供的,也有不少研究者通过爬虫技术研究第三方追踪者的普遍性[5,6]。但是这些研究存在一些不足:(1)一些诸如Adblock Plus这样的对抗第三方追踪者的浏览器插件依赖于其开发者提供的追踪者黑名单,而黑名单则主要依靠用户或一些开源社区的反馈与完善,这样会导致新的追踪者无法被准确识别;(2)一些研究者根据先验知识总结出追踪者的若干种追踪行为[1],并以此为依据识别具有以上行为的追踪者,这样会导致如果追踪者改变追踪策略,那么识别准确度将会降低。
剩余内容已隐藏,请支付后下载全文,论文总字数:22769字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;