基于点击数据和模式识别的维基百科文章检索方法优化

 2022-08-06 10:14:40

论文总字数:27078字

摘 要

随着信息化时代的到来,搜索引擎的使用已经成为人们日常生活中获取信息的最主要途径。尽管市场中存在很多各式各样的搜索引擎,但限于数据源之广以及用户的检索请求与其实际信息需求间可能存在的差距,如何给出最贴近用户实际信息需求的文档排名仍然是一个至今还在探究中的问题。

本文以维基百科的文档作为数据源,在传统有效的tf-idf方法的基础上,通过模式识别中简单有效的KNN方法识别结构特征,并利用用户的点击数据相结合,对tf-idf方法的结果进行进一步的优化。设计并实现了以下内容:

(1)tf-idf系统:根据经典的tf-idf算法,实现了一个基于内容分析、计算文章与请求相似度的基础检索系统。

(2)结构特征元素的提取与利用:本文从作者们的写作习惯出发,基于关键词在文章中的不同分布情况意味着对文章主题的不同地位的思想,用关键词在文章中出现位置信息来表示文章的结构特征,并据此计算不同样本间的距离以得到待测样本的结构特征分类。

(3)点击数据的重新组织与利用:本文对点击数据根据source和reference的分别归并以获得文章的入度和出度,据此计算出文章在点击数据方面的权重。

(4)对结果的评估方法:通过使用重新组织的NDCG@k方法和precision@k方法对结果进行评估。

本文最终完成了基于点击数据和模式识别方法对维基百科文章检索的优化,实验结果表明,本文提出的新方法获得了一定的效果。

关键词:点击数据、模式识别、文档排名、维基百科

Abstract

With the arrival of information age, online search engine has gradually been a main approach for people to get information in daily life. Although there are various kinds of search engine in market now, limited by the big size of data source and the possible difference between query and actual information needs, how to rank all documents according to their ability to satisfy users’ information needs is still a problem under researching.

Based on Wikipedia’s documents and traditional tf-idf method, by recognizing structure features by KNN method, a simple and effective method in pattern recognition, and combining with click data, the result of tf-idf method is optimized. Following content is designed and implemented:

(1) A tf-idf system: based on typical tf-idf method, a basic retrieval system is built which calculate the similarity between query and articles basing on the content analysis.

(2) Extraction and utilization of structure features: based on writing habits of writers and different importance of differently distributed keywords, the structure feature is shown as (first appearance, last appearance and standard deviation). And distance is thus got by calculating distance of vectors.

(3) Utilization of click data: merging according to source and reference separately, the in and out degree are achieved and click weight is got by these degrees.

(4) Evaluation of ranking result: by using re-organized NDCG@k and precision@k methods, the result is evaluated.

A new method based on pattern recognition method and click data to optimize the query result of Wikipedia documents is achieved and approved by the experiment result from the evaluation of a new NDCG@k method and precision@k.

KEY WORDS:click data,pattern recognition,documet rank,Wikipedia

目录

摘要 II

Abstract II

第一章 绪论 1

1.1 研究背景及意义 1

1.2 研究现状 2

1.2.1 信息检索中主要使用的方法 2

1.2.2 KNN方法在信息检索问题中的应用 2

1.3 本文的主要工作 3

1.4 论文组织结构 3

第二章 相关技术 5

2.1 tf-idf方法 5

2.2 KNN方法 6

2.3 NDCG@k方法 6

2.4 precision@k方法 7

2.5 本章小结 7

第三章 系统模型设计与实现 8

3.1对检索请求的预处理设计 8

3.2 tf-idf系统部分的设计 8

3.3 结构特征部分的设计 8

3.4点击数据特征部分的设计 11

3.5最终综合权重计算的设计 12

3.6 系统的实现 13

3.6.1 流程简介 13

3.6.2 文档集的存储和使用 14

3.6.3 文章各方面数据的存储和使用 14

3.6.4 排名方法的实现 14

3.7 本章小结 14

第四章 实验及结果分析 15

4.1 实验设计 15

4.1.1 数据集的介绍 15

4.1.2 对比模型和参数设置 17

4.1.3 评价指标 18

4.2 实验结果及分析 19

4.2.1 实验结果 19

4.2.2 结果分析 21

4.3 本章小结 22

第五章 总结与展望 23

5.1总结 23

5.2 未来的工作 23

5.2.1 对于tf-idf部分的设计 23

5.2.2 对于结构特征的设计 23

5.2.3 对于点击数据利用的设计 24

致谢 25

参考文献 26

第一章 绪论

1.1 研究背景及意义

随着信息化时代的到来,使用在线搜索引擎来获取信息已成为人们日常生活中越来越主要和普遍的手段。然而,尽管市场中存在着很多各式各样的搜索引擎,用户们还是会经常感到“搜不到想要的内容”“最想看的内容的排名很靠后,浏览了很久才找到”。这样的问题很大一部分原因在于,用户输入的检索请求与其实际的信息需求之间存在这一些出入。而大部分搜索引擎都是基于传统有效的tf-idf方法,对文档内容与检索请求间的相似度计算后进行排名并返回结果。

关于提高搜索引擎结果对用户信息需求契合度的研究一直吸引着大量的研究人员,尤其是以维基百科为数据源的研究,占到了很大一部分比例。维基百科作为一个开放的、世界最大的在线搜索引擎,它所提供的数据为研究人员带来了很大的便利。维基百科为研究人员提供了各方面很多的种类的数据,包括完整的dump文件、页面浏览数据、链接点击数据等等。很多研究项目以维基百科作为数据源,进行对信息检索结果的改进研究。例如:Haggai,Shay等人[12]就检索包含较多论据观点的文章的方法进行了研究和改进;D Chen 在他的文章中提到可以使用维基百科作为语料库,生成对开放问题的回答[13]。Robertie[15]等人也研究过使用维基百科的编辑历史,获得作者权威度和文章质量之间的关联性,从而判断文章质量的方法。Y Suzuki尝试使用了h-index来对维基百科的文章质量进行评估[17]

剩余内容已隐藏,请支付后下载全文,论文总字数:27078字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;