论文总字数:26422字
摘 要
近几年来,实体链接作为自然语言处理中的一个任务逐渐得到了研究人员的广泛关注,该研究对知识图谱构建,智能问答等研究具有重要的意义,实体链接中最关键的研究点是实体消歧。文本中的实体指称项在真实世界中往往对应着不同的实体,而实体消歧的任务就是将实体指称项和特定真实世界的实体对应起来。
目前,研究人员在实体消歧领域已经提出了不同类型的方法,不同的消歧算法有着自己的优点和缺点,针对现有的典型的消歧算法,本文实现了四种经典的方法基于popularity的消歧算法,基于Jaccard的消歧算法,基于Jaccard结合SVM分类器的消歧算法,还有基于CNN模型的消歧算法,本文通过实验比较这几种不同算法的效果,进而剖析这些不同消歧算法的优点和局限。
关键词:实体链接,实体消歧,Jaccard,CNN。
Abstract
In recent years, entity linking, as a task in natural language processing, has achieved outstanding results in improving the efficiency of natural language processing. The most critical point in entity linking is entity disambiguation. We know that an entity refers to items. The real world corresponds to different entities, and the task of entity disambiguation is to match entity referential terms with the correct real-world entities.
Currently, various methods have been proposed in the field of entity disambiguation. Different disambiguation algorithms have their own advantages and disadvantages. This paper implements four classical algorithm of entity disambiguation a disambiguation algorithm based on popularity, the model based on Jaccard, as well as disambiguation algorithm based on CNN model. This paper compares the effects of these different algorithms, and analyzes the advantages and limitations of these different disambiguation algorithms.
KEY WORDS: entity link, entity disambiguation, Jaccard ,CNN.
目录
摘要 I
Abstract II
第一章 绪论 1
1.1 研究背景及意义 1
1.2 本文主要工作 1
1.3 论文组织结构 2
第二章 相关工作 3
2.1 实体链接和实体消歧 3
2.2 维基百科 4
2.3 命名实体指称项识别和候选实体生成 5
2.4 数据集 5
2.4.1 介绍 5
2.4.2 数据集预处理 5
2.5 实体链接评估方法 5
2.6 本章小节 6
第三章 实体消歧算法的实验评估 7
3.1 实体消歧过程概述 7
3.2 基于popularity的实体消歧算法的实验评估 9
3.2.1 popularity简介 9
3.2.2 基于popularity消歧算法 9
3.2.3 实验结果 9
3.3 基于Jaccard的实体消歧算法的实验评估 10
3.3.1 词袋子简介 11
3.3.2 基于Jaccard消歧算法 11
3.3.3 实验结果 12
3.3.4 改进的基于Jaccard消歧算法 12
3.3.5 实验结果 12
3.4 基于Jaccard结合SVM的实体消歧算法的实验评估 13
3.4.1 实验结果 13
3.5 基于CNN模型实体消歧算法的实验评估 14
3.5.1 词向量的不同表达方式 14
3.5.2 CNN:卷积神经网络 14
3.5.3 基于CNN模型的消歧算法 14
3.5.4 实验结果 17
3.6 本章小结 19
第四章 实体消歧算法的比较 22
4.1 多种消歧算法的结果比较 24
4.2 多种消歧算法的比较 25
4.3 本章小节 25
第五章 总结和展望 27
5.1 主要工作小节 28
5.2 未来工作展望 29
致谢 31
参考文献 32
绪论
近些年来,越来越多的学者参与研究实体链接和消歧领域,实体链接和消歧在自然语言处理其他领域是比较重要的和基础的领域,所以该领域具有一定的研究意义,在第一个章节中,第一个小节介绍了实体链接和消歧的研究背景和意义,第二个小节介绍本文的主要工作,第三个小节会简洁介绍本文的内容组织结构
1.1研究背景及意义
随着因特网的快速发展,我们可以从网络中获得越来越多的文本数据,如何从这些大量的文本数据中获取需要的有用的信息是非常值得研究的,因此,近些年来,各式各样的文本挖掘方法被提出,比如文本分类聚类。而最近几年,以实体为中心的数据挖掘思想为数据挖掘注入了新的活力和提供了新的方向,以google的知识图谱为例,其是一个以实体为中心而构建的网络。而对于网络文本数据,可以通过包含大量丰富的关于实体的知识库来解决命名实体歧义的问题—实体歧义是一个命名实体指称项可能对应着真实世界不同实体的情况[14]。通常来说,发的微博,博文,推特以及新闻等包含了实体指称项,这些指称项通常指的是诸如人名,地名,机构名,公司名等实体,而很多情况下这些实体都是存在歧义的,例如某篇新闻中出现的“苹果”指称项,它可能指的是水果的苹果实体,也可能是指的是苹果电商公司还可能指的是苹果这部电影。实体链接和消歧是信息检索,文本内容分析,问题回答系统等应用领域的基础。实体链接中的实体消歧的任务就是将存在歧义的实体指称项链接到知识库中正确的实体上面去。
以“迈克尔乔丹活得今年NBA的mvp”为例。虽然对于人可以很快的分辨出这里面的迈克尔乔丹指的是著名篮球运动员迈克尔乔丹,但是对于机器就不一样了,迈克尔乔丹这个实体指称项他可以指的是大众所熟知的NBA球星,但是他还可以指的是机器学习领域著名的加利福利亚大学的教授(Michael I.Jordan),还可能指的是英国的一个商人。而实体消歧的任务就是将文本中具有歧义的实体“迈克尔乔丹”链接到知识库中正确的实体。
1.2本文主要工作
本文的课题工作主要分为两个部份:
(1)实现不同的消歧算法。目前,已经有很多的学者对于实体消歧这个方向进行了研究,也有很多消歧算法已经被提出,比如基于二分类分类器的消歧算法,基于图的消歧算法,还有近几年在多个领域表现出色的神经网络,现在也有很多学者将神经网络融入到消歧算法中并且取得了很不错的效果。而本文通过实现不同的消歧算法来对实体链接的消歧过程有更深入和更系统的了解,为以后更深入的研究打下基础。
剩余内容已隐藏,请支付后下载全文,论文总字数:26422字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;