论文总字数:28491字
摘 要
随着社会的信息化进程,知识图谱技术正在快速发展和变革。知识图谱是一种结构化的知识库,通常以lt;实体,关系,实体gt;三元组的形式存储知识片。作为知识图谱构建中的核心问题之一,实体链接任务受到越来越多的研究者的关注。实体链接任务的基本思路就是:首先从知识库中获取与指称相对应的候选实体集合,然后利用文本中的信息进行候选实体消歧,最后得到目标实体。本文以知识库问答作为背景,面向短文本问句展开实体链接工作,通过抽取实体类型、实体关系和流行度作为候选实体在结构化知识库中的表示形式进行实体消歧。本文的主要研究内如下:
(1)从Freebase知识库中抽取实体的名称属性,即实体的名称或别名等,构造了一个关于指称-实体映射的词典。使用指称作为key值检索词典,根据实体流行度筛选检索结果,得到候选实体集合。
(2)结构化知识库以三元组形式存储信息,利用这一特点抽取包括实体类型、实体关系和实体流行度在内的三个特征作为实体在知识库中的表示。然后使用特征组合的方法,计算指称上下文和候选实体的相似程度,并根据计算结果对候选实体排序,选择排名最高的作为最终候选实体。
(3)使用Python语言的Django框架实现了面向短文本问句的实体链接系统,将工作内容整合起来并以Web应用的形式呈现出来。
关键词:知识库,实体链接,短文本问句,Python,Django
Abstract
With the informationization process of society, knowledge mapping technology is developing rapidly and changing. Knowledge atlas is a structured knowledge base, which usually stores knowledge slices in the form of lt; entities, relationships, entities gt; triples. As one of the core issues in knowledge mapping, entity link task has attracted more and more researchers' attention. The basic idea of entity link task is: firstly, the candidate entity set corresponding to the reference is obtained from the knowledge base, then the candidate entity disambiguation is carried out by using the information in the text, and finally the target entity is obtained. In this paper, based on the background of knowledge base question answering, the entity link work is carried out for short text questions. Entity disambiguation is carried out by extracting entity type, entity relationship and popularity as candidate entities in structured knowledge base. The main research contents of this paper are as follows:
(1) A dictionary on reference-entity mapping is constructed by extracting entity name attributes, i.e. entity name or alias, from Freebase knowledge base. Using a dictionary called key value, the search results are filtered according to the popularity of entities, and the candidate entity set is obtained.
(2) Structured knowledge base stores information in triple form, and uses this feature to extract three features including entity type, entity relationship and entity popularity as Entities' representation in knowledge base. Then, the similarity between reference context and candidate entity is calculated by feature combination method, and the candidate entity is ranked according to the result of calculation, and the highest ranking entity is selected as the final candidate entity.
(3) The Django framework of Python language is used to implement an entity link system for short text questions, which integrates the work content and presents it in the form of Web applications.
KEY WORDS: Knowledge Base, Entity Linking, Short Text Question, Python, Django
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1研究背景 1
1.2国内外研究现状 1
1.3研究目标与内容 3
第二章 相关知识介绍 4
2.1知识库介绍 4
2.2词的向量化 5
2.3实体链接介绍 6
2.4Python介绍 7
2.5Django框架介绍 8
第三章 面向知识库问答的实体链接 10
3.1引言 10
3.2候选实体生成 11
3.2.1歧义词词典构建 11
3.3候选实体消歧 12
3.3.1实体流行度 12
3.3.2基于问句的相似度计算 13
3.3.3特征组合 15
第四章 实体链接系统设计与实现 16
4.1项目和应用创建 16
4.1.1安装Django 16
4.1.2创建django项目 16
4.1.2创建应用 17
4.2分配路由 17
4.3前端页面 17
4.3.1 html页面 17
4.3.2 CSS样式 19
4.4 业务处理逻辑 20
4.5 运行服务 22
第五章 总结 24
参考文献 25
致 谢 27
第一章 绪论
1.1研究背景
近年来,互联网技术发展迅速,海量的信息涌现在人们面前。这样的形势虽然为我们检索知识提供了极大的方便,但也同时对快速准确地获取目标信息提出了挑战。从大量的资源中筛除无用的信息,检索到目标答案就如同大海捞针。除了信息和资源繁多这一现象以外,最关键的问题在于自然语言表达有时候容易产生歧义。具体说来,也就是同一文本可以解释为多个意义不同的实体(一词多义),或者同一实体可以被不同的文本来表达(多词一义)。比方说“Jordan”可以指前NBA篮球运动员迈克尔.乔丹,也可以指国家约旦。为了解决语义上的歧义问题,实体链接任务应运而生。
实体链接任务指的是把从文本中抽取出的实体指称链接到知识库的过程。在文本分类、文本标注、信息检索、知识库构建等领域它都有着重要的理论意义和应用前景。恰当的运用实体链接,能够给人们带来更好的阅读体验,帮助人们更好地理解所浏览信息的含义,使人机信息交互变得更有效率。
剩余内容已隐藏,请支付后下载全文,论文总字数:28491字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;