论文总字数:29245字
摘 要
现代关系抽取任务大多基于有监督的学习方法,虽然有较高的准确率和召回率,但需要大量的人工标注语料,并且可移植性差。本文提出了一种基于远监督(Distant Supervision or Weak Supervision)的关系抽取方法,通过匹配知识库与文本获取训练数据,降低对人工标注语料的依赖,可有效地针对大量的、不同的关系进行抽取。针对训练数据集中一个实体对可能拥有多个实例多个标签的问题,本文实现了一种多实例多标签学习(MIML-RE)的模型。它通过使用一个带有隐藏变量的图模型对文本中每一个实体对的所有实例以及它们的标签建模,并且在训练分类器的过程中,综合考虑实体类型,排除错误的关系预测,带来分类器性能上的提升。
本文使用TAC- KBP评测发布的源构造数据集,利用远监督关系抽取方法完成其中Slot Filling 任务,并把本文中的MIML-RE模型应用到这个任务中。在训练阶段本文以处理后的知识库KB(Knowledge Base)为训练数据,从中检索例句抽取实体和槽之间的依存路径训练分类器;在评测阶段本文以目标实体名称为关键词通过Lucene从数据源SC(Source Corpora)中获取候选文档集,用Stanford CoreNLP工具包对候选文档进行句法依存的解析,进行关系抽取,完成槽填充。
关键词:关系抽取,远监督,多实例多标签
A STUDY ON THE MULTI-INSTANCE MULTI-LABEL LEARNING
FOR RELATION EXTRATION
Abstract
In this paper we discuss a new approach to extract relational data from unstructured text without the hand labeled data. So-called distant supervision or weak supervision for relation extraction (RE) – gathering training data by aligning a database of facts with text – is an efficient approach to scale RE to thousands of different relations. However, this introduces a new challenge where the relation expressed by a pair of entities found in the same sentence is unknown. For this reason, traditional supervision method for relation extraction by assuming every instance of a pair of entities just hold a relation label is not so suitable. To resolve this problem, we propose a new multi-instance multi-label learning method for relation extraction. It models not only all the instances of entity pairs but also their relation labels at the same time using a graphical model with a latent variable. What’s more, it can exclude some impossible relation types according to the entity types when training the classifiers which can introduce the improvement of performance of the classifiers.
In our experiments, we use distant supervision and MIML-RE model to solve TAC-KBP slot filling task. We query instance from Knowledge Base and extract dependency path between entities and slots to train classifiers in training. And in testing we use Stanford CoreNLP package to find entity mentions in candidate document collection extracted from Source Corpora.
KEY WORDS: relation extraction, distant supervision, MIML-RE
目 录
第一章 绪 论 1
1.1 研究背景 1
1.2 研究内容和意义 1
1.3 论文组织结构 2
第二章 相关研究 3
2.1 关系抽取 3
2.2 远监督方法 3
2.3 MIML-RE 4
第三章 基于远监督的关系抽取 6
3.1 开放式实体关系抽取 6
3.2 关系抽取任务描述 6
3.3 远监督关系抽取方法流程 7
第四章 多实例多标签关系抽取模型 9
4.1 模型描述 9
4.2 模型实现 10
4.3 本章小结 12
第五章 实验与分析 13
5.1 TAC-KBP评测 13
5.2 Stanford CoreNLP 15
5.3 实验过程 17
5.4 实验结果及分析 18
5.5 本章小结 20
第六章 总结与展望 21
6.1 工作总结 21
6.2 未来展望 21
参考文献(References) 23
绪 论
1.1 研究背景
随着互联网上的文本信息和数字资源的飞速增长,面对日益增多的海量信息,如何从中快速获取用户感兴趣的、真正需要的信息,并将这些信息自动地进行分类、提取和重构,越来越受到研究者的广泛关注。对关系抽取方法的研究就是这项任务中重要的一个环节。
传统的关系抽取评测任务是面向限定领域文本、限定类别实体、事件等的抽取,这在很大程度上制约了关系抽取技术的发展和应用。例如问答系统中所需要的关系抽取技术远远超过了通常研究的人名、地名、组织机构名、时间和日期等有限的实体类别,它可能涉及上下位(hypernym-hyponem)、部分与整体(part-whole)、地理位置(located/near)等关系类别,甚至涉及到的类别是未知的、不断变化的。这种应用需求对关系抽取技术的研究提出了新的挑战。另一方面,从关系抽取的技术手段来讲,由于网络文本具有不规范性、开放性和海量性的特点,使得传统的依赖于领域专家手工标注的训练语料的统计机器学习方法遇到了严重的挑战[赵军等,2011]。
1.2 研究内容和意义
本文重点关注基于远监督的关系抽取,它是信息抽取的一个子问题,用于解决两个命名实体间有标注关系的抽取问题。图1-1展示了关系抽取领域的、一个带有两个标签的简单例子。远监督方法也有两个建模难点。第一个难点是通过启发式规则获得的训练实例可能是带有噪音的,就像图1-1中最后一句,对于这个实体对,任何已知的关系标签(BornIn 和 EmployedBy)都是不正确的。这种误报率(false positive)有时候会达到很高,例如[Riedel et al. 2010]通过将Freebase中的关系和New York Times中的文章对齐,误报率高达31%。第二个难点是相同的实体对可能拥有多个关系标签,并且对于这个实体对,仅仅通过文本提及难以确定描述的是哪个关系。例如在图1-1中,元组(Barack Obama, United States)有两个合法的标签:BornIn和EmployedBy,每一个标签在不同的句子中被实例化。
DB= | |
sentence | Latent Label |
Barack Obama is the 44th and current President of the United States. | EmployedBy |
Obama was born in the United States just as he has always said. | BornIn |
United States President Barack Obama meets with Chinese Vice President Xi Jinping today. | EmployedBy |
Obama ran for the United States Senate in 2004. | / |
图1-1: 对一个包含两个实体的数据集通过远监督生成的训练语句
图1-2概括出了多实例多标签(Multi-instance Multi-label, MIML)学习模型。本文提出了一种称之为MIML-RE的新的图模型,将MIML学习用于关系抽取。本文的研究做出了以下贡献:
- MIML-RE是同时对多实例(将隐藏标签同实例匹配)和多标签(通过提供一个简单的方法捕获标签之间的依赖关系)联合建模的RE方法。在训练分类器时,综合考虑实体类型和关系名称,对于与之前学习到的意义不相容的标签,本文会去除这些不正确的关系预测。比如两个实体Tony Park 和Eva Longoria ,本文学习到的关系标签是SpouseOf, 则在判断过程中就会启发式地去掉ParentOf或者ChildOf 等关系。
- 我们将远监督关系抽取方法和MIML-RE模型应用到TAC-KBP Slot Filling 任务中。
instance
instance
label
ance
instance
l
ance
label
label
Object
图 1-2: 多实例多标签问题描述。传统的远监督方法中每个对象只有一个实例一个标签。 对于关系抽取这个对象是两个命名实体元组。对于文本中这个元组的每一个提及都产生一个不同的实例。
1.3 论文组织结构
本文的重点是介绍基于远监督的关系抽取方法,并实现了多实例多标签学习(MIML-RE)模型。本文其余各章组织如下:
第二章 相关研究: 介绍本文的相关工作,主要包括对实体关系抽取方法的研究,以及常用的实体关系抽取方法的优缺点。另外还简要介绍了基于远监督的关系抽取方法的研究现状以及多实例多标记模型在关系抽取中的应用。
第三章 基于远监督的关系抽取:在这一章中,首先分析了开放式实体关系抽取的难点,然后给出了本文关系抽取任务的符号化定义,最后重点介绍了基于远监督关系抽取的流程,包括属性关系提取、文本预处理、对齐(训练语料的构造和优化)以及训练分类器四个步骤。
第四章 MIML-RE模型: 在这一章中,首先介绍了MIML-RE模型,以及模型中各个符号的定义,接着介绍了EM算法 并详细阐述了如何利用EM算法来训练本文的模型。
第五章 实验与分析: 介绍本文的实验以及实验结果,主要包括以下几个方面:介绍实验中用到的数据集以及Stanford CoreNLP工具,介绍实验过程中应该注意的问题,给出实验结果,并对实验结果进行简要的分析,对本文的MIML-RE模型做出简要的评价。
第六章 总结与展望: 总结本文的工作,并简要说明其中的不足和未来可能的研究方向。
相关研究
2.1 关系抽取
实体关系抽取(也作关系抽取,Relation Extraction)研究中出现了许多不同的方法。总体来看,这些方法可以分为两大类: 基于知识工程的方法和基于机器学习的方法[黄勋等,2013]。基于知识工程的方法需要融合领域知识和语言学知识,通过人工编写规则集合,构造出特定模式,利用模式匹配的方式从文本中找到相应的关系实例[黄勋等,2013]。基于机器学习的方法一般将关系抽取问题转化为分类问题,通过特征工程选取有代表性的特征,利用不同的机器学习算法,例如朴素贝叶斯、K近邻等算法,训练分类模型,最终通过训练出的分类模型判定实体对之间是否具有语义关系。也有的研究者通过聚类的方法解决关系抽取问题,取得了一定的效果。总体来说,基于知识工程的关系抽取方法能够在特定领域取得一定效果,但是存在三个缺陷:
- 研究者需要在领域专家的指导下手工编写抽取规则集合,花费的时间较长。
- 抽取系统的可移植性较差。当系统移植到其他领域时,需要重新编制抽取规则。
- 当抽取规则集合较小时,规则的覆盖范围不够,抽取系统的召回率不高;当抽取规则集合比较复杂时,不同的规则之间容易产生冲突,导致抽取系统的准确率下降。[黄勋等,2013]
利用机器学习方法解决关系抽取问题,利用词汇特征、句法特征训练模型,可以有效提升抽取系统的性能。根据人工参与和对标注语料的依赖程度不同,基于机器学习的关系抽取方法可以分为有监督的机器学习方法、半监督的机器学习方法、无监督的机器学习方法三大类。
有监督的机器学习方法将二元关系抽取视为分类问题,通常的模型有表决感知器( Voted Perception) 和支持向量机( Support Vector Machines,SVMs)等。利用有监督机器学习方法解决关系抽取问题的一般流程是: 人工标注训练样本得出正例和反例; 通过选取特征集合,用已标注的正例和反例作为输入,训练出分类模型;用该分类模型对测试集合进行关系探测。根据关系实例的表示方式不同可以将有监督机器学习方法分为两类:基于特征向量的方法和基于核函数的方法。
剩余内容已隐藏,请支付后下载全文,论文总字数:29245字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;