基于多源数据流的Bootstrapping事件抽取

 2022-05-20 22:07:18

论文总字数:33091字

摘 要

09015413 吴锐

指导教师 漆桂林

在信息爆炸的时代中,从成千上万的互联网文本获取到准确的事件信息是一项非常具有意义的工作。近年来,随着计算机计算能力的大幅提升,基于深度学习的事件抽取方法已普遍优于传统的事件抽取方法。但深度学习往往依赖于大量的标注文本,且由于事件信息的复杂性,其数据的标注困难而又繁琐,导致了事件抽取任务在领域内的实现有着较高的门槛。本文创新性地提出了一种事件抽取框架,该框架基于Bootstrapping方法,结合深度学习神经网络理论,以少量标注的初始事件信息为依托,能够从未标注的语料库中挖掘出更多潜在的事件信息。此外,由于Bootstrapping的思想与平行语料较为契合,且不同数据源对同一事件的表示往往具有多样性,因此我们考虑使用由多个数据源产生的数据所构成的语料库来进行建模。具体来说,该框架主要由定义事件模板、获取种子数据、深度学习事件抽取、平行事件对齐以及文本聚类这五个步骤组成。在实验中,我们爬取了大量的体育新闻作为平行语料库,并基于“比赛”事件类型进行了该框架的实现,验证了每一轮迭代中事件抽取器效果的不断优化;同时对比非平行语料库,验证了平行语料库在Bootstrapping方法中起到的优化作用。

关键词:事件抽取,Bootstrapping,深度学习,平行语料

Abstract

09015413 Rui Wu

Advisor Guilin Qi

In the era of information explosion, it is significant to obtain event information from thousands of web texts. In recent years, with the rapid improvement of computing power of computer, event extraction based on Deep Learning is generally superior to traditional event extraction methods. However, deep learning often relies on a large number of annotated texts, and because of the complexity of event information, the annotation of event data is difficult and time consuming, which leads to a high threshold for the implementation of event extraction tasks. In this thesis, we innovatively propose an event extraction framework. The framework, which is based on Bootstrapping method and Deep Learning theory, can mine more events from unlabeled corpus with a small amount of manual labeled data. In addition, since the idea of Bootstrapping fits well with parallel corpus, and the reprsentation of the same event from different data sources is offen diverse, we consider modeling on the corpus composed of data from multiple data sources. Specifically, the framework consists of five steps: defining event templates, labeling seed data, extracting events with Deep Learning, aligning events in parallel corpus and clustering text. In the experiment, we crawl a large number of sports news as a parallel corpus, implement the framework on the event type of "competition", and verify the effect of event extractor growing better in each iteration. At the same time, we verify the effect of parallel corpus in Bootstrapping method by comparing with non-parallel corpus.

KEYWORDS: event extraction, Bootstrapping, Deep Learning, parallel corpus

目 录

摘要 II

Abstract III

第一章 绪论 1

1.1 研究背景 1

1.2 研究现状 2

1.2.1 事件抽取 2

1.2.2 Bootstrapping 5

1.3 研究内容 5

1.4 本文结构安排 6

第二章 背景知识 7

2.1 事件抽取 7

2.2 Bootstrapping 8

2.3 深度学习 9

2.4 聚类 10

2.5 本章小结 12

第三章 基于多源数据流的Bootstrapping事件抽取 13

3.1 框架概述 13

3.2 定义事件模板 15

3.3 获取种子数据 15

3.3.1 数据筛选 15

3.3.2 数据标注 16

3.4 深度学习事件抽取 17

3.4.1 事件抽取问题建模 17

3.4.2 神经网络模型 19

3.5 平行事件对齐 21

3.6 文本聚类 22

3.5.1 聚类方法 23

3.5.2 置信度评估 24

3.7 本章小结 25

第四章 实验与评估 26

4.1 实验工具与环境 26

4.2 实验准备 26

4.2.1 实验数据 26

4.2.2 数据预处理 28

4.3 实验结果与分析 29

4.3.1 评估数据及指标 29

4.3.2 Bootstrapping效果分析 30

4.3.3 平行语料效果分析 33

4.4 本章小结 34

第五章 总结与未来展望 35

5.1 工作总结 35

5.2 未来展望 35

参考文献 36

致 谢 38

  1. 绪论
  2. 研究背景

近年来,随着互联网技术的高速发展,我们进入了一个信息爆炸的时代。互联网使得信息的采集、传播速度和规模达到了空前的水平,实现了全球的信息共享与交互,已经成为了当今社会必不可少的基础设施之一。信息爆炸的一大主要表现方面,就在于文本信息的飞速增加。如图1.1所示,各种新闻站点每天以不同的方式报道着各式各样的新闻,从各个角度对新闻进行分析与评论;我国上亿的网民每天都会在贴吧、微博、豆瓣等交流平台上讨论自己感兴趣的事件,分享自己的经历与见解;维基百科、百度百科、知乎等站点上有着专业人士认真撰写的专业知识等。互联网上这些海量的文本数据,为自然语言处理中的信息抽取、情感分析等任务提供了数据方面的支持。

剩余内容已隐藏,请支付后下载全文,论文总字数:33091字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;