基于深度学习的技术文本实体抽取研究毕业论文
2020-04-24 10:19:52
摘 要
专利文本是科学技术知识的重要载体。近年来由于知识产权纠纷频发,如何对文本形式的专利资源进行有效利用引起了研究者的重视。本文以专利文本为数据源展开研究,并且题目特别提到了“技术术语”,其远景意义不仅在于专利纠纷问题,更在于国家科技与技术创新能力。即提升自主创新能力,以应对国际环境的挑战,把握未来发展的主动权。实体抽取,是研究技术、分析技术,以至于推动技术发展的一系列探索性工作的基础。在缺乏现有语料的情况下,本文利用现有的领域术语词典,对钢铁冶金领域的专利文本进行标注。并分别使用机器学习模型和深度学习模型进行领域术语实体识别,比较两种方法各自的适用性及其性能,并能够识别出原本领域术语词典不存在的术语。
首先,借助机器学习方法,通过条件随机场(CRFs)算法构建命名实体识别模型。在专利文本题名数据集上进行训练。并在字序列的基础上,拓展不同的特征序列,组合成多种特征模板,得到多个模型。在训练语料不大的情况下,模型的评价指标准确率、召回率、F1值均超过了90%。
其次,为了进一步提高实体抽取的指标,本文继续探索使用深度学习模型在领域术语实体识别上的表现。将专利文本序列转化为100维的向量序列,输入100层Bi-LSTM神经网络,并在输出层通过CRFs进行约束。分别在题名数据和摘要数据集上进行训练得到模型。当数据为题名数据,训练语料量偏低,深度学习模型表现并未超过传统机器学习模型。当数据为摘要数据,数据量较大时,各实验指标准确率、召回率、F1值均超过了95%,有了较大提升。并且深度学习模型比机器学习模型在新术语识别上表现出更强的学习能力。
综上,本文在缺乏训练语料的情况下,通过构建领域词典对钢铁冶金领域文本进行标注,使用了机器学习方法和深度学习方法进行技术术语实体抽取实验。从实验结果来看,在数据量较小时,采用CRFs进行命名实体识别就已经取得了较好效果,深度学习模型能够进一步提高实验指标。
关键词:实体抽取;深度学习;监督学习;领域术语
Research on Weak Supervised Extraction of Chinese Technical Terms Based on Deep Learning
Abstract
In recent years, due to the frequent occurrence of intellectual property disputes, how to effectively use the patent resources in the form of text has attracted the attention of researchers. This article uses the patent text as a data source to conduct research. The title of this article specifically refers to "technical terminology". Its long-term significance lies not only in the issue of patent disputes, but also in the ability of national science and technology and technological innovation. The patent text is an important carrier of scientific and technical knowledge. Therefore, this paper uses the patent text as the data source to conduct research.Entity extraction is the basis for a series of exploratory work that studies technology and analytical techniques to promote technological development.In the absence of existing corpus, this paper uses the existing domain terminology dictionary to mark the patent text in the field of iron and steel metallurgy. The machine learning model and the deep learning model are used respectively to identify the domain term entity, and the applicability and performance of the two methods are compared, and the terminology that the original term dictionary does not exist can be identified.
First, on the basis of traditional machine learning method conditional random fields (CRFs), a named entity recognition model is constructed.Training on the patent text title data set. On the basis of the word sequence, different feature sequences are expanded and combined into multiple feature templates to obtain multiple models.In the case of small training corpus, the accuracy index, recall rate and F1 value of the model are over 90%.
Secondly, in order to further improve the indicators extracted by entities, this paper continues to explore the use of deep learning models in the representation of domain term entities.The patent text sequence is converted into a 100-dimensional vector sequence, input into a 100-layer Bi-LSTM neural network, and constrained by CRFs at the output layer.The model was trained on the title data and the summary data set respectively, and it was found that the deep learning model did not exceed the traditional machine learning model when the amount of data was small.When the amount of data is large, the accuracy, recall rate and F1 value of the evaluation index of the model are both over 95%, which is greatly improved.
In summary, in the absence of training corpus, this paper uses the domain dictionary to mark the text in the field of iron and steel metallurgy, and uses the machine learning method and the deep learning method to conduct the technical term entity extraction experiment.From the experimental results, when the amount of data is small, the use of CRFs for named entity recognition has achieved good results, and the deep learning model can further improve the experimental indicators.
Keywords:entity extraction,deep learning,supervised learning,domain terminology
目录
摘 要 I
Abstract III
第一章 绪论 1
1.1 课题背景及意义 1
1.2 实体抽取研究现状 1
1.3 本论文的主要工作内容 2
第二章 实体抽取方法研究 3
2.1 基于词典和规则的方法 3
2.2 基于统计机器学习的方法 3
2.2.1 机器学习在实体抽取上的应用 3
2.2.2 条件随机场(CRFs)与实体抽取 4
2.3 基于深度学习的方法 5
2.3.1 深度学习方法在实体抽取的简介 5
2.3.2 基于Bi-LSTM CRF的方法 5
2.4 本章小结 6
第三章 实验数据获取处理 7
3.1数据的采集 7
3.1.1 专利数据获取 7
3.1.2 领域词典及命名实体规则扩展 7
3.2实验数据处理 8
3.3 本章小结 10
第四章 基于条件随机场的技术术语实体抽取 11
4.1基于CRFs的术语实体识别任务及流程 11
4.2 拓展序列生成 12
4.3 特征模板的构建 13
4.4 CRFs模型的实现 14
4.5 实验结果及分析 15
4.5.1 实验数据 15
4.5.2 实验指标定义 16
4.5.3 实验结果 16
4.5.4 字角色识别结果分析 17
4.5.5术语识别结果分析 18
4.6 本章小结 19
第五章 基于深度学习的技术术语实体抽取 20
5.1 术语实体识别任务及流程 20
5.2 数据预处理 20
5.3 Bi-LSTM CRF模型参数设置 21
5.4 实验结果及分析 22
5.4.1实验数据 22
5.4.2实验结果 22
5.4.3题名(title)数据实验结果分析 23
5.4.4摘要(abstract)数据实验结果分析 24
5.5 本章小结 25
第六章 总结 26
6.1 基于深度学习的中文技术术语弱监督抽取研究的结论 26
6.2 本文研究的总结与展望 27
参考文献 28
致 谢 31
第一章 绪论
1.1 课题背景及意义
近年来,华为、中兴等企业相继走出国门,遭遇到的各种专利纠纷逐渐引起了人们对于专利领域的重视。专利安全涉及到企业和国家的战略利益[1][2]。因此如何对专利文献进行全面、细致且有效的监管成为了控制专利纠纷发生的关键。通过构建细颗粒度的专利安全事件知识库是一种有效的方式和手段。在构建专利安全事件知识库的过程中,核心步骤是抽取专利文献文本中的相关实体[3][4]。对于专利领域实体识别任务,这些技术术语实体名称组成复杂、结构嵌套,还面临领域分词困难以及缺乏大规模人工标注训练语料等诸多问题[5][6]。
1.2 实体抽取研究现状
实体抽取[7]也就是命名实体识别,包括实体的检测(find)和分类(classify),是NLP领域中解决一些复杂任务的基础问题。随着互联网信息数量的快速增长,信息抽取技术被大量用于分析网页和自由文本。例如,舆情监控[8](如匹配敏感信息)、电子商务[9](如抽取产品属性)、情感分析[10](如抽取褒贬特征)、问答系统[11]等诸多领域。
传统的实体抽取方法,包括基于规则[12][13]的方法和基于统计[14]的方法。基于规则和统计的方法可移植差,对与新领域的适应性差[15][16]。近年来,机器学习和深度学习在自然语言处理方面得到了广泛的应用。将机器学习、深度学习与实体抽取相结合,在各项指标评测中都取得了良好的效果,超越了传统基于规则和统计的方法。
1.3 本论文的主要工作内容
本文基于领域词典和机器学习的方法进行技术术语实体识别,依据技术领域词典和CRFs训练获得标注模型[17][18]。对训练语料的特征序列进行筛选,评测不同特征序列作为训练语料得到的模型的优劣,寻求最优模型。在机器学习方法(CRFs)基础上再进一步探索机器学习和深度学习相结合的方法。运用LSTM CRFs[19][20][21]的方法进行命名实体识别,期望进一步提高识别效果。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。