面向医疗文本的命名实体识别

 2022-05-19 22:04:49

论文总字数:27448字

摘 要

命名实体识别(Named Entity Recognition , NER)作为一项信息抽取的基本任务,可以对非结构化数据出现的人名、地名、机构名称等实体做出识别,如今已经被广泛用于各个研究领域。对于医学文本方向的命名实体识别研究而言,其存在识别精确率低的问题。

针对上述问题,本文结合深度学习模型BLSTM-CRF对医学文本的命名实体识别做出尝试改进,并在CCKS 2017中文电子病历数据集上做出实验验证。具体而言,主要包括:

  1. 构建了基线实验模型BLSTM-CRF,该模型结合了双向长短记忆神经网络和条件随机场方法实现了对文本实体的序列标注,得到命名实体识别结果。
  2. 构建了基于Word2Vec预训练工具的BLSTM-CRF模型,该模型相较于基线实验模型,融入了大量的预训练结果,并构造出上下文相关联的嵌入词向量作为BLSTM-CRF模型的输入。
  3. 构建了基于BERT预训练模型的BLSTM-CRF模型,该模型较基线实验比,融入了BERT预训练模型,其中输入部分融入了句子顺序关系特征,随机掩盖特征,位置特征。除预训练模型之外,训练模型与基线实验模型保持一致。

实验结果表明,相比于基线实验模型,基于Word2Vec预训练工具的BLSTM-CRF模型的命名实体识别值达到最优。而基于BERT预训练模型的BLSTM-CRF模型整体识别性能略低于基于Word2Vec的BLSTM-CRF模型,但其在疾病和诊断、治疗两类单个实体识别任务中值超过了后者。

关键词:命名实体识别,序列标注,BLSTM-CRF,预训练模型 ,BERT

ABSTRACT

Named Entity Recognition (NER) is a basic task of information extraction. It can identify entities such as names, place names, and organization names of unstructured data. Nowadays, this technology has been widely used in various research fields. For the research of named entity recognition in medical texts, it faces the problem that the recognition accuracy is low. .

In view of the above problems, this thesis uses the deep learning model BLSTM-CRF to improve the named entity recognition of medical texts, and makes experimental verification on the CCKS2017 Chinese electronic medical record data. Specifically, it mainly includes:

(1) BLSTM-CRF is constructed as the baseline experimental model. The model combines the long-short memory neural network and the conditional random field method to get the sequence labeling of text entities and obtain the named entity recognition results.

(2) BLSTM-CRF model with Word2Vec pre-training tool is constructed as the comparative experiment. Compared with the baseline , the model incorporates a large number of pre-training results and constructs a context-dependent embedding word vector as the input of BLSTM-CRF model.

(3) The BLSTM-CRF model with BERT pre-training model is constructed as the comparative experiment. Compared with the baseline, this model incorporates the BERT pre-training model. In the pre-training model, it puts the random masking features, location features, sentence order relationship into the input embedding vectors. In addition to the pre-training model, the rest of model keep consistent with the BLSTM-CRF model.

Compared with the baseline model, the named entity recognition result of the BLSTM-CRF model based on the Word2Vec pre-training tool is optimal. The overall recognition performance of the BLSTM-CRF model based on the BERT pre-training model is slightly lower than that of the BLSTM-CRF model based on Word2Vec pre-training tool, but its result in the single entity identification tasks of disease, diagnosis and treatment exceeds the latter.

KEY WORDS: named entity recognition, sequence labeling, BLSTM-CRF, pre-training model, BERT

目 录

摘要 Ⅰ

ABSTRACT Ⅱ

第一章 绪论 1

1.1研究背景 1

1.2研究意义 3

1.3主要工作 3

1.4 文章结构 4

第二章 相关工作 5

2.1基于知识的命名实体识别 5

2.2基于统计学习的命名实体识别 5

2.3基于深度学习的命名实体识别 6

2.4医疗文本的命名实体识别 7

2.5本章小结 7

第三章 命名实体识别模型 8

3.1标注体系 8

3.2 BLSTM-CRF模型的实体识别 9

3.2.1 RNN模型 9

3.2.2 LSTM模型 10

3.2.3 BLSTM-CRF网络模型 12

3.3 基于Word2Vec的BLSTM-CRF 模型 13

3.3.1 Word2Vec工具 13

3.3.2 基于Word2Vec的BLSTM-CRF模型 15

3.4 基于BERT的BLSTM-CRF 模型 16

3.4.1 BERT模型 16

3.4.2基于BERT的BLSTM-CRF模型 17

3.5本章小结 18

第四章 实验结果及分析 19

4.1数据集 19

4.2数据预处理 19

4.3评价标准 20

4.4参数设置 20

4.4.1不同batch_size 下的识别结果 20

4.4.2不同学习率下的识别结果 21

4.4.3不同数据集比下的识别结果 22

4.4.4不同优化算法下的识别结果 23

4.5 实验结果与分析 24

4.6本章小结 25

第五章 结论与展望 26

5.1总结 26

5.2展望 26

参考文献 28
致谢 30

第一章 绪论

随着社会信息化程度的加深,各行各业都在不断提高信息化程度,医疗领域也是如此。而随之带来的问题是虽然医学文本的信息库不断扩大,但对信息的利用率较低。近些年随着人工智能相关技术的兴起,医学文本的有效利用逐渐成为了当前社会所重视的课题,例如医学电子病历的命名实体识别、在线医疗问答系统的命名实体识别和生物医学文本实体关系抽取等等。

医学文本的命名实体识别是医学文本信息抽取的基本任务,命名实体识别目前是自然语言处理领域一项相对成熟的技术,但针对医学领域的命名实体识别性能还有待改进,特别是对中文医学文本的命名实体识别。

1.1研究背景

命名实体[1](Named Entity, NE)是机构名、地名、人名以及其他所有以名称为标识的实体。数字、日期、货币、地址等等也属于此类实体。NE类别一般都是根据问题定义的,常见有机构名、人名、地名等,也可以有时间、日期、数量短语等。

剩余内容已隐藏,请支付后下载全文,论文总字数:27448字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;