面向PICO模型的医学实体链接方法的设计与实现

 2022-05-28 22:55:58

论文总字数:33764字

摘 要

实体链接是自然语言处理中的一项基础工作,是将文本中出现的一个实体指称链接到知识库中的实体中,将文本转化为带有知识库实体标注的文本,实现文本层面到语义层面的转换,方便后续研究。在生物医学领域,以文献形式出现的生物医学知识日益丰富,一个有效的医学文本实体链接工具将对研究人员和医疗工作者理解、挖掘医疗信息提供语义层面的帮助。

本文提出并验证了一种基于Bi-LSTM CRF的命名实体识别及链接的方法。该方法的特点在于:通过命名实体识别模型将医学文本中的实体标注出来,再将实体与候选实体通过向量相似度进行排序,选出最相似候选实体,完成实体链接。本文的主要研究内容包括:

  1. 利用Bi-LSTM CRF模型对医学文本进行命名实体识别,判定是否是实体指称;
  2. 依托MetaMap获得 (实体,UMLS CUI和概念)的对应关系,获得候选集合。利用余弦相似度、闵科夫斯基距离等相似度算法,计算实体向量与候选集向量之间的相似度并排序,完成候选实体生成和实体链接;
  3. 在Pubmed数据集上对本文的方法进行了实验验证和评估,并进行了错误分析。

关键词:实体识别,实体链接,UMLS

Abstract

Entity linking is a basic work in natural language processing. It links an mention appearing in the text to the entity in the knowledge base, converts the text into the text with the annotation of the entity in the knowledge base, so as to realize the transformation from text level to semantic level, which is convenient for subsequent research. In the biomedical field, the biomedical knowledge in the form of literature is increasingly rich, and an effective medical text entity link tool will provide semantic help for researchers and medical workers to understand and mine medical information.

In this thesis, a named entity recognition and linking method based on Bi-LSTM CRF is proposed and validated. The feature of this method is to mark out the entities in medical text by named entity recognition model, and then sort the entities and candidate entities by vector similarity. The most similar candidate entities will be selected and entity link complete.

The main research contents of this thesis include:

  1. Bi-LSTM CRF model is used to identify named entities of medical texts to determine whether they are mentions;
  2. Use MetaMap to get the corresponding relation of (entities, UMLS CUI and concepts) , and then get the candidate set. Cosine similarity, minkovski distance and other similarity algorithms were used to calculate the similarity between the entity vector and the candidate set vector, and then the candidate entity was generated and linked.
  3. The method in this thesis is verified and evaluated experimentally on the data set from the website Pubmed, and error analysis is carried out.

KEY WORDS: UMLS, Entity Recognition, Entity Link

目 录

摘要 …………………………………………………………………………………Ⅰ

Abstract …………………………………………………………………………… Ⅱ第一章 绪论 1

1.1 研究背景 1

1.2 国内外研究现状 2

1.3 研究目标与内容 4

1.4 论文结构和安排 5

第二章 相关知识介绍 7

2.1 医学知识库UMLS 7

2.1.1 UMLS概述 7

2.1.2 UMLS实体链接系统 9

2.2 实体识别与实体链接 12

2.3 词向量 15

2.3.1 GloVe 15

2.4 Bi-LSTM 16

2.5 CRF 18

2.6 本章小结 19

第三章 基于Bi-LSTM CRF模型的实体识别与链接 20

3.1 基于Bi-LSTM CRF模型的实体识别 21

3.1.1数据预处理 21

3.1.2 模型构建 21

3.2 候选实体生成 24

3.2.1 候选集构建 24

3.2.2 相似度度量 25

3.4 实体消岐 26

3.5 本章小结 26

第四章 实验评估 27

4.1 实验环境 27

4.2 实验结果及分析 28

4.2.1 实体识别结果 28

4.2.3 实体链接结果 28

4.2.4 实验错误分析 29

4.3 本章小结 30

第五章 工作与展望 31

5.1 工作总结 31

5.2 未来工作展望 31

参考文献 32

致 谢 34

绪论

研究背景

人工智能 (Artificial Intelligence,AI) 在这数十年内成为热点话题,迅速发展的态势也在激励着更多产业的进步,在语言处理方面,人机对话、专家系统、智能信息检索均有了极大的成果,给人类生活带来了便利。这些技术的发展都离不开自然语言处理 (Natural Language Processing,NLP) 技术的支持。但是从目前发展现状来看,机器无法直接理解复杂的自然语言,在面对一词多义、多词一意的时候,机器无法完全做出正确抉择,因此会影响处理性能。实体链接 (Entity Linking) 就是为了解决这一问题,它能够更准确的将自然文本中出现的一个实体指称映射到知识库 (Knowledge Base) 中相应的实体上,从而为正确理解自然语言奠定了基础。

实体链接关注自然文本中实体的含义,根据语义将选定文本中的实体指称正确链接到知识库中的实体上去。但是自然语言通常存在歧义性和多样性,找到正确的实体指称并不容易。简单来说,“cold”可能指的是寒冷,也可能指的是感冒这一症状,含义完全依据文本情境而定。而且,许多药物呈现的形式可能是其缩写模式,这在很大概率上会有重复,这些给正确理解自然文本增加了困难。

剩余内容已隐藏,请支付后下载全文,论文总字数:33764字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;