论文总字数:35283字
摘 要
在生物医学领域,以电子文本格式提供的信息量正在迅速增加。因此,自然语言处理(Natural Language Process, NLP)的应用对于促进这些数据的检索和分析变得越来越重要。准确并高效地计算医学文本中的句子相似度是医学文本挖掘中的重要任务,无论在科研还是实践中都具有非常重要的意义。
本文提出并验证、比较了多种医学文本匹配方法。首先使用字符串匹配计算文本上的相似度;其次以PubMed中的海量医学文本作为语料库,通过词向量、句嵌入等深度学习方法计算语义上的相似度;接着针对医学文本的特殊性,提出一种结合句子依存分析与句嵌入的算法计算长难句语义相似度。最后使用UMLS提取句子的概念向量,使相似度计算更接近医学语义。本文以PubMed为数据集,对以上方法进行了定量实验,分析了各种方法的性能差异,并提出了多种相似度计算方法的集成方法。
主要工作如下:
(1) 基于词法的医学文本相似度计算方法:即源文本和目标文本在词级别是否相似。通过语言模型和词向量模型等深度学习的角度计算相似性。
(2) 基于句法的医学文本相似度计算方法:即源文本和目标文本的句子结构是否相似,从句法依存的角度和深度学习的角度计算句子的embedding。
(3) 基于语义的医学文本相似度计算方法:该相似度计算需要结合医学知识,即源文本讨论的概念和目标文本中的概念是否在医学上具有相似性,以UMLS作为医学知识库。
关键词:自然语言处理,医学文本匹配,句嵌入,句子依存
Abstract
In the biomedical field, the amount of information provided in electronic text formats is rapidly increasing. Therefore, the application of Natural Language Process (NLP) is becoming more and more important to facilitate the retrieval and analysis of these data. Accurate and efficient calculation of sentence similarity in medical texts is a crucial task in medical text mining, and it is very significant in both scientific research and practice.
This paper proposes and compares various medical text matching methods. Firstly, the text similarity is calculated by string matching. Secondly, PubMed is used as the corpus, and the semantic similarity is calculated by the deep learning method such as word vector and sentence embedding. Then, for the particularity of medical text, a specialty is proposed. We combine sentence dependence parse with sentence embedding algorithm to calculate the semantic similarity of long sentences. Finally UMLS is used to generate the concept vectors to calculate medical semantic similarity. In this paper, PubMed is used as the dataset, and the above methods are quantitatively tested. The performance differences of various methods are analyzed, and the integration methods of various similarity calculation methods are proposed.
The main research contents of this paper are as follows:
(1) Lexical similarity, text similarity calculation based on the word level. Use language model or deep learning method such as word vectors.
(2) Syntactic similarity, text similarity calculation based on the sentence structure of text and target text, can be used to calculate the sentence's embedding from the perspective of syntactic dependence or from the perspective of deep learning.
(3) Semantic similarity, which needs to be combined with medical knowledge, based on the concept of source text discussion and the concept in the target text are medically similar, using PubMed as a medical knowledge base.
KEY WORDS: Natural language processing, Medical text matching, Sentence Embedding, Dependency parse
目录
摘要 I
Abstract II
第一章 绪论 1
1.1 研究背景 1
1.2 研究现状 2
1.3 研究内容 2
1.4 论文结构 3
第二章 相关概念简介 5
2.1 字符串匹配算法 5
2.1.1 余弦相似度 5
2.1.2 块距离 5
2.1.3 Jaccard 相似度 5
2.1.4 Levenshtein 距离 6
2.2 词嵌入(word embedding) 6
2.2.1 word2vec 6
2.3 句嵌入(sentence embedding) 10
2.3.1 Doc2vec (paragraph2vec) 10
2.3.2 Word Mover's Distance (WMD) 10
2.3.3 连接p-均值嵌入(P-Mean) 11
2.4 医学文本匹配方法 12
2.4.1 医学概念表示学习(Representation Learning) 12
2.5 统一医学语言系统(Unified Medical Language System) 13
2.6 本章小结 14
第三章 医学文本相似度的设计与实现 15
3.1 医学语料库预处理 16
3.2 词法相似度 16
3.2.1 Word2vec 17
3.2.2 平均词向量(Baseline) 17
3.2.3 WMD算法(Word mover's distance) 18
3.2.4 加权词袋(Smooth Inverse Frequency) 18
3.3 句法相似度 19
3.3.1 句法树解析 20
3.3.2 算法详述 21
3.3.3 局限性说明 22
3.4 语义相似度 23
3.5 集成算法 25
3.6 本章小结 26
第四章 实验评估 28
4.1 实验环境 28
4.2 评估指标 28
4.3 实验过程与结果分析 28
4.3.1 词嵌入模型参数选择 28
4.3.2 词法相似度实验结果 29
4.3.3 句法语义相似度实验结果 30
4.3.4 医学语义相似度实验结果 31
4.4 本章小结 32
第五章 总结与展望 33
5.1 工作总结 33
5.2 未来工作展望 33
参考文献 35
致谢 37
绪论
研究背景
近年来,人工智能 (Artificial Intelligence, AI) 的影响力变得越来越大,从各个方面都潜移默化地影响着我们的生活。其中自然语言处理,作为人工智能领域的一个重要又热门的研究方向,是一门结合了数学、语言学、计算机科学的交叉学科,其在生物医学领域中的应用更具有重要的现实意义。更与一般的类型不同,生物医学领域的文本通常是冗长且语法复杂。例如,生物实体往往含糊不清,可能有许多变体名称,句子也可能包含复杂的关系,如蛋白质和蛋白质基因产物的相互作用和表征。而且,核心思想可以用多个句子表达。迄今为止,很少有研究处理过在生物医学领域的句子相似性。
医学文本匹配有着举足轻重的研究价值与实践意义。句子相似性在生物医学领域也很重要。例如, Systematic Review(系统综述)对某个领域(例如冠心病的某种治疗方法)中涉及的每一篇相关医学文献(例如针对该治疗方法的一个临床实验报告)做了一个摘要,表明了该文献中的PICO(P表示临床实验的受试者或相关病症,I表示针对受试者和相关病症采用的治疗方法,C表示用于比较的实验方法,O表示临床实验结果)四个元素各自具有什么特征。如果利用Systematic Review作为远监督的训练集来帮助机器自动识别出每篇文献的PICO元素,则需要将Systematic Review中关于PICO的描述句子在医学文献中寻找到匹配的原文,并将匹配的原文作为真正的训练集;另外,证据句检索是一种基于用户定义的生物表达式在生物医学文献中搜索和排序句子的任务,这在数据库管理中是必不可少的。这里,如何在大量医学文献中寻找匹配的原文,无论在科研还是实际运用中,都相当重要。
剩余内容已隐藏,请支付后下载全文,论文总字数:35283字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;