基于半监督学习的词性标注

 2022-01-23 21:28:47

论文总字数:20619字

摘 要

词性标注是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程。词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。

使用有监督的学习算法对句子进行词性标注已经接近人类的水平,在著名的英语标记集Penn Treebank上最高可达到97%的准确度。而基于半监督的学习算法在性能方面还远远未达到有监督学习的水平,但由于监督学习对训练文本有较高要求,而许多语言并没有丰富的已标记的语料库,这使得半监督学习应用的范围更加广泛。

本次实验采用基于字典和偏标记学习的半监督方法对单词进行训练,所采用的标注数据集是Penn Treebank数据集。所做步骤大致分为以下三步:构造带有歧义单词的词典,使每个单词对应了所有可能的词性标注。运用深度学习算法,构建语言模型,并根据语言模型构造每个单词的特征。利用偏标记算法进行半监督学习,进而获得句子中每个单词的词性标注。

关键词:词性标注, 半监督学习, 偏标记学习, 深度学习

Semi-supervised Part of speech tagging

Abstract

POS tagging refers to each word in the sentence is assigned a suitable speech. It means the process of determining whether the word is a noun, verb, adjective or other parts of speech. Part of speech tagging is a basic task in natural language processing.

Supervised learning algorithm for POS tagging of sentences has been close to the human level. Accuracy on the famous English Penn Treebank tag set can reach 97%. The semi-supervised learning algorithm in terms of performance but also much less than the level of supervised learning. However, due to supervised learning text with higher requirements for training, many languages don’t have rich labeled corpus, which makes semi-supervised POS have a broader range of applications.

This experiment based on dictionary and semi-supervised learning method trains the words. the labeled text data. The labeled data set is Penn Treebank data set. Steps are divided into three parts. First step is constructing a dictionary with ambiguous words. Second step is constructing language model with deep learning algorithm. Then building the feature sets for every word. The last step is to learn with semi-supervised learning algorithm. After this, we can get POS of every word.

KEY WORDS: POS, Semi-supervised learning, Partial label learning, Deep learning

目录

摘要 I

Abstract II

第一章 绪论 1

1.1 引言 1

1.2 实验概述 1

第二章 相关工作介绍 2

2.1 词性标注研究现状 2

2.2 词性标注相关工作 2

2.3 偏标记学习算法 3

2.4 本章小结 4

第三章 实验设计 5

3.1 数据集的准备 5

3.2 单词特征构造 6

3.3 偏标记学习算法 7

3.4 本章小结 10

第四章 实验测试与结果分析 11

4.1 训练集的构造 11

4.2 测试集的构造 11

4.3 训练程序 12

4.4 实验结果分析 12

4.5 本章小结 13

第五章 总结与展望 14

5.1 论文总结 14

5.2 工作展望 14

致谢 15

参考文献 16

附录 17

第一章 绪论

1.1 引言

词性标注是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程。词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都有其重要的意义。

对单词进行词性标注最主要的工作是对句子中有歧义的单词进行词性标注,由于英语中的常见单词大都是有歧义的,因此,任何一个词性标注算法归根到底就是如何解决词性标注中的歧义消解问题。

大多数的词性标注算法可以归纳为以下三类。一类是基于规则的标注算法,一类是随机标注算法,最后一类是混合型的标注算法。基于规则的标注算法一般都包括一个手工制作的歧义消解规则库。随机标注算法一般会使用一个训练语料库来计算在给定的上下文中某一给定单词具有某一给定标记的概率,如基于HMM的标注算法;而混合型标注算法具有上述两种算法的特点,如TBL标注算法。

如今使用监督学习完成词性标注任务的性能已经接近于人类辨识水平,在著名的英文标记文本Penn Treebank上的准确度已达到97%。而利用半监督学习算法进行词性标注仍是一个挑战,准确度远不如监督学习。但由于监督学习的代价较大,需要规模较大的标记文本,因此,本文采用半监督学习算法的相关技术对文本进行词性标注,并对实验结果进行分析对比。

1.2 实验概述

本次实验采用基于字典和词向量的半监督方法进行词性标注。所用字典来源于维基百科的新闻文本,是一个存在歧义单词的英文字典。利用深度学习算法,构建语言模型,训练得到本实验的词向量。然后利用以上得到的词向量构造特征集,采用偏标记学习算法,对机器进行训练。尝试不同的训练方法和分类参数,观察学习效果的变化,来达到最好的性能。最后总结实验过程中的问题,以期能够进一步提高词性标注准确度,接近期望的水平。

第二章 相关工作介绍

剩余内容已隐藏,请支付后下载全文,论文总字数:20619字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;