论文总字数:30710字
摘 要
当新概念新产品出现的时候,伴随而来的是领域相关的新的术语。企业的本地化部门为了适应不断变化的术语需要投入大量的人力和时间去完成分析和统计。术语自动抽取技术作为自然语言处理的重要研究课题之一,已经有了一定的研究成果和理论依据。在这里的应用价值是可以一方面减轻领域专家的人工审查负担,另一方面尽可能地保证机器翻译的一致性。
针对上述目标,本文为企业本地化产品设计并实现一套术语抽取模块。
首先,根据企业原始文档的特点制定数据清洗策略,并且完成对初始部分真实术语表的预处理;然后基于NLTK完成词性标注模型的训练,和对文本的分句分词,标注,分块等的操作;取得候选术语列表后,使用基于现有统计指标设计好的算法完成候选术语的打分和真实术语的提取。最后对模块性能进行评估以及调优,形成企业的完整、可靠的术语抽取系统原型。
关键词:术语抽取,NLTK,模型训练,语义分析,统计指标,停用词表
Implements of Term Extraction Module based on
Statistical and Linguistic Analysis
71114317 Ling Liyang
Advisor Yang Wang
ABSTRACT
When new concepts and products come into being, there are new terms coming with. In order to adapt to changing terms, enterprises localization departments need to invest a lot of manpower and time to complete terminology analysis and statistics. As terminology automatic extraction is one of the important research topics of Natural Language Processing, the significance of this technology is to reduce the burden of artificial censorship of experts in the field, on the other hand, to ensure the consistency of Machine Translation as much as possible.
Aiming at the above goal, this paper designs a set of term extraction module for enterprise product project.
First, according to the characteristics of the original document of the enterprise, the data cleaning strategy is formulated and the initial part of the real term table is pre-processed; then the training of the part of speech tagging model is completed based on NLTK, and the operation of the word tokenization, tagging and chunking of the text, and the use of the existing statistical measures after obtaining the list of candidates. The designed algorithm completes the scoring of candidate terms and the extraction of real terms. Finally, the performance of the module is evaluated and optimized to form a complete and reliable prototype of the term extraction system for the enterprise.
KEY WORDS: term extraction, NLTK, model training, linguistic analysis, statistical measures, stop-words
目 录
摘 要 I
Abstract ............................................................................... II
第一章 绪论 1
1.1选题背景及意义 1
1.2应用领域及实现目标 1
1.3论文组织结构 1
第二章 术语抽取理论基础 3
2.1语义分析方法 3
2.2统计学方法 4
2.2.1统计学指标 5
2.3混合方法 8
2.4评估方法 9
2.4.1术语评估现状 9
2.4.2术语抽取评估常用方法 9
第三章 术语抽取方案设计 11
3.1术语抽取总体框架 11
3.2原始数据分析 11
3.3预处理设计方案 12
3.4语义处理方案 13
3.4.1分句分词及词性标注 13
3.4.2序列标注及术语提取 14
3.4.3后处理 14
3.5统计处理方案 15
3.5.1候选术语统计 15
3.5.2后处理 16
3.6系统评估方案 16
3.6.1抽取结果评价 16
3.6.2系统评价 17
3.7本章小结 18
第四章 术语抽取模块实现 19
4.1预处理方案实现 19
4.1.1原始语料文档预处理 19
4.1.2人工抽取术语集预处理 20
4.2语义处理方案实现 21
4.2.1词性标注模型训练 21
4.2.2词性标注实现 22
4.2.3序列标注实现 22
4.2.4停用词表生成 23
4.3统计处理方案实现 23
4.3.1数据统计算法 23
4.3.2真实术语抽取 24
4.3.2后处理 24
4.4本章小结 24
第五章 数据分析及方案评估 25
5.1预处理清洗数据分析 25
5.2词性标注模型评估 26
5.3统计指标评估 27
第六章 总结与展望 32
6.1论文总结 32
6.2未来工作展望 32
致 谢 33
参考文献 34
第一章 绪论
1.1选题背景及意义
当经济、文化、科技的飞速发展,新技术、新产品、新概念不断涌现,各行业以及学科领域中的术语也发生着巨大的变化。作为行业及领域知识的集中体现,术语往往成为人们对学科领域的认识入手点[17]。然而,在术语收集中使用人工术语收集方式效率较低,同时会带来较高的人力物力开销,所以需要术语自动抽取技术来解决这一问题。
术语抽取是自然语言处理领域一个很重要的研究课题,在机器翻译,文本摘要,信息检索,构建词汇库等领域都有较为广泛的应用。而术语这个概念本身,不论从单纯的语言学角度还是在计算统计学角度上都还没有严格的定义。因此只能给出一个有效的一般定义,“特定领域概念的表面表现形式”[1]。找寻术语在更深层次的定义,定义用于明确表示术语意义的属性,以及在运行的系统里有效使用这些属性分析术语等问题仍然是计算语言学研究中的核心任务。
剩余内容已隐藏,请支付后下载全文,论文总字数:30710字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;