论文总字数:28322字
摘 要
学号:71115232 姓名:周之恺 院内导师: 张柏礼 企业导师:雷天洋
针对当前司法领域海量自然语言数据的处理需求,以神经网络为代表的监督式学习是对这类数据结构化的主流方式。然而,监督学习依赖大量的人工标注,而司法文书的标注对专业性要求较高,这方面的人工标注往往是高成本的。另外,现存的各种标注工具对司法文书中特有的法言法语以及大量的信息冗余都没有针对性的优化,导致标注效果不佳。
为此,本文提出一种面向司法领域充分优化的标注工具,具有很强的专业性和易用性的WEBUI界面;且基于司法文书特点进行优化,降低语料中的冗余信息,提高了针对司法判例文书标注的适用性; 还基于Lattice-LSTMCRF结合实际应用案例,开发了能够有效帮助标注人员的自动化标注算法以及词汇高亮,显著减少标注人员的工作量,具体在很多功能上优于brat, YEDDA, wordFreak等语料标注工具。此外,结合标注算法,提出一种具有参考价值的标注质量评估方式,能够在一定程度上客观评估标注人员的标注质量,降低审核人员的工作强度。从工程设计方面,使用前后端分离,后端算法分离的模块化设计,可以有效地降低开发成本和维护成本,提高代码的可维护性。
关键词:自然语言处理,法律文书处理,标注工具,Lattice-LSTM.
ABSTRACT
Aiming at processing the massive natural language data in the current judicial field, supervised learning methods represented by neural networks is the mainstream way to make data be structured. However, supervised learning relies on a number of manual annotations. But the law instrument’s annotation requires high professionalism. Manual annotating in this aspect might often be costly. Furthermore, current annotation tools don’t have targeted optimization on law expressions and information abundance in law instruments, which lead to a negative performance.
This paper proposes an annotation tool that is fully optimized for the judicial field. It has highly been specialization in judicial field and has a friendly and easy-to-use web user interface. We deeply analyzed the law instruments and refined the tool in judicial field based on features of the corpus by dropping the abundant information, which made it highly adapted to law instruments. Based on Lattice-LSTMCRF, combined with practical application cases, it can automatically label the text to help the labeling personnel working with vocabulary highlighting. It significantly reduced the cost of manual labeling and also reduced the workload of labeling staff. Generally speaking, its function is better than a series of well-known corpus annotation tool such as brat, YEDDA and wordFreak. In addition, with the annotation algorithm, a method of annotation quality evaluation with reference value is proposed. Based on the algorithm ability evaluation and algorithm-manual annotation similarity, the quality of label results can be grasped to a certain extent and the work intensity of auditors can be reduced. From the aspect of engineering design, the modular design with separation of front and back end and separation of back end and algorithm can effectively reduce the cost of development and improve the code maintainability.
KEY WORDS: Nature language processing, Legal instruments processing, Annotation tool, Lattice-LSTM.
目 录
1
第一章 绪论 1
1.1引言 1
1.2文本标注工具现状 1
1.3裁判文书特征分析 2
1.4本文研究目的和主要内容 3
第二章 设计方案 4
2.1需求分析 4
2.2标注工具系统设计 5
2.2.1系统架构设计 5
2.2.2功能设计 6
2.2.3数据实体设计 7
2.2.4接口设计 9
2.2.5流程设计 12
2.3算法设计 13
第三章 标注工具的实现 15
3.1相关算法介绍 15
3.1.1 Word2Vec 15
3.1.2条件随机场 15
3.1.3以神经网络为基石的一系列监督学习算法 15
3.2 JavaWeb相关技术介绍 16
3.2.1 SpringMVC 16
3.2.2 MyBatis 16
3.2.3 MySQL 16
3.2.4 Node.JS 16
3.2.5 VUE.JS 17
3.3持久层实现 17
3.4服务层实现 18
3.4.1任务表服务 18
3.4.2语料表服务 19
3.4.3用户表服务 20
3.4.4结果表服务 21
3.5 Controller层实现(表示层下层) 22
3.5.1 Download 22
3.5.2 SendMailController 22
3.5.3 SetTaskController 23
3.5.4 Uploadtexts 23
3.6前端实现 23
3.7算法实现 25
3.7.1标注算法评估函数 25
3.7.2标注相似度评价函数 26
3.7.3标注质量评估函数 27
3.7.4法律词汇数据集 28
3.7.5 实际案例数据集简介 29
3.7.6 语料预处理 29
3.7.7基于条件随机场的基线模型实现 30
3.7.8基于Lattice-LSTM的模型实现 30
第四章 测试与实验 32
4.1标注工具黑盒测试 32
4.1.1空值处理 32
4.1.2特殊输入测试 32
4.1.3正常流程测试 33
4.2算法实验 34
4.2.1 CRF基线实验及结果 34
4.2.2Lattice-LSTM算法实验及结果 35
第五章 总结与展望 37
参考文献 38
致 谢 39
绪论
1.1引言
目前司法领域中信息,不论是法条还是已有判例、法律文书,大多以自然语言文本这种非结构形式存在。 为了更方便地进行信息处理、信息检索乃至更深入的分析研判, 实际应用中需要对这些信息进行结构化处理。 以神经网络为代表的各类监督学习是目前的主流方法, 但它们往往非常依赖人工标注训练集的质量和数量。 俗语称,“有多少人工,就有多少智能”,传统人工标注数据的过程含有大量的重复劳动, 往往是繁琐、低效且高成本的, 对于司法这一特定领域, 由于专业知识的需要, 对标注人员的要求更高, 导致其成本问题更为突出; 另外, 目前缺乏一个专门面向司法领域易上手的标注工具, 这种专业性的缺乏带来了标注不便捷、工作强度大、错误率高以及标注内容审核困难等问题。 为此,本课题设计与实现一个专门面向司法领域进行充分优化的标注工具, 具有很强的专业性和友好的标注界面, 可以降低标注成本, 提高标注效率与质量, 因而具有很高的应用价值。
1.2文本标注工具现状
近年来,存在一系列文本标注以及注释开源工具,它们关注标注过程中的不同方面。 Brat是一个基于Web的文本注释工具,它提供了强大的注释功能和丰富的可视化能力。可用于向现有文本文档添加注释,特别适用于结构化注释。但是,它没有整合自动标注以及结果分析功能。
Knowtator是一个通用的文本注释工具,与Protégé知识表示系统集成在一起。Knowtator有助于手动创建各种生物医学语言处理任务的语料库。Knowtator相对于其他注释工具的独特优势在于可以轻松地定义复杂的注释模式并将其合并到使用中。它通过集成简单的注释器评估来支持注释过程中的质量控制,但无法找出详细的不同标签。
剩余内容已隐藏,请支付后下载全文,论文总字数:28322字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;