论文总字数:25422字
摘 要
文本分类指在特定分类体系下,根据文本类别自动对文本进行分类的过程,是文本处理的核心内容之一。文本分类有很多用途,按照主题可以对新闻分类,按照特征术语可以对专利文本分类,在数据信息量爆炸的当今社会,文本分类可以极大程度减轻人工分类的压力,在效率和准确度层面也远远高于人工分类,当对大量文本分类时涉及到含有情感因子的文本时,文本分类就变为基于文本的情感分类。
基于文本的情感分类一直是机器学习领域的热点和有待发掘的领域,随着当今社会信息化的程度逐渐加深,社交平台每日有大量文本产出,对这些文本的情感分类有助于帮助用户准确了解大众对某一对象的情绪,对产品评论层面进行情感文本分类,则可以帮助厂商及时对产品和服务进行改进,因此情感文本分类技术得到了广泛的关注与研究投入。
给定一个含有情感的文本对话,本文要实现对文本对话进行情感检测,并将情感分为开心、悲伤、愤怒、和其他共四类情感。对于这样的情感文本分类问题,方法上常采用机器学习的模型来处理,机器学习中的特征提取和模型选择将成为需要着重处理的两部分。
本文的主要研究内容包括:
(1)对传统模型进行研究,尝试并实现了多种传统机器学习模型。一方面可以用作与深度学习模型对比,另一方面通过对不同传统模型的比较,进行分析和研究,能得到改进方法性能的思路。
(2)通过对RCNN深度学习模型的实现,用数据训练得到实验结果分步骤进行分析与对比,最终得到优化模型的思路以及适配数据的方法。
关键词:深度学习、SemEval-Task、情感文本分类。
ABSTRACT
Text categorization refers to the process of automatically categorizing texts according to their categories under a specific categorization system. It is one of the core contents of text processing. Text categorization has many uses. It can categorize news according to topic and patent text according to feature terms. In today's society with explosive data and information, text categorization can greatly reduce the pressure of manual categorization. It is also much higher in efficiency and accuracy than manual categorization. When a large number of text categorization involves text with emotional factors, text Classification becomes text-based emotional classification.
Text-based emotional classification has always been a hotspot and an area to be explored in the field of machine learning. With the gradual deepening of information technology in today's society, social platforms produce a large number of texts every day. Emotional classification of these texts helps users to accurately understand the emotions of an object, and emotional text classification at the level of product reviews can help manufacturers. Improving products and services in time, so emotional text categorization technology has received extensive attention and research input.
Given an emotional text dialogue, this paper aims to detect the emotions of the text dialogue, and divides the emotions into four categories: happy, sad, angry, and other emotions. For such emotional text categorization problem, machine learning model is often used to deal with the method. Feature extraction and model selection in machine learning will become two parts that need to be dealt with emphatically.
The main contents of this paper include:
(1) A variety of traditional machine learning models are attempted and implemented. On the one hand, it can be used as a comparison with in-depth learning model, on the other hand, through the comparison of different traditional models, analysis and research, we can get ideas to improve the performance of the method.
(2) Through the implementation of RCNN deep learning model, the experimental results obtained by data training are analyzed and compared step by step. Finally, the idea of optimizing the model and the method of adapting data are obtained.
KEY WORDS: in-depth learning, SemEval-Task, emotional text
目 录
摘 要 I
ABSTRACT II
第一章 绪论 1
1.1 课题背景 1
1.2 国内外研究现状 3
1.3 研究内容 4
1.4 论文结构 4
第二章 相关介绍 5
2.1 传统经典模型 5
2.1.1 特征表示:词袋模型 6
2.1.2 共现矩阵模型 6
2.1.3 TF-IDF模型 7
2.2 分类器 7
2.2.1 Support Vector Machine(SVM) 8
2.2.2 Logistic Regression(LR) 8
2.3 深度学习方法 9
2.3.1 Word2vec 9
2.3.2 Glove 9
2.4 分类器 10
2.4.1 Convolutional Neural Networks(CNN) 10
2.4.2 Recurrent Neural Networks (RNN) 11
2.4.3 TextCNN 12
2.4.4 TextRNN 13
2.4.5 Recurrent Convolutional Neural Networks (RCNN) 13
第三章 基于RCNN模型的文本分类 15
3.1 数据处理 15
3.2 特征表示 16
3.2.1 DeepMoji 16
3.2.2 词级别特征 16
3.3 模型构建 16
3.4 本章小结 17
第四章 实验评估 18
4.1 对比方法 18
4.2 参数设置 18
4.3 实验环境 19
4.4 实验结果 19
4.5 结果分析 19
第五章 总结与展望 22
5.1 总结 22
5.2 展望 22
参考文献 24
致 谢 26
- 绪论
- 课题背景
文本分类指在给定文本类别的情况下,对文本的内容进行分析识别后,自动把文本归类的过程。在未使用机器学习的情况下,文本分类使用当时占据主要地位的基于知识工程的分类方法,即由专家学者构建的专业知识系统来进行文本分类,甚至发展出由专家主导的专家系统来进行文本分类,这种方法带来了低效率高耗时的不良后果。随着文本分类技术和机器学习技术的不断成熟,越来越多的研究人员对该领域产生极大的兴趣,并开始在英文的文本分类方面提出多种成熟有效的分类方法。
情感文本分类一般是从社交平台或商品评测得到的带有情感的文本,对特定情感的语句进行分析和分类。目前在各类社交软件或者平台上,越来越多的人在其中表达含有自己的情感的观点,同时互联网购物也逐渐成为当今的主流购物途径,买主们很愿意在购物平台或网站上分享自己的购物体验并对商品和服务进行评价打分。这样网络上就涌现出大量的带有感情色彩的文本,它们内含人们喜、怒、哀、乐等等的情感。对这些情感文本分类,能让用户提前了解到其他用户对某对象的共同主观评价态度,也能帮助网店公司通过对买主的情感分析来及时调整服务或产品质量。面对这些越来越多的含有情感的文本,普通的文本分类方法已经不能满足用户或者网店老板对数据分析的需求,因此,基于情感的文本分类方法在这样的环境下得以产生与发展。
剩余内容已隐藏,请支付后下载全文,论文总字数:25422字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;