论文总字数:26065字
摘 要
随着互联网规模的不断扩大,很多消费者会选择在网上的评论和论坛发表对某些品牌、服务和产品等商业实体的意见,这些意见对其他消费者以及商家都有比较重要的意义。为了能自动的从网络文本中抽取包含建议的句子,建议挖掘由此而出现。建议挖掘一般被定义为语句的二分类任务:文本被划分为句子,其中包含明确表达的建议的句子被归类为建议类。
目前主流的文本分类算法包括支持向量机、多层感知机、长短时记忆神经网络和卷积神经网络等,其中基于神经网络的算法取得了优秀的结果。
本文使用上述的机器学习算法,构建建议挖掘系统。在文本的表示方法上,除了常用的单词独热表示、词嵌入表示,语句词袋表示、语句n-gram表示,本文还探讨了以下几个方面:利用潜在语义分析对高维稀疏的词向量以及句向量表示进行降维、利用依存关系当做虚拟词成为句子的特征向量,在依存树上进行结构上的卷积神经网络处理。在分类算法的对比中,本文选择双向LSTM、CNN LSTM等作为补充。
使用SemEval 2019 Task9-SubTaskA的训练和测试数据集,取得的最好F1得分为0.7447,采用的是CNN模型。
关键字:建议挖掘,文本分类,卷积神经网络,长短时记忆神经网络,词嵌入,依存分析
Abstract
As the scale of the Internet continues to expand, many consumers will choose to comment on the Internet and BBS to express their opinions on some brands, services, products and other commercial entities, which are of great significance to other consumers and businesses. In order to automatically extract the proposed sentences from the online text, the suggestion mining system appears. Suggestion mining is generally defined as a binary classification task of sentences: text is divided into sentences, and sentences that contain explicitly expressed suggestions are classified as suggestion classes.
At present, the mainstream text classification algorithms include support vector machine, multi layer perceptron, long short-term memory neural network and convolutional neural network, etc. Among which the neural network-based algorithms have achieved state of the art results.
In this paper,we use the machine learning algorithm mentioned above to build a suggestion mining system. In terms of text representation, in addition to the commonly used methods such as "one-hot" and "word embedding" for word representations, "bag of words" and "n-gram" for sentence representations, this paper also discusses the following aspects: dimensionality reduction of high-dimensional sparse word/sentence vectors representations by means of latent semantic analysis; Use the dependency pair relations as the feature vector of the sentence; Process convolutional neural network on the dependency parsing tree. As for the comparison of classification algorithms, bidirectional LSTM and CNN LSTM are selected as supplements models in this paper.
Using the training and test datasets from SemEval 2019 task9-subtaskA, the best F1 score is 0.7447, using a CNN model.
KEY WORDS: Suggestion Mining, Text Classification, Convolutional Neural Network, Long Short-Term Memory, Word Embedding, Dependency Parsing
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 引言 1
1.2 研究现状 2
1.3 本文主要研究内容 3
第二章 文本分类相关技术 4
2.1 文本表示方法 4
2.1.1 词袋表示法 4
2.1.2 文本分布式表示 5
2.2 传统分类算法 7
2.2.1 Logistic Regression 7
2.2.2 Support Vector Machine 7
2.3 神经网络分类算法 8
2.3.1 CNN 8
2.3.2 LSTM 9
第三章 建议挖掘系统介绍 10
3.1 文本预处理模块 10
3.2 分类器模块 11
3.2.1 CNN分类器 11
3.2.2 Bi-LSTM分类器 12
3.2.3 CNN LSTM分类器 14
3.3 评估模块 15
第四章 实验 17
4.1 基于词袋模型的实验 17
4.2 基于词嵌入和深度神经网络的实验 19
第五章 结论 24
参考文献 25
致 谢 27
第一章 绪论
引言
“建议”是指提示、劝告、推荐等表达。消费者通常通过在线评论、博客、论坛或社交媒体等平台表达对某些品牌、服务和产品等商业实体的意见。图1.1是面向微软开发人员的建议论坛,使用微软开发平台的开发者可以在该论坛发表对平台的建议,比如“增加API函数”等。很多意见不仅清楚表达了对特定实体的积极或者消极情绪,也包含改善实体的建议或对其他消费者的提示。为了能充分地利用这些包含意见的文本,必须的前提就是收集它们,建议挖掘就是为了能从网上的论坛或其他媒介自动的提取包含建议的句子。
图1.1
剩余内容已隐藏,请支付后下载全文,论文总字数:26065字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;