论文总字数:23866字
摘 要
随着互联网的不断发展,像Twitter这样的社交平台越来越流行了起来。然而,要想从这些平台的使用痕迹中识别出用户的情感倾向则是比较困难的。在本文中,我们提出了一种利用潜在特征来识别用户情感倾向的方法,该种方法能够挖掘出原始数据中的 潜在特征,利用这些潜在的特征,我们就可以更好的分析用户的情感倾向。在本文中,我们分别使用了中文维基百科的文章数据以及搜狗新闻文本数据作为我们的语料,使用了word2vec来训练我们的语料进而生成相应的潜在特征,使用SVM分类器来训练HowNet情感词典(包含积极与消极词汇)中的词,使用训练好的SVM分类器模型来对语料中的词进行分类。句子的最终情感倾向由其包含的词的词性来决定(投票方式)。本方法在NLPCC 2016提供的情感倾向数据集中进行了对比实验,对比方法包括BP、朴素贝叶斯、贝叶斯网络和C4.5决策树算法。我们的方法可应用于如图像识别和理解、自然语言理解等领域。
关键词:SVM;Word2vec;Stance Detection;HowNet
Abstract
Social platforms, such as Twitter and microblogging, are becoming more and more popular. It is not easy to identify the sentimental stance from those social media due to very limited information in the short texts. In this thesis, a new approach is proposed to identify the stance of opinions. Digging out the latent factors of the already known short texts is essential because it has the potential to reveal different aspects and implications of a specific sentence (usually a very short sentence without full information), which may contribute to the advancement of stance analysis. More specifically, we take a very large number of articles from Chinese Wikipedia and Sogou news to generate the corpus. Based on the created corpus, the latent feature vectors are generated by word2vec (Word2vec is a group of related models that are used to produce word embeddings. Embedding vectors created using the word2vec algorithm have many advantages compared to earlier algorithms like Latent Semantic Analysis.), then the HowNet sentiment dictionary (with positive and negative words) is applied to provide the labels (sentiment polarity) for the items in the corpus. The corpus with word vectors and their corresponding polarities are fed into the SVM model for training purpose. The trained model is then evaluated on NLPCC 2016 Stance Detection dataset. Baseline classification method include BP, Naive Bayesian, Bayesian network and C4.5 decision tree algorithm.
Key words: SVM; Word2vec; Stance Detection; Hornet
目 录
摘要 I
Abstract II
第一章 绪论 1
第二章 相关工作 2
2.1 Word Embedding 2
2.2 支持向量机 3
第三章 基于词嵌入情感词典的中文情感分类研究 5
3.1 Word Embedding Classifier 5
第四章 数据及实验 31
4.1 实验数据及其预处理 31
4.2 实验及对比方法 32
4.3 实验结果 32
4.4 讨论 37
第五章 系统实现 39
5.1 概述 39
5.2 所用技术 39
5.3 系统架构 40
5.4 系统演示 41
第六章 结论 44
致谢 45
参考文献 46
第一章 绪论
随着社交平台和移动设备的快速发展与增长,越来越多的人们不仅在网上发表自己的态度和意见,而且还会针对某个时间段的一些热点事件来发表自己的看法。发现并识别他们所提出观点的情感倾向能够有很多的应用方向[1]。例如,在线评论的分析相较于传统的媒体而言对消费者和公司而言具有更大的经济上的影响。对新闻评论的情感倾向检测能够更好的帮助政府提高他们服务的质量,了解政策的反响,同时还能更好的监控舆情的发展。对产品评论的情感倾向分析利于相关人员进行商品推荐、调查以及危机管理[2,3]。通过以上几个例子可以发现情感倾向的分析已经成为了一个热门的研究课题。
针对这一研究课题,众多研究者一直致力于探索情感分类的问题,通过对线上文本进行分析处理,然后使用不同的分类器进行训练,预测未标记的数据,进而实现对情感的分类[4,5]。
虽然前人已经做了大量的工作,但是大量前人的工作都是将单个词语作为一个相对独立的实体进行处理的,很多的方法都是基于简单的统计工作完成的,部分研究工作是考虑了词语间的相似度和关系来进行学习的[6,7]。这些方法由于既没有考虑词语组合间的问题,也没有考虑内容的潜在特征,因此具有比较大的局限性。
由于情感倾向分析相对于情感分类存在较大的差别,情感倾向分析需要结合评论的具体事件来最终判断评论的倾向,因此以上提到的这些方法可能会导致在情感倾向分析的任务中获取到错误的特征,并最终导致比较差的识别效果。在本文中,受到传统情感分类方法的启发,我们将传统的SVM分类器与Word Embedding[8]方法相结合,用来从词语一级处理其情感倾向。HowNet情感词典作为其主要的训练集。中文维基文本数据作为其基础语料。最终我们通过SVM生成的情感倾向词语来对文档级别的情感倾向进行判断。
本论文的安排如下:
剩余内容已隐藏,请支付后下载全文,论文总字数:23866字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;