论文总字数:30590字
目 录
1绪论1
1.1研究背景1
1.2研究目的与意义1
1.3文本情感分析研究概述1
1.3.1词语级的文本情感分析2
1.3.2语句级的文本情感分析2
1.3.3篇章级的文本情感分析3
1.4本文研究内容3
2文本情感分析相关技术与方法3
2.1文本预处理3
2.1.1获取数据3
2.1.2文本分词3
2.1.3去除停用词4
2.1.4特征选择4
2.2情感分析方法4
2.2.1基于情感词典4
2.2.2基于语料库4
2.2.3机器学习5
3构建情感词典5
3.1情感词典相关介绍5
3.1.1情感词典构建5
3.2辅助词典构建7
3.2.1停用词词典7
3.2.2否定词词典7
3.2.3程度副词词典7
4音乐评论情感分析8
4.1实验数据介绍8
4.2算法设计和情感倾向值计算8
4.3情感倾向结果分析10
4.3.1结果分析标准10
4.3.2结果分析10
5结果讨论与分析11
6全文小结12
6.1全文小结12
6.2研究不足与展望13
参考文献14
致谢16
附录17
在线音乐热门评论的情感分析-以网易云音乐为例
叶赣慧
,China
Abstract:In the context of the socialization of the network music platform, users can express their feelings at any time on the music platform while they listening to songs. In order to improve the quality of products and get more users, we can analyze the users’ comments text emotional issues. This paper chooses the method based on sentiment dictionary to analyze the sentiment tendency of Netease cloud music’s popular comments, first of all, classify artificial the sentiment tendencies of selected comments, and then in the basic sentiment dictionary and auxiliary dictionary for music comments to extract the new emotional words to construct a new sentiment dictionary, at the same time give the corresponding weight to the emotional dictionary and related dictionary, after the text preprocessing of the comment text, the weighted average of each of the selected comments is calculated to obtain the total sentiment inclination value, which was evaluated by the sentiment tendency analysis and tested the comprehensive recall rate of the method was 0.68. On the basis of that, we analyze the results of two different types of sentiment tendencies, and conclude that the corresponding dictionary should be improved for different analytic objects to improve the accuracy.
Keywords: semantic orientation analysis; sentiment dictionary; text preprocessing
1绪论
1.1研究背景
互联网的出现无疑为人们的生活带来了极大的影响,它发展到今天已经历了好几个阶段,但总的来说可大致分为三个阶段:第一阶段是传统网络,各网站主要是提供信息块,有少部分信息流,通过静态网站来实现内容的展示,该阶段信息的提供是单一的;第二阶段为web2.0时代,各网站与内容流型社交网站如微博等并存,提供多种信息块与信息流和部分动态内容,该阶段用户也成为信息内容的提供者;如今所处的第三阶段是移动APP与动态消息流型社交网络并存,该阶段内容与服务并重,借助各种APP用户通过信息流直面服务。在web2.0时代用户就已经能在互联网发表自己的意见看法等,而通过移动APP用户提供的信息则能为用户提供更方便快捷的个性化服务。人们的吃喝住行、消遣娱乐都可以依赖各种APP完成。
同时随着信息技术的发展人们已经可以通过网络进行各种娱乐活动了,网络视频、网络游戏、网络音乐、网络直播和网络文学等各类应用都已经成为人们生活中常见的娱乐“设施”。相比较于传统的生活,人们在网络上的能享受的服务更具有个性化,找到所需的内容已经变得容易,越来越多的网络应用都配备了个性化推荐功能;此外各类网络APP应用与社交相结合,使寻找志趣相投的朋友不再是难事。随着互联网技术的不断发展人们的生活已经发生了根本的变化,生活习惯与状态甚至是某些情感都深受网络的影响。
1.2研究目的与意义
众所周知,人们与互联网的关系正变得越来越紧密。每个网民不仅从互联网上获得资源,而且自身也向互联网提供信息——从各种开源社区(如百度百科)用户主动上传信息资源,到各类网站的用户的评论。这些用户提供的信息几乎无时无刻不在更新和增加,用户也凭借这些信息进行社交,在社交过程中又产生信息,即如今互联网上的信息流已经越来越多。与此同时,面对庞大冗杂的信息资源用户的需求变得更具体化、精准化与个性化。在可供选择的服务越来越多的时候,产品如何获取更多的用户数量早已成为一个重要的问题。而解决这一问题因互联网相关技术越来越成熟的状况下不再毫无头绪。现在的网络用户能随时随地在网上发布信息:发表自己对某事某人件的看法、对网上购买的产品或服务进行评价,还有直接通过网络抒发个人经历、情感等。
网民提供的信息虽然数量多与内容繁杂,但是其包含的价值是不容小觑的。与实际生活中人与人之间的交往一样,网络社交里每个用户都必定带着个人的立场、偏好等发表信息,用户自身的性格与所处环境的心理状态是息息相关的,由此可以对用户留下的信息进行情感分析。根据情感分析得出的结果,企业可以维持老客户的支持同时以此获得口碑吸引获得更多的新客户群;产品开发者可以根据用户的意见对产品进行升级、改造、创新做出更高品质的产品;政府可以根据重大新闻事件里群众的反映来实现网络舆情进行控制与管理。
可见,将网络用户提供的信息做情感分析处理不是一件毫无意义的工作,而是顺应互联网发展应运而生的一项工作。企业如何处理庞杂的用户消息得到有利用价值的内容关系到企业自身能否持续良好的发展下去。本文选取在线音乐软件网易云音乐,对其中热门歌曲的热门评论进行情感倾向分析,通过对其热评构建情感词典来解释中文文本情感分析的思路,并以此为例表明企业对网络上用户提供的信息做情感分析处理的必要性与重要性。
1.3文本情感分析研究概述
早在1992年就有人提出了文本挖掘中除了文本的主题,文本表现的“倾向性”也是不能忽视的[1]。直到今天文本情感分析技术不断发展已经取得了很多成果,在网络上文本情感分析相关研究文献从20世纪初十几篇到如今已经有大量的文献,其中我国近几年的情感分析相关研究文献在全球已名列前茅[2],可见情感分析在我国自然语言处理中是热点内容。文本情感分析是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程[3],在情感分析中要对文本中用户表达的喜欢、厌恶或中立进行分析,而在此之前还需判别出文本的主观性与客观性。判断文本的主客观方面叶强等[4] 提出了一种根据连续双词词类组合模式自动判断句子主观性程度的方法[5]。当前文本情感分析主要的内容可分为情感倾向性分析,比如用户评论中的“好评”、“差评”、“一般”等带有某一情感的文本。在网络信息资源大爆炸的时代,如今国际上有越来越多的组织与机构在文本情感分析上给予更多的关注,在 SIGIR、ACL、WWW、CIKM、WSDM 等著名国际会议上,相关的研究成果也越来越多[6]。从国外具有代表性的康奈尔影评数据集[7]到国内2-POS模型方法[4] ,文本情感分析的技术正在蓬勃发展。目前,在文本情感分析中已经有专门针对电子商务的产品评论的研究,分析出用户对产品的喜好厌恶和满意程度;还有针对新闻事件的评论进行情感分析从而控制网络舆情;此外还有针对电影评论的情感分析等等。
文本情感分析技术发展到今天,根据细粒度不同,可分为三个方面分别为词语级、语句级和篇章级的分析研究,在这些分类在国内外已有很多研究文章和成果。
1.3.1词语级的文本情感分析
无论是语句级还是篇章级的情感分析,都离不开词语级的情感分析。早期的研究有计算主观词的情感极性的,也有通过经典的方法点互信息算法 PMI-IR ( Pointwise mutual information and information retrieval) ,计算词语本身以及词语间关系从而来预测情感极性的[8]。有些词语所表达的情感色彩很容易就能获取例如“讨厌”、“垃圾”等,而有一些词并不能直接得到其感情倾向。为判断词语所表达的情感倾向和情感强度,通常用[-1,1]区间的形式区分[9],其中负数为消极情感,正数为积极情感,且越靠近1其情感强度就越强。但是词语在不同的语境中其表达的情感可能并不相同,需要联系上下文才能获取准确的情感倾向,这也是词语情感分析面临的一个问题。目前针对词语情感分析的方法的评价指标一般采用整个词表对主观句的识别正确率和召回率[10,11,12],而针对主观词语本身的情感判定还没有公认的检验标准。
1.3.2语句级的文本情感分析
剩余内容已隐藏,请支付后下载全文,论文总字数:30590字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;