网络舆情导向分析

 2021-12-04 21:10:51

论文总字数:27352字

摘 要

Abstract 3

第一章 绪论 4

1.1 研究背景 4

1.2 研究现状 4

1.3 文本情感倾向性分析常用方法 5

1.4 本文的研究目的和主要研究内容 6

1.4.1 研究目的 6

1.4.2 主要研究内容 6

1.5 论文的组织结构 6

第二章 相关技术理论 8

2.1 文本情感倾向性分析 8

2.1.1 词语情感倾向性分析 9

2.1.2 句子的情感倾向性分析 9

2.1.3 篇章情感倾向性分析 9

2.1.4 海量信息的整体倾向性预测 9

2.2 文本预处理 10

2.2.1 中文分词 10

2.3 中文文本表示方法 10

2.3.1 向量空间模型 11

2.3.2 特征项的权重 11

2.3.3 特征项的选择 11

2.4 SVM分类方法 12

2.5 本章小结 13

第三章 文本情感倾向性分析 14

3.1 情感关键词 14

3.1.1 实验步骤 14

3.1.2 实验结果及分析 14

3.2 特征项 15

3.2.1 实验步骤 16

3.2.2 实验结果及分析 16

3.3 文本分类器 17

3.3.1 实验步骤 17

3.3.2 实验结果及分析 18

3.4 实验小结 18

第四章 结论与展望 19

4.1 本文工作总结 19

4.2 展望 19

致谢 20

参考文献 21

网络舆情导向分析

摘要

随着因特网的飞速发展,互联网越来越普及。网络舆情是以网络为载体,以事件为核心,广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。网络舆情影响力越来越大,对于网络舆情导向分析也刻不容缓,而这其中文本感情倾向性分析是重点研究内容。文本感情倾向性分析即是分析对网民对于某事件或事物的看法,观点、立场等主观信息的倾向性,是正面还是反面信息。

针对网络舆情导向分析的实际应用,本文在综合考虑网络舆情的特征和人们认知规律的基础上,进行文本感情倾向性分析主要技术的研究,利用文本感情倾向性分析能够分析简单情感语句的倾向性。

文本感情倾向性分析主要研究方法,基于机器的自动学习方法,使用大量的语料对机器自动学习采用的方法进行训练,使程序在不断的学习中提高SVM的分类效果。该研究方法的基础是准备大量而标准语料作为训练集,然后对于训练集进行文本预处理,利用ANSJ分词器进行关键词分词。根据中文情感词汇本体库进行选择文本分类的特征向量维度,并利用TF-IDF度量对训练集中文档进行量化处理,输出LIBSVM支持的训练样本集文件。同样对测试数据集进行同训练集相同预处理。最后利用LIBSVM训练文本分类器,形成分类模型文件,并利用LIBSVM验证分类模型的精度,参数寻优,达到较好分类效果。

关键词:网络舆情,文本感情倾向性分析,LIBSVM,TF-IDF

A STUDY ON ORIENTED ANALYSIS OF

NET-MEDIATED PUBLIC SENTIMENT

Abstract

With the rapid development of the Internet, the Internet is becoming increasingly popular. Internet public opinion use the Internet as the medium, use events as the core, Internet public opinion is a collection of expression, communication, interaction and the subsequent influence of netizens’ emotions, attitudes, opinions, ideas. Due to the growing influence of Internet public opinion, public opinion guide for network analysis is also imperative. And Textual Orientation Classification is focused on content. Textual Orientation Classification is to analyze the tendency of Internet users subjective information to one event or thing, is a positive or negative information.

According to practical application of oriented analysis of net-mediated public sentiment, on the basis of public opinion into account the characteristics of the network and the law on people's perception, having a study on Textual Orientation Classification and using Textual Orientation Classification to analyze simple emotions statements bias.

Textual Orientation Classification is the main research method, based on the automatic machine learning methods, and using a large number of corpora to train automatic machine learning methods, to make the program improve the result of SVM, classification, in continuous learning. Based on this research method is to prepare a large number of the standard corpus as a training set, then have text preprocessing and use ANSJ, Keywords Analysis System, for the training set. Choose text classification based on Chinese vocabulary ontology emotional dimension of feature vectors, and use TF-IDF measure to quantize training set, output the files which LIBSVM support training sample set. Do the same pretreatment with the testing set. Finally use LIBSVM, training text classifier, to form the classification model file, and use it verify the classification model’s precision, so achieve better classification results.

KEY WORDS: Net-mediated Public Sentiment, Textual Orientation Classification, LIBSVM, TF-IDF

第一章 绪论

研究背景

1994年4月20日,互联网正式的入驻中国。到2015年的4月,正好过去了21年的历史。仅仅21年时间,互联网发展速度突飞猛进,势不可挡,正式由于互联的发展,人们日常生活中各种信息的传播方式、相互间沟通方式、消费方式、娱乐方式等也发生了翻天覆地的变化,互联网改变了人们的生活。根据最新数据显示,截至2014年6月,我国网民规模达6.32亿,半年共计新增网民1442万人。互联网普及率为46.9%,较2013年底提升了1.1个百分点。这将是网络舆情的发展和传播的主要信息来源,随着这种趋势的逐渐扩大,许多信息传播的方式在迅速的发展的同时,信息在传播过程中的互动性也逐渐增强。这种信息传播的方式的变化也使得网络舆情的发展超越了原有的时间和空间两个方面的约束,使得网络舆情传播得更加迅捷快猛。然而,由于互联网上面发表评论具有隐蔽性和主观性等特征,使网民可以没有后顾之忧地发表自己对某事或某人的看法。基于以上原因,近十几年来年我国网络舆论的力量得到了长足的发展。尤其是最近几年,纵观国内外,有很多国际上事件都是从网络上的激烈争辩继而在社会上形成舆论力量并最终引起轩然大波的,这些舆情的影响力可能对所牵涉的人或需要承担相关社会管理责任的机关单位都会带来强烈的影响。

由此可见,了解网络舆情的发展情况并能对其发展趋势进行一定的判断和预测成为当今管理者的一个重要素质,然而随着网民数量的迅速增加其成员结构也显得非常庞杂,几乎各年龄段各阶层都有加入其中的迹象,这种特点也给网络舆情的分析赋予多样性的色彩。然而,由于网络中的言论既可能是陈述的客观事实,又可能存在一些居心叵测的人编造谣言来蒙骗大众,严重时会导致社会上的骚动甚至会威胁到社会治安与国家的和谐;一些有特殊目的的人不择手段恶意诋毁安全正规物品或店铺,严重影响其客源和经济效益;有无知且有恶习的人在互联网上论坛、贴吧,评论等版面上大肆随意宣泄自己内心不满及憎恶,严重破坏了互联网的绿色健康的氛围……网络舆情分析作用就变得更加不容忽视,对网络舆情进行及时分析和准确预测对于维护个人、团体、社会利益以及促进国家和谐安定都有十分重大的意义。

直观上就可以判断从以文本为载体的网络舆情中提取重要观点并对其进行情感倾向性分析将成为一种非常重要的技术,而这个技术的具体实现方法称为文本感情倾向性分析,分析的目的即为从中文文本中提取有价值的信息,将这种技术和其它现有的互联网技术结合起来就可以产生很大的社会和经济效益。

本文以简单情感语句作为分析对象,利用文本感情倾向性分析技术对语句进行倾向性分析,综合考虑网络舆情的特征和人们认知规律的基础,进行文本感情倾向性分析技术及相关重要技术研究。

研究现状

文本感情倾向性分析(也称为观点挖掘)是指使用自然语言处理,文本分析和计算机语言学来识别与提取原材料重的主观信息。通常来说,文本倾向性分析目的是确定讲话者、作者的对于一些话题或一个文章整体的语境性质的态度。这种态度可能是他或她自己的判断、评价(详见评价理论)、情感状态(也就是说,该作者写作时的情绪状态),或者是特定情感上的交流(作者希望对读者的情感有一定影响)。

文本感情倾向性分析是众多学科交叉错综的研究领域,属于计算机范畴,其研究内容包括自然语言处理、文本挖掘以及计算机语言学等多个领域,同时也涉及到统计学、语言学、心理学、逻辑学、认知科学等众多非计算机学科。因而,众多不同科学领域的专家以及科研机构参与其中并进行长期深入研究。

国外一些专家学者较早便进行文本感情倾向性分析相关的研究。早期在Turney [1]和Pang [2]他们的研究工作中是运用了多种不同的方法分别分析产品评论和电影评论的两极性观点。这个研究是基于文档级别而进行的分析。另一种将文档意见进行多等级分类,Pang [3]和Snyder [4]等其他人 [3]延伸了两极观点的基础研究,将电影评论作为研究对象进行分类研究,不论是正面的还是负面的预测达到了3至4星的多重级别,而Snyder [4]对餐厅的评价进行了深入的分析,针对餐厅的各个方面进行预测,如食物和氛围(以5星级的级别)。尽管在大多数的统计分类方法中,“中性”类常被忽略,“中性”文本处于两极分类的边缘,但是不少研究人员表明,在每一个两极性的问题上,需要三个不同的类别得以确定。此外,一些分类方法如最大熵(Max Entropy) [5]和支持向量机(SVMs) [6]可以引入“中性”类从而提高分类算法的总体精度与准确率。

另一种研究方向是分析判定文本情感的方法是使用标度换算系统。基于一个消极,中性或积极的情绪,赋予词汇一个在-10到 10范围的(从最消极到最积极)情感等级,并且使用自然语言分析处理非结构化的文本,剩下的概念被分析得出词与概念间的相关性。随后,每一个概念都被赋分,这些分数是在情绪词与概念的关联度的基础上,以及这些概念本身的分数得出的。这能够将文本情感倾向性分析的提升至一个更加智能的层面,并且这是基于11分的感情等级的。另外,如果目标是确定在一个文本的感情而不是整体文档集的极性分布或文字的强度,那么能给予文本积极的和消极的情感强度分数。 [7]

另一个研究方向是主观性与客观性的识别。这项研究通常是定义为将一个给定的文本(通常是句子)分为两类:客观或主观的。这个问题有时甚至比极性分类更加困难。 [8]主观性词汇和短语可能取决于它们的上下文语境,而一个客观文章可能包含主观性句子(例如,新闻文章引用某人的观点)。此外,正如Su提到,结论在很大程度上依赖于注释文本对于主观性的定义。不过,Pang表明,将某些客观句子从文档中去除后,再进行极性分类,有助于改善算法效果。

一个更加优化的分析模型被称为“功能/基于属性的情感分析”。 [9]这是指在某一功能或方面上表现的观点或情感,例如,手机,数码相机,或银行。一种“功能”或“方面”是指其某属性或组件,例如,手机的屏幕,或摄像机的图像质量等。这个问题涉及到多个子问题,例如,识别相关实体,提取功能/属性,确定是否每个功能/属性表现的是积极的、消极的或中性的观点或感情。 [10]

国内研究虽起步晚,但有众多专家与科研机构致力于文本感情倾向分析。研究工作开始于基于国外较为成熟的监督学习方法对电影评论文本进行情感倾向性分类和基于无监督学习(unsupervised learning)对文本情感倾向性分类的研究;基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。而中文语法与英文语法也不尽相同,具体问题要具体分析。英文的情感词典数据库较为完善,相关资源较为丰富。而中文情感词典的数据库资源相对匮乏。中文词库知网(HowNet)、台湾大学NTUSD研究整理的中文情感极性词典数据、大连理工大学信息检索研究室整理标注的中文情感词汇本体库等数据资源,为中文文本感情倾向性分析提供了便捷可靠的辅助手段,可用于解决多情感分类与一般倾向性的问题及相关研究。刘群、李素建基于《知网》的词汇语义相似度计算,词语相似度计算在信息检索、信息抽取、词义排歧等领域都有着广泛的应用。 [11]谢丽星、周明、孙茂松等人提出基于层次结构的多策略中文微博情感分析和特征抽取,对于三种情感分析的方法进行了深入研究,包括表情符号的规则方法、情感词典的规则方法、基于SVM的层次结构的多策略方法。 [12]

文本情感倾向性分析常用方法

现有的方法进行文本情感倾向性分析可分为四大类:关键词识别,词汇关联,统计方法和概念级技术。 [13]关键词,识别进行分类文本,有赖于明确清楚定义的词汇,如“快乐”、“悲伤”、“恐惧”、“无聊”等等。 [14]词汇关联,不仅检查影响词,它也关注词汇与某情感的“关联”值。 [15]统计方法是沿袭于机器学习,如潜在语义分析(latent semantic analysis),支持向量机(SVMs),词袋(bag of words)等(参见Peter Turney [1]的研究成果)。更智能的方法来检测一个有某种情感的人(保持情感状态的人)和情感目标(让人产生某情感的实体)。 [16]仅仅通过语境得到功能/属性太片面,需要使用到语法关系。通过深入的文本解析,从而得到语法依存关系。 [17]不同于纯粹的语法技术的是,概念级的方法技术了利用知识表示中的元素,例如本体和语义网络关系,因此,这种方法也能够检测到字里行间较为微妙的情感表达,例如,虽然分析的概念并不能不明确传达有关信息,但这样能够对于明确概念的不明显联系来获取所求信息。 [18]

剩余内容已隐藏,请支付后下载全文,论文总字数:27352字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;