论文总字数:27723字
摘 要
微信公众号是当前有着很大影响力的自媒体平台,本文旨在通过文本挖掘的技术手段,从微信公众号分布文本中进行事件抽取。事件抽取的结果可以应用于舆情监督、安全事件检测、文本分类、文本推荐等领域。
首先,本文回顾了国内外对事件抽取的研究现状,并进行了总结。在中文事件抽取领域,研究内容大多是基于ACE定义的句子级事件抽取,即从包含事件的句子中抽取出事件触发词、事件元素。在本文应用场景中,句子级事件抽取的应用效果一般,因此本文采用了单文档关键词抽取和多文档主题抽取相结合的技术手段,尝试从文本中抽取出关键信息。接下来,本文介绍了语料的获取以及预处理方法,并进行了实验。最后,本文设计了单文档关键词抽取实验和多文档主题抽取实验。实验用到的主要模型和算法包括向量空间模型、TF-IDF模型、TextRank算法、潜在狄利克雷分布等,本文对这些模型和算法进行了介绍。实验主要在集群计算框架Apache Spark下进行,关键代码包含在本文的附录中。本文对一些语料进行了实验,取得了较好的效果。
关键词:事件抽取,TF-IDF,TextRank,主题模型,LDA,Spark
Abstract
WeChat Offical Account is considerted to be an influential platform for we-media. This paper aims to adopt a combination of techniques in text mining to extract events from articles on this platform. The results can be applied in the fileds of public opinion supervision, detection of safety issues, text classification, text recommendation, etc.
To start with, this paper reviews and summarizes past research in the field of event extraction in the first part. In the field of Chinese event extraction, most research focuses on sentence-level event extraction based on ACE defintion, which means to extract the event trigger and event arguments from a sentence that contains an event. However, this kind of event extraction does not apply well in our project. Therefore, this paper adopts methods of keyword extraction and topic extraction, trying to extract principal information from the corpus. Next, this paper introduces ways to acquire and preprocess the corpus with some experiments. Finally, this paper develops experiments on Single Document Keyword Extraction and Multi-Documents Topics Extraction. Models and algorithms used in the experiments include Vector Space Model, TF-IDF, TextRank, and Latent Dirichlet Allocation. They are presented in this paper. The experiments are mainly based on Apache Spark platform. Key codes are attached at the end of this paper. This paper tests on some corpus. Results prove to be good.
KEY WORDS: event extraction, TF-IDF, TextRank, topic model, LDA, Spark
目 录
第一章 引言 1
1.1 研究背景及意义 1
1.2 国内外事件抽取研究现状 2
1.2.1 事件抽取的ACE定义 2
1.2.2 基于ACE定义的事件抽取工作内容 2
1.2.3 模式匹配在事件元素抽取中的应用 3
1.2.4 机器学习在事件类型识别和事件元素识别的应用 3
1.3 本文核心工作 4
第二章 基于Jsoup的微信公众号文本获取 5
2.1 Jsoup解析器 5
2.2 微信公众号文本获取 5
2.3 本章小结 7
第三章 基于中文分词的语料预处理 9
3.1 中文分词算法 9
3.1.1 基于Trie树的切分词图的生成 9
3.1.2 基于动态规划的最大概率路径的求取 10
3.2 实验及结果分析 11
3.3 本章小结 11
第四章 基于TextRank算法的单文档关键词抽取 12
4.1 TextRank算法 12
4.2 实验及结果分析 13
4.3 本章小结 14
第五章 基于LDA模型的多文档主题抽取 15
5.1 文本特征提取 15
5.1.1 向量空间模型 15
5.1.2 TF-IDF 16
5.1.3 提高特征提取质量的方法 17
5.2 主题模型 18
5.2.1 潜在语义分析(LSA)模型 18
5.2.2 潜在狄利克雷分布(LDA)模型 19
5.3 实验及结果分析 20
5.5 本章小结 21
第六章 总结与展望 22
6.1 工作总结 22
6.2 未来展望 22
参考文献 24
致谢 25
第一章 引言
1.1 研究背景及意义
1994年,凯文·凯利在《失控》一书中预言了即将到来的互联网世界,他把观察蜂群得到的结论应用到网络普及后的人类社会中,并且预言这个社会是去中心化、分布式的[1]。互联网的普及与发展逐渐证实了凯文·凯利的预言。相比互联网普及之后,在过去,人类社会的组织架构是更加中心化的。无论是政治组织、经济组织还是媒体组织,都呈现出树状结构,层层分级,逐层控制,向社会的各个角落辐射影响力。互联网的普及在很多领域打破了这种中心化结构。互联网是一种网络结构,网线是边,终端是节点,终端后面的人们则组成了网络化的虚拟社会。在网络结构中,并不唯一存在一个中心。每一个节点都可以直接与周围的节点进行联系,通过传播,甚至可以向这个网络辐射影响力。相比于中心化结构,这种网络结构是难以控制与预测的。
以自媒体为例,随着微信公众平台、问答社区、微博等的兴起,每一个网民都可以参与到公共事件的报道或者讨论中,传统“主流媒体”的影响力逐渐被削弱。自媒体平台与社交网络共同组成了网络结构化的媒体组织,自媒体发布平台中的每一个账号代表网络中的节点,社交网络中的关系链代表边。这种网络结构具有不可预测性。
剩余内容已隐藏,请支付后下载全文,论文总字数:27723字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;