论文总字数:21199字
摘 要
针对直播互动公屏文本内容与传统文本信息具有较大差别,公屏文本内容的文本长度极短、主题特征不明确和干扰因素极多等情况,从而影响通过公屏文本实现对直播频道主题的识别与判定的问题,提出一种基于文本挖掘的直播互动内容主题判定的实现方案。该方案先是对现有频道进行人工识别构建主题标签系统,比较传统的TF-IDF、TextRank等不同关键词提取算法对直播公屏新型文本在标签系统主题下的提取效果,考察选择的主题关键词词性,以及比较在不同的分类算法下构建分类模型的主题分类性能,最终选用带有TF-IDF因子的TextRank算法与朴素贝叶斯分类算法相结合,并选用一定的词性和构建停用词表筛选主题关键词。结果表明,该实现方案在构建的15个分类下总体取得较为理想的分类效果,表明该方案能够较为准确地根据公屏文本内容实现对部分直播频道主题的识别判定。
关键词:直播公屏文本内容;主题判定;关键词提取;带有TF-IDF因子的TextRank算法;朴素贝叶斯分类算法
ABSTRACT
In view of the differences between the content of the live public text and the traditional text, and the live with very short length, vague theme features and the extremely large interference factor, it affects the theme recognition and determination of the live channel through the live public text. We put forward a program for determine the topic of the live interactive content based on text mining. This program first constructs the subject tag system of the existing channels, compares the traditional TF-IDF, TextRank and other keywords extraction algorithms to extract the new text of the live broadcast screen under the theme of the label system, examines the selected topic keywords` POS, and makes comparison of the subject classification performance of the classification model under different classification algorithms. Finally, the TextRank with TF-IDF factor algorithm is combined with the Naive Bayes classification algorithm, with selecting some POS and using stop word to filter the subject keywords. The results show that the proposed scheme achieves the ideal classification effect under the 15 categories of the construction, which indicates that the scheme can accurately identify the part of the live channel based on the content of the public screen text.
KEY WORDS: live public text, theme recognition and determination, keywords extraction, the TextRank with TF-IDF factor algorithm, Naive Bayes classification algorithm
目 录
摘 要 Ⅰ
ABSTRACT Ⅱ
第一章 绪论 1
1.1 引言 1
第二章 主题特征词选择及其选择算法 3
2.1 主题特征词选择 3
2.2 TF-IDF算法 3
2.3 TextRank算法 4
2.4 带有TF-IDF因子的TextRank算法 4
2.5 词袋模型 5
第三章 方案设计与实现 7
3.1 方案思路 7
3.2 总体流程 7
3.3 数据预处理的设计与实现 8
3.4 停用词选择的设计与实现 9
3.5 主题标签系统构建的设计与实现 9
3.6 关键词词性 10
3.7 关键词提取算法比较 11
3.8 主题关键词选择的设计与实现 13
3.9 分类模型构建的设计与实现 15
第四章 测试结果 16
4.1 测试环境 16
4.1.1 系统配置环境 16
4.1.2 测试数据与基本方法 16
4.2 评价指标 16
4.2.1 常用术语 16
4.2.2 常用评价指标 17
4.3 分类器性能比较 18
第五章 总结与观望 21
参考文献 22
致 谢 23
第一章 绪论
1.1 引言
借着互联网技术发展的浪潮,网络视频直播迅速发展并成为互联网行业中的一个新风向,直播行业中的主播群体与观看群体都正不断的壮大与发展。对于网络互动直播内容的识别与判定,一方面可以为用户提供感兴趣主题的内容推荐,可为互联网直播行业带来商业创收,另一方面,可对直播频道内容进行监控与管理,及时发现低俗类频道,避免直播事故的发生以及带来的大量影响。本文将主要针对直播内容中主播与观众互动公屏的文字信息进行文本挖掘,来实现对于直播内容的主题分类的识别与判定。在传统的一些主题分类文本挖掘的方法中,往往首先会将文本转换成一个词构成的向量。如果仅仅处理汉语文本并且不加任何处理,那么这个向量的维度应该包含汉语中所有的词汇,其大概数量为65000词(按照商务印书馆2005年5月出版的《现代汉语词典》收录词数量),即向量的维度至少应为65000维,还未考虑考虑不断涌现的网络新词汇,导致了文本特征的高维性。而对于网络直播中的消息来说,一条消息通常只包含了几个到十几个数量不等的词,一个时段内一个频道的消息总和大概也只包含几百到几千数量不等的词,却需使用一个至少为65000维度的向量进行表示,这将对计算机的存储与计算会是极大的浪费。在本实现方案中,准确地选择主题的关键词,准确表达主题极大多数特征信息与相对完整语义信息,降低特征的空间维度,并解决特征的高维稀疏,成为了急需解决的问题。
目前主流的自动提取关键词的方法主要可以分为以下四类:一、基于统计学特征,统计词项的词频、位置、词性、词长等信息,根据拟定的权值计算式计算词的分值,再从中按照相应规则选择一定范围内高分值的词作为内容的关键词,如最常用的方法有TF-IDF(Term Frequency-Inverse Document Frequency)算法及其衍生的算法TF-IDF-CD、TF-IDF-CF、CTD[1]等;二、基于图模型,将词转化成拓扑结构图,对于词按照一定的规则打分,最后对词分值进行排序选择高分值的词作为内容关键词,如常用的方法有TextRank算法[2]和LexRank算法;三、基于语义特征,如文献[3]中提出的一种“基于概念向量空间的文档语义分类模型”和文献[4]中提出的一种“结合语义扩展度和词汇链的关键词提取算法”等,另外还包括一些基于潜在语义的主题模型,如PLSA模型和LDA模型;四、基于深度学习的方法,如使用序列到序列(seq2seq)和循环神经网络(Recurrent Neural Networks,RNN)的TensorFlow模型进行关键词的提取。
剩余内容已隐藏,请支付后下载全文,论文总字数:21199字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;