论文总字数:24946字
摘 要
社区论坛是当下网民获取信息和交流沟通的重要途径,然而被一些不法分子作为发布广告的途径,这严重影响了用户体验和论坛的正常功能。本课题将贝叶斯分类算法引入智能广告贴过滤领域,详细介绍了贝叶斯分类器的原理和基本工作流程,介绍了中文分词方法和特征选择算法,给出了应用于社区论坛的广告贴过滤系统的整体架构和各个模块的详细设计。选取一定量的训练集对系统进行训练,并设计测试方案对系统的性能进行分析,最后给出了系统的总体分析和改进的方向。
关键词:文本分类,贝叶斯,中文分词,特征选择,机器学习
An intelligent advertisement post classify system based on Bayesian algorithm
Abstract
Community Forum is an important way for people to obtain information and communication. However, it is used by some people as a way of advertising, which has seriously affected the user experience and the normal function of the forum. This thesis discuss how to use Bayesian classifier to handle advertisement post automatically. In addition, give a detailed introduction of the principle and process of the Bayesian classifier and the Chinese Word Segmentation Technical. A system based on Bayesian classifier and each part of it is designed. In the end the thesis, we can see how to test the system and improve it.
KEY WORDS: text classify, Bayesian, Chinese Word Segmentation, term selection, machine learning
目 录
摘 要 2
Abstract 2
第一章 绪论 5
1.1 引言 5
1.2广告贴危害和现状 5
1.2.1 广告贴的定义 5
1.2.2广告贴的危害 5
1.2.3国内主要社区论坛广告贴的现状 6
1.3社区论坛过滤广告信息的常用方法 6
1.3.1 基于IP地址的过滤 6
1.3.2 基于帖子内容的过滤 6
1.3.3 基于用户行为的过滤 6
1.3.4 基于机器学习的过滤 7
1.4 本文的研究目的和主要研究内容 7
1.5 论文组织结构 7
第二章 贝叶斯分类算法 7
2.1贝叶斯定理 8
2.2贝叶斯文本分类器的基本工作流程 8
2.2.1学习 8
2.2.2分类 9
2.3 贝叶斯方法处理广告贴的优缺点 9
2.4 本章小结 10
第三章 贝叶斯方法处理中文文本的研究与相关技术 10
3.1 贝叶斯分类器处理中文文本的问题概述 10
3.2中文分词技术 11
3.2.1基于词典的分词方法 11
3.2.2基于理解的分词方法 11
3.2.3基于统计的分词方法 12
3.2.4分词算法的比较与选择 12
3.3特征选择算法 12
3.3.1特征空间降维对分类准确度的影响 12
3.3.2常用的特征选择算法 12
3.3.3特征选择的比较与选择 13
3.4 本章小结 13
第四章 系统架构及概要设计 13
4.1 系统需求分析 13
4.2 系统开发及运行环境 14
4.3 系统架构 14
4.4数据库设计 15
4.4.1用户表(user) 16
4.4.2帖子表(post) 16
4.4.3帖子内容表(content) 16
4.4.4词语表(word) 17
4.4.5分词结果表(segmentation) 17
4.5 本章小结 17
第五章 系统详细设计与实现 17
5.1信息预处理模块 18
5.1.1模块功能 18
5.1.2功能实现 18
5.2中文分词模块 20
5.2.1模块功能 20
5.2.2功能实现 20
5.3特征选择模块 22
5.3.1模块功能 22
5.3.2功能实现 22
5.4过滤器训练模块 23
5.4.1模块功能 23
5.4.2功能实现 24
5.5帖子过滤模块 25
5.5.1模块功能 25
5.5.2功能实现 26
5.6数据统计模块 27
5.6.1模块功能 27
5.6.2功能实现 27
5.7 本章小结 28
第六章 系统测试和性能分析 28
6.1实验样本集的选取 28
6.2 测试结果衡量标准 29
6.3测试的设计与结果分析 29
6.4特征选择算法的改进和结果分析 30
6.5阈值调整对查全率和查准率的影响 31
6.6 本章小结 32
第七章 总结与展望 32
7.1 总结 32
7.2展望 33
参考文献(References) 33
致 谢 34
第一章 绪论
1.1 引言
据CNNIC在2011年的统计数据,38%的网民在网络上有经常访问社区论坛的行为。百度贴吧、豆瓣、天涯等社区论坛已经成为网民获取信息,交流沟通的重要平台。由于用户数目大,活跃度高,这里也成为了不法分子恶意散播广告的主要阵地。垃圾广告的出现严重的影响了网民的上网体验。各大社区网站从创立之初,就投入了大量的人力和技术成本,用于此类信息的处理。
1.2广告贴危害和现状
1.2.1 广告贴的定义
帖子(Post)是目前论坛式的社区论坛最常用的信息交流载体。以百度贴吧为例,用户提交一篇帖子到论坛上,帖子内容包括标题(Title)和正文(Content),其他用户则以查看帖子及回帖(Reply)的形式来互相交流。
广告贴是将发布者所需要推销的商品或业务信息以帖子的形式发布在社区论坛上,吸引其他用户的点击。按推销内容划分可以分为商品广告,店铺广告,兼职广告等。为了获取客户,常常会留下联系方式,如通讯地址、手机号、社交平台账号、网站链接等。
1.2.2广告贴的危害
垃圾信息是整个互联网的公敌,非法广告是其中最常见的内容。广告贴给造成的危害主要包括以下几点。
1)影响用户体验。用户在社区论坛上最主要的目的是进行交流和阅读自己感兴趣的内容,而广告贴则会干扰用户的注意流,让用户产生不愉快的使用体验。
剩余内容已隐藏,请支付后下载全文,论文总字数:24946字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;