基于文本分析的人格检测研究与实现

 2022-05-20 22:03:45

论文总字数:33265字

摘 要

近年来,随着互联网的飞速发展,人们越来越频繁地在社交网络上利用文本信息进行自我表达和展现,用户在社交平台上生成的文本内容成为研究个体差异的一个丰富的、潜在的信息来源,分析这些内容为向用户提供个性化的服务提供了新的途径。如何对用户生成的文本进行分析,从而得出有效的用户人格信息是目前面临的一个难题。本文对基于文本分析的人格检测这一课题进行研究。

本文基于文本分析技术运用有监督的机器学习的知识,在大五类人格模型(The Big five)上建立自己的分类模型。本文使用了一个包含2467个有效的匿名大五类人格标记的意识流论文数据集进行研究。对文本进行在文本清洗等预处理工作后,运用one-hot编码表示文本向量,使用CountVectorizer方法和TF-IDF方法实现文本特征提取与特征权重计算,利用PCA方法进行特征降维,分别建立ML-KNN和多元线性回归分类模型后进行数据集的训练与预测。利用评估指标对实验预测结果进行量化分析,评估建立的分类模型性能。

关键词:文本分析;大五类人格;机器学习;人格检测

ABSTRACT

In recent years, with the rapid development of the Internet, people use text information to express and express themselves more and more frequently on social networks. The text content generated by users on social platforms has become a rich potential source of information for studying individual differences. Analysis of these content provides a new way to provide personalized services to users. How to analyze the user-generated text to obtain effective user personality information is a difficult problem. This paper studies the topic of personality detection based on text analysis.

Based on text analysis techniques, this paper uses supervised machine learning knowledge to build its own classification model on the Big Five personality model (The Big Five). This paper uses a stream of consciousness flow papers containing 2467 valid anonymous big five personality markers for research. After the text is cleaned and preprocessed, the one-hot code is used to represent the text vector, the CountVectorizer method and the TF-IDF method are used to realize the text feature extraction and feature weight calculation, and the PCA method is used to reduce the feature. The data set training and prediction were carried out after establishing ML-KNN and multiple linear regression classification models respectively. The evaluation results are used to quantitatively analyze the experimental prediction results, and the performance of the established classification model is evaluated.

KEY: Text Analysis; Big Five Personalities; Machine Learning; Personality Detect

目 录

摘 要 I

ABSTRACT II

第一章 前言 1

1.1课题研究背景及意义 1

1.2 国内外研究概况 1

1.3 论文主要研究内容 2

1.4 论文组织结构 3

第二章 背景知识及相关技术 4

2.1 大五类人格模型简介 4

2.2 文本分析简介 4

2.3 本章小结 5

第三章 基于文本分析的人格检测 6

3.1 数据集 6

3.2 文本的预处理 7

3.2.1去除文本中非文本部分 7

3.2.2分词处理 7

3.2.3词性标注以及词形还原 8

3.2.4去除停用词 9

3.3 文本的向量化表示 9

3.4 文本特征提取 10

3.4.1 CountVectorizer 10

3.4.2 TF-IDF 10

3.5 特征降维 11

3.6 分类模型的建立 12

3.6.1 多标签(multi-label)问题 12

3.6.2 多标签ML-KNN 13

3.6.3 多元线性回归 14

3.7 本章小结 15

第四章 人格检测实验及结果分析 16

4.1 评估指标 16

4.1.1 海明损失(Hamming loss,HL) 16

4.1.2 1-错误率(One-error,OE) 16

4.1.3 平均精度(Average precision,AVP) 17

4.1.4 均方根误差(Root Mean Squared Error, RMSE) 17

4.1.5 F1分数(F1-score) 17

4.2 实验分析 17

4.2.1 TF-IDF ML-KNN 与 CountVectorizer ML-KNN 评估比较 18

4.2.2 TF-IDF 多元回归与CountVectorizer 多元回归评估比较 18

4.2.3 TF-IDF ML-KNN与TF-IDF 多元回归评估比较 20

4.2.4 CountVectorizer ML-KNN与 CountVectorizer 多元回归评估比较 20

4.2.5 降维维度对于机器学习预测结果的影响 21

4.2.6 最佳参数条件下最优预测结果的探究 21

4.3 本章小结 22

第五章 结论与展望 23

5.1 结论 23

5.2 展望 23

参考文献 25

附录 27

致 谢 29

第一章 前言

1.1课题研究背景及意义

随着互联网的飞速发展,在各种社交平台上的文本信息出现了爆炸式的增长,人们逐渐步入信息时代。在信息时代,信息量是否充足已经不再是值得担忧的问题,相反,海量的信息使得更加准确、快捷的获取有效的信息成为一个值得思考的问题。在现实中,信息不再以传统的数据形式出现,还以各种多元形式出现,例如以文本形式出现的博文等。由于这些非结构化的数据中也存在着大量的可用的、隐藏的、有效信息,为了获取这些有效信息,文本分析技术应运而生。文本分析的主要思想是将非结构化的文本数据转变为有意义的、可计算的数据,从而进行信息提取与表示。利用这一分析过程可以实现评估客户意见与产品评论、为用户提供个性化服务、进行文本情感分析等功能。文本分析使用语言学、统计学以及机器学习的知识,包括数据挖掘、信息检索,自然语言处理、计算语言学、统计数据分析、线性几何代数、概率论等。

人格是构成一个人的思想、情感、行为的特有模式[1],文本直接与人的思想对接,这使得从文本中分析写作者的人格特质成为一种可能。同时随着互联网的发展,社交媒体已经成为人们日常生活中重要的一部分。2017年,超过一半的世界人口使用互联网,其中有超过27亿的活跃社交媒体用户[2]。每一个社交媒体用户通过撰写帖子,标记喜欢的网页,提供资讯或者仅仅浏览社交媒体网站的方式留下他的数字足迹。这些数字足迹展现了个人的行为与喜好以及性格。了解一个人的人格特征可以通过其在不同的社交平台上的撰写的文本信息与环境预测用户的兴趣爱好。这些知识还将可以极大的地帮助企业在各种社交媒体、网络中识别自己的目标受众。同时可以考虑将相同的分析过程用于员工性格分析,帮助公司的人力资源部门寻找合适的求职者或帮助没有经验的求职者找到合适的自身性格的工作岗位。因此基于文本分析的人格检测有着广阔的应用市场。

1.2 国内外研究概况

社交媒体的普及引起了许多人格预测任务的研究工作。正如之前指出的,有关个人个性的知识可用于 优化广告和提供个性推荐服务。与传统的确定个人个性的方式相比,使用文本分析的方式来预测个性可以提供简单直接的见解。国内外研究人士从单词向量,句子向量,文本结构等多个层面利用机器学习以及深度学习的知识进行创新与改进,不断优化文本分析检测人格特质方法。

剩余内容已隐藏,请支付后下载全文,论文总字数:33265字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;