论文总字数:23154字
摘 要
每到毕业季,由于学校的教育模式教育内容与企业的实际需求严重脱节,一批又一批的大学生发现求职不如想象中的那么顺利,本文将构建基于企业招聘信息的岗位能力需求库,使大学生迅速了解企业的招聘需求,以帮助大学生在求职中顺利找到工作。本文的主要工作为:
(1)利用Python爬虫爬取招聘论坛交流区中现存的面试经验文本,作为构建岗位能力需求库的原始数据集
(2)理解分析现有中文分词、文本分类技术,结合所原始数据集的特定,确定所要使用的中文分词及文本分类模型。
(3)查阅学习jieba、sklearn等现有Python组件的官方文档,使用其中相关函数完成对原始数据集的中文分词及文本分类工作。
(4)人工构建领域知识词典,基于领域知识词典,对分好类的文本完成信息抽取工作,并利用TF-IDF计算抽取到的能力需求的重要程度。
(5)设计数据库,将上述工作得到的数据录入数据库,并构建B/S查询系统。
关键词:中文分词,文本分类,信息抽取,数据库
Abstract
Every graduation season, because the educational content of the school's education model is seriously out of line with the actual needs of the enterprise, a group of college students find that job hunting is not as smooth as imagined. This article will build a job capability requirement database based on enterprise recruitment information. College students quickly understand the recruitment needs of enterprises to help college students find jobs smoothly in job hunting. The main work of this paper is:
(1) Use Python crawler to crawl the existing interview experience text in the recruitment forum exchange area as the original data set for building the post capability requirement library.
(2) Understand and analyze the existing Chinese word segmentation and text classification techniques, and determine the Chinese word segmentation and text classification model to be used in combination with the specificity of the original data set.
(3) Review the official documents of existing Python components such as jieba and sklearn, and use the related functions to complete the Chinese word segmentation and text classification of the original data set.
(4) Artificially construct domain knowledge dictionary, based on the domain knowledge dictionary, complete the information extraction work for the well-classed text, and use TF-IDF to calculate the importance degree of the extracted capability requirements.
(5) Design the database, enter the data obtained from the above work into the database, and build a B/S query system.
KEY WORDS: Chinese Participle,Text Categorization,Information Extraction,Database
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1引言 1
1.2研究现状 1
1.3本文工作概述 2
1.3.1主要内容与目标 2
1.3.2 关键技术概括 2
1.4本文组织结构 3
第二章 相关理论与关键技术 5
2.1中文分词 5
2.2文本分类 6
2.2.1支持向量机 6
2.2.2朴素贝叶斯 6
2.2.3 K-近邻算法 8
2.3信息抽取 9
2.4本章小结 10
第三章 基于朴素贝叶斯的文本分类 11
3.1文本获取 11
3.2文本预处理 11
3.2.1中文分词 11
3.2.2文本向量化 12
3.3朴素贝叶斯分类器 12
3.4本章小结 13
第四章 信息抽取 14
4.1文本预处理 14
4.2进行TF-IDF计算 14
4.3本章小结 15
第五章 岗位能力需求数据库设计与构建 16
5.1岗位能力需求数据库基本结构 16
5.2岗位能力需求数据库构建基本流程 17
5.3本章小结 18
第六章 系统设计与实现 19
6.1运行环境 19
6.2数据来源 19
6.3文本分类 20
6.4信息抽取 21
6.5数据库 22
6.6查询系统 25
6.7本章小结 26
第七章 总结与展望 27
7.1论文主要工作总结 27
7.2后续工作展望 27
参考文献 29
致 谢 30
第一章 绪论
1.1引言
毕业季即将到来,越来越多的应届生发现找到一份专业对口的工作并不容易,这也正是国内外高等教育普遍面临的问题之一,学校的教育模式与企业需求严重脱节,学校教育模式相对固化,不能及时把行业最新需求反应到日常教学中,而企业更多的需要创新的跟上行业最新发展的技术,导致了一方面学生从学校毕业找工作困难,另一方面企业也不能招聘到符合自己需求的人才,产生了学生找工作中所遇到的种种难题。
现如今招聘渠道繁多,招聘模式更是多种多样,不同企业对应聘者能力知识的考查侧重点也各不同。因此,互联网中存在着海量的招聘信息以及之前的应聘者们留下的种种面试经验。对于正在谋求一份符合心意工作的大学生来说,这些海量的信息一方面意味着机遇,一方面也意味着挑战,在这么多信息中找到自己所需要的信息将会耗费大量的时间和精力。而经过一番搜索,并经历过相关企业面试后,大学生往往会发现企业的需求和自己原本的设想是有相当大的距离的,故而在学生之间有着“前面面试都是用来为之后的面试积累经验”的这种说法,这样招聘既浪费企业的人力物力,也消耗了求职者的信心精力,在经历种种信息不对称导致的失败后,此时的应聘者已经没有多少时间可以充分完善的准备企业所需要的知识能力以及未来可能存在的面试机会。
剩余内容已隐藏,请支付后下载全文,论文总字数:23154字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;