论文总字数:16931字
摘 要
信息时代的来临改变了人们生活的方式,我们可以快速的通过互联网搜索自己想要的信息。越来越多的应届毕业生通过招聘网站寻找自己心仪的职位,但是这些网站都普遍存在用户个人隐私泄露,网站广告和无效信息过多的问题,让用户不胜其烦,这使我有了开发本平台的想法。本毕业设计的主要目的是设计一个基于Python的招聘信息聚合平台,实现用户登录后即可快速浏览从目标招聘网站上爬取的招聘信息的功能。本毕业设计使用Python语言设计爬虫程序,使用Flask框架搭建服务器,后台采用方便上手且易于扩展的Flask-SQLAlchemy 操作数据库。本毕业设计实现的主要功能是:后台爬取目标招聘网站数据并保存至本地文件,上传爬取的招聘信息至服务器数据库,用户注册、登录及登出,在网站上展示招聘信息。本毕业设计界面简洁,操作便捷,对用户的友好度较高。用户能快速的找到自己需要的招聘信息,省去了很多不必要的麻烦,极大地提升了用户的效率。关键词:爬虫,招聘网站,Python ,Flask
Abstract:The advent of the information age has changed the way people live. We can quickly search the Internet for information we want. More and more new graduates are looking for their favorite positions through the recruitment website. However, these websites all have the problem of leakage of personal privacy of users, too many advertisements and invalid information on the website, causing users to be troubled. This has led me to develop the idea of this platform. The main purpose of this graduation project is to design a Python-based recruitment information aggregation platform, which enables users to quickly browse the recruitment information that they have crawled from the target recruitment website after logging in. The graduate design uses the Python language to design the crawler program, uses the Flask framework to build the server, and uses Flask-SQLAlchemy operation database that is easy to use and easy to extend in the background. The main functions of the graduation design are: crawling target recruitment website data in the background and saving it to a local file, uploading the crawled recruitment information to the server database, user registration, login, and logout, and displaying recruitment information on the website. The graduation design interface is simple, easy to operate, and highly user-friendly. Users can quickly find the recruitment information they need, eliminating a lot of unnecessary trouble, greatly improving the efficiency of users.
Keywords:Crawler, Recruitment website, Python, Flask
目 录
1 绪论 3
1.1 项目开发背景和现状 3
1.2 项目开发的意义 3
1.3 系统开发所用的技术 3
1.4 主要内容 4
2 系统开发工具简介 5
2.1 Python语言 5
2.2 Requests库 5
2.3 BeautifulSoup库 5
2.4 CSV库 6
2.5 Flask框架 6
2.6 开发环境 6
3 系统的分析与设计 9
3.1 需求分析 9
3.2 系统功能结构图 9
3.3 系统功能设计过程 10
3.4 可行性分析 10
4 数据库设计 12
4.1 E-R图设计 12
4.2 数据库设计 13
5 系统的实现和核心模块的描述 15
5.1 爬虫程序的实现 15
5.2 Flask框架网页的实现 19
6 测试运行情况 26
6.1 测试的目的和必要性 26
6.2 测试方法 26
6.3 测试用例 26
6.4 系统有待改进的方面 27
结 论 29
参 考 文 献 30
致 谢 31
1 绪论
1.1 项目开发背景和现状
网络爬虫又被称作网络蜘蛛,是一种按照一定规则,自动抓取互联网信息的程序或者脚本,网络爬虫是一个自动提取网页的程序[1]。随着最近几年互联网行业的迅速发展,互联网成为信息的重要载体之一,广大的求职者和招聘单位通过人才招聘网站实现双向的交流和选择,但是市面上大部分的人才招聘网站存在个人信息泄露,导致用户被垃圾短信、电话及邮件纷扰,而且网站无效信息掺杂,导致用户无从选择,苦不堪言。
1.2 项目开发的意义
在互联网上收集信息的时候,通常使用常见的搜索引擎,但是它们都或多或少的具有一定的局限性。首先,搜索引擎的网络覆盖率非常巨大,与无数的网络数据资源矛盾;第二,不同领域用户的检索需求也不尽相同,会检索出无数对用户无效的信息。第三,常见的搜索引擎只能提供关键字搜索的功能,不能通过语义检索。爬虫技术的出现有效的解决了上述局限性。
虽然爬虫在检索收集数据方面的优势一般搜索引擎无法企及,但也存在以下几个问题:第一,法律和道德风险,抓取网站的数据虽说是公开的,但商用有损网站利益。第二,访问速度低,爬虫的速度依赖于网速和开发者水平,并且大部分网站都有反爬虫机制,如何高效的爬取信息是需要解决的难题。除此之外,验证码,数据解析不规则,易用性低等特点都是现今的爬虫技术所面临的问题[2]。
剩余内容已隐藏,请支付后下载全文,论文总字数:16931字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;