欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOC文档下载  

    基于网络爬虫的招聘信息可视化分析系统.doc

    • 资源ID:7209507       资源大小:148.50KB        全文页数:9页
    • 资源格式: DOC        下载积分:4
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要4
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于网络爬虫的招聘信息可视化分析系统.doc

    基于网络爬虫的招聘信息可视化分析系统摘要:随着信息化时代的降临,当今世界信息化水平也越来越高。越来越多的招聘信息在网络上发布,这就使得应聘者在眼花缭乱的招聘信息中不知如何选择最适合自己的工作。因此需要对这些海量的招聘信息进行更深入的更高层次的分析。系统通过网络爬虫技术对网络上海量的招聘信息进行爬取,并对其进行相关的数据清洗工作,对清洗后的数据进行可视化分析。实现了对爬取到的招聘信息进行分类查看、模糊查询以及多条件联合查询,按关键字对招聘信息进行爬取等功能。随着大数据分析技术日渐成熟,可以在合理的时间内对海量的数据进行管理、整理以及分析,从而发掘出数据之间隐藏的关联规则以及预测未来的发展趋势。关键词:招聘信息;数据可视化分析;网络爬虫随着大数据的相关知识在这个时代越来越普及,我们这个时代即将迎来大数据的黄金时期,大数据已经有着越来越重要的战略意义1。对于招聘信息而言,每天都会有海量的招聘信息发布在网络上,在不同的网站上有着各种不同的招聘信息,然而数据库只能满足对这些数据的增加、修改、删除、查询等简单的功能,这些简单的功能无法深层次的发掘这些数据源的潜在价值,发挥数据源应有的效益2。应聘者往往希望找到最适合自己的工作,诸如介于工作地点,工作报酬,工作经验,以及学历的要求,导致应聘者很难从海量的招聘信息中获取到最适合自己的工作信息3。大数据分析技术可实现高度自动化的对数据进行分析,发掘数据中隐含的、未知的、潜在的趋势和模型,有助于发现业务的趋势,控制风险4。因此。对于招聘信息大数据的可视化分析是有其可行性的,通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。因此本项目开发了一款招聘信息可视化分析系统。因此对于招聘信息大数据的可视化分析是有其可行性的,通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。因此本项目开发了一款招聘信息可视化分析系统。在实际的运行中规避风险,帮助数据分析这作出合理的决策,从而实现效益的最大5。1 系统简介基于网络爬虫的招聘信息可视化分析系统基于B/S架构,整个系统可以分为数据爬取模块、数据可视化分析模块、用户功能模块三大模块。功能结构图如图1所示。 图1 系统功能结构图本文以对前程无忧以及智联招聘的招聘信息可视化分析业务为例,介绍数据分析模块的需求分析、设计与实现。2 系统需求分析招聘信息的可视化分析包括数据的整理,清洗以及绘制可视化图形。主要业务流程是后台管理员通过指定关键字从智联招聘或者前程无忧上获取相关的招聘信息,将获取到的数据保存在本地数据库中,然后通过对可利用的数据进行清洗工作,筛选出可以进行统计分析的招聘信息,最后通过管理员将可视化的分析结果上传到网站上。(1)能够实现将MySql数据库中的相关工作的数据转存为JSON格式,并保存在本地服务器上,以供后续进行数据可视化分析。(2)能够将JSON格式的数据导入使用Python编写的使用pandas库的数据格式DataFrames中,从而对数据进行数据清理,从而将冗余的重复的无用的信息排查出去,并且对数据进行分类整理,聚类分析。(3)招聘信息经过数据清洗之后,筛选出来的可用的信息再进行可视化分析:工作月薪工作地点分布关系图、工作月薪工作经验分布关系图、工作月薪最低学历工作经验分布关系图、工作数量工作地点分布关系图、最低学历工作数量分布关系图、工作数量工作经验分布关系图。招聘信息可视化分析用例图如图2所示。图2 招聘信息可视化分析用例图查看可视化分析用例描述如表1所示。表1招聘信息可视化分析用例描述标题说明用例名称查看可视化分析分布图用例标识号Report 001简要说明用户可以通过可视化分析页面查看可视化分布图,分布图主要包括前程无忧和智联招聘两个数据来源的可视化分析,用户可以点击图片放大查看,可以点击下一张按钮上下移动右侧缩略图。前置条件用户打开可视化分析页面。基本事件流1.用户点击右侧分布图的缩略图。2.用户点击页面中间的主浏览图片放大查看,点击翻页按钮实现图片的分页下滑。 3.用例终止。其他事件流若用户没有点击任何按钮,默认显示数据库中第一张图片。异常事件流1.提示数据库中没有已分析结果,用户确认。2.返回到可视化分析页面。后置条件跳转招聘信息可视化分析主界面,查看成功。3 系统的设计可视化分析模块实现的主要功能是对从智联招聘和前程无忧上爬取到的数据进行可视化分析,即对爬取到的数据进行关联分析,对每一个字段进行统计,并将统计的结果通用Python中Matplotlib库相关方法将数据可视化6。招聘信息可视化分析活动图如下图3所示:图3招聘信息可视化分析活动图通过对系统各个模块的需求分析,设计得到系统类图如图4所示。图4 系统类图4 系统的实现对招聘信息可视化分析业务具体实现是通过将MySql数据库中的相关工作的数据转存为JSON格式,并保存在本地服务器上。之后将JSON格式的数据导入使用Python编写的使用pandas库的数据格式DataFrames中,从而对数据进行数据清理,从而将冗余的重复的无用的信息排查出去,并且对数据进行分类整理,聚类分析。招聘信息经过数据清洗之后,筛选出来的可用的信息再进行可视化分析:的到工作月薪工作地点分布关系图、工作月薪工作经验分布关系图、工作月薪最低学历工作经验分布关系图、工作数量工作地点分布关系图、最低学历工作数量分布关系图、工作数量工作经验分布关系图。招聘信息可视化分析顺序图如图5所示。图5 招聘信息可视化分析顺序图实现对招聘信息的可视化分析的数据清理部分代码如下所示。 for i in range(len(dfZWnum): # 处理职位数量 try: item = dfZWnum.iloci.strip() result = re.findall(pattern, item) if result: dfnum.iloci = result0 except Exception as e: continue df_city = dfZWadd.copy() pattern2 = re.compile(.*?)(-) # 处理工作地点 for i in range(len(dfZWadd): item = dfZWadd.iloci.strip() result = re.search(pattern2, item) if result: df_city.iloci = result.group(1).strip() else: df_city.iloci = item.strip() dfadd = df_city self.log.info(ujson数据清洗完毕)运行结果图如图6所示。图6 最低学历-工作经验-平均月薪分布图5 结束语本文通过对招聘信息的可视化分析业务为例,详细介绍了基于网络爬虫的招聘信息可视化分析软件的需求分析、设计与实现。对于招聘信息而言,每天都会有海量的招聘信息发布在网络上,在不同的网站上有着各种不同的招聘信息。通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。参考文献1吴俊锋.基于Django的高性能计算Web系统的设计与实现D. 成都:电子科技大学,2016.2刘文哲.词语关联搜索查询系统的设计与实现D. 武汉:华中科技大学,2015.3熊晟.知识库质量控制平台的设计与实现D. 北京:北京交通大学,2016.4周嫣然.基于大数据时代的数据可视化应用分析J.网络安全技术与应用,2014,(11):47-48.5杨超明.基于.NET框架的高职就业管理系统的设计与实现D. 长沙:湖南大学,2016.6王囝囝,杨树,毕焘.大数据时代数据信息可视化的研究J. 通讯世界,2015,(14):185-186.7Huang Z, Zhang L, Xu R, et al. Application of big data visualization in passenger flow analysis of Shanghai Metro networkC. IEEE International Conference on Intelligent Transportation Engineering. IEEE,2017:184-188.项目基金:江西省高等学校科技落地计划项目,项目编号为KJLD14054。

    注意事项

    本文(基于网络爬虫的招聘信息可视化分析系统.doc)为本站会员(苏美尔)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开