使用Python爬取网络数据并使用SSAS进行数据分析

主要内容

使用Python分别爬取百度搜索页面结果和智联招聘的6大类职业信息,数据主要使用SQLServer SSAS进行分析,并有少量的使用Python分析结果。

对于百度搜索的数据和智联招聘的页面数据是截然不同的方式,百度主要是动态的生成数据而在智联招聘上基本是静态的数据,所以这两个是具有一定的代表性的。

对于展示主要使用Excel,Excel作为SQLServer 数据分析中重要角色,易于操作使用。对于数据只有图形化后,就变的极有吸引力,所以本文档也主要是分析图表进行说明。

智联招聘完整信息抓取

 对于招聘网站的数据,以静态数据为主,并且结构良好,所以非常适合爬虫进行爬取,本次爬取了7000多个页面的数据,并存储在数据库22万条数据。
爬取的内容为6大类的职业信息: IT运维;IT质量管理;互联网开发;软件;系统集成;运营管理,其中可分为118个具体职业,样例数据如下:

而具体的抽取数据的数据项,包含15个数据项,数据样例如下:

 

通过抓取的数据构建SSAS多维数据集进行数据分析,对于构造的多维数据模型如下:
度量值为:工资上下限 ;维度有5个为:城市,工种类型,企业,任职要求,时间维度。

前期数据情况分析结果

 使用事件SSIS事件探测任务
通过SSIS“数据事件探查任务”组件进行对数据构成进行初步分析,这里列举一些具有一些代表性的分析数据: 工作地址;企业规模;企业类型;招聘要求 的分析结果(针对IT运维;IT质量管理;互联网开发;软件;系统集成;运营管理6大类的分析)
工作地点:排名前四位的北 上 深 广 ,即也反应这四地需求量最大

 

多维数据集分析结果

 

在构建好多维数据集后,即可进行使用excel进行分析。通过Excel连接到多维数据集后,进行简易的操作,达到数据图表联动,数据钻取,实现多维度结合分析,效果图如下

各不同工作类型间最低工资和最高工资的对比。构建完成多维分析集后,就可以进行构建相应的挖掘分析报告了:

 

分析结果展示

 对于分析的数据还是从智联招聘爬取的招聘数据

在成功的安装了SSRS报表系统,并安装完PowerBI报表发布器后,就可以进行对分析结果展示说明了。

由于是进行多维分析,所以更加个人的意愿进行各个角度的分析。

Excel链接多维数据集进行多维分析
  • 对广州市有对IT运维有需求的企业,从工种,城市,企业3个维度对招聘计算进行分析。

  • 将城市维度定位到 : 广州市

  • 将工种维度定位到 : it运维

  • 企业维度定位到 : 民营

可以得到以下的数据分析表,通过张开感兴趣的企业标签,可以发现在 企业规模为10000人以上的企业中有:广东美的制冷设备有限公司;品骏控股有限公司等有对IT运维的招聘需求。

对于得到的分析结果,直接就以Excel的文件形式作为分析报告文件即可。

数据挖掘分析

 在构建好的多维数据基础上进行数据挖掘分析,使用微软内置的多种挖掘算法(也是目前最常见,主流的分析算法)进行构挖掘模型,具体的说明查阅MSDN文档。

 

分析操作:

  • 对相应的算法有一定的理解

  • 查看MSDN文档,对输入,输出的要求选择,明确必要的数据格式

  • 本次分析通过招聘计算,招聘频率,和在web上索引位置进行类聚分析,意在那些打广告,培训机 构筛选出来,使用K-Means算法聚类数据。

得到的分析结果

得到的结果,最后聚类10类企业,最后分析得知分类10中包含了大量教育培训企业(如北大青鸟等), 特点是发布大量的 招聘信息,量大时间长,需求大。但也有其他企业也有这种行为(如阿里巴巴)针对这种情况需要具体分析。相关的分析图,可以保存处理,结合PPT制作分析报告使用。

针对PowerBI的报表数据

由于是全新的报表系统,所以操作上带来的更多的便利性,并且支持平板和手机上的查看报表。报表系统的界面web界面如下

 

移动报表设计器设计器界面如下,可同时进行平板和收集端的配置,但是需要注意一点就是数据格式,只要构建好样和样例Excel一样的数据格式就能轻松的构建报表。

由于已经已将报表制作好,那么久直接可以可以通过PC,平板,手机进行对报表访问(对于平板和收集需要安装一个APP,微软提供免费使用)

平板报表展示效果:

 

热门城市需求及薪资:北京各方面领先,前4名城市,北上深杭

 

各城市企业分布:北京依旧是大哥,针对各城市民营企业都是主力军,对于北京其国企招聘需求较大, 点击详细数据中,港澳台性质的企业在深圳和广州的招聘需求较大。

github  https://github.com/Shadow-Hunter-X/zhilian-data-mine

更多 https://blue-shadow.top/

posted @ 2019-03-08 18:31  blue-shadow  阅读(933)  评论(0编辑  收藏  举报