摘要: 上文我介绍了用.Net实现的拉勾爬虫,可全站采集,其中.Net和C#(不区分)的数据爬取开始的早,全国主要城市都有一定数量的分布,加上有了近期其他相似技术类别的数据进行横向比较,可以得到比较合理的推测。数据源从xml映射到excel中,生成透视图,excel文档已上传到百度云盘,下载链接放在文末。时 阅读全文
posted @ 2016-12-13 22:06 怀川 阅读(1345) 评论(1) 推荐(2) 编辑
摘要: 前几天看到一个.NET Core写成的爬虫,有些莫名的小兴奋,之前一直用集搜客去爬拉勾网的招聘信息,这个傻瓜化工具相当于用HTML模板页去标记DOM节点,然后在浏览器窗口上模拟人的浏览行为同时跟踪节点信息。它有很多好处,但缺点也明显:抓取速度慢;数据清洗和转储麻烦;只知其过程,不知其原理,网站改了模 阅读全文
posted @ 2016-12-13 22:00 怀川 阅读(1304) 评论(8) 推荐(2) 编辑