python爬虫实战(九)--------拉勾网全站职位(CrawlSpider)

相关代码已经修改调试成功----2017-4-24

详情代码请移步我的github:https://github.com/pujinxiao/Lagou_spider

一、说明

1.目标网址拉勾网

2.实现内容:爬取相应的字段

数据表名  

3.思路

1.首先类似于 https://www.lagou.com/jobs/2182417.html 这样的链接是最终要的url。基本都是差不多,要变的就是那一串数字,编写正则表达式匹配就好。

2.除了首页还有其他地方也能找到这样的url,所以我先匹配职位分类的url 例如:https://www.lagou.com/zhaopin/Java/,在抓取最终的url。

3.scrapy会自动去重。

4.数据

二、运行

1.配置好相关数据库的信息,运行main.py函数即可

三、问题----欢迎留言提出问题

声明:此项目主要是学习CrawlSpider类,爬取全站的职位信息,熟悉Rule的一些用法。

1.你会发现爬取一小会儿,会被禁掉IP,要买代理IP才可行,免费的代理IP都不好用了,还有就是放慢抓取的速度。这样效果会更好。(解决)

欢迎有兴趣的小伙伴帮我优化,解决以上问题,之后我将合并你的代码,作为贡献者,共同成长。

编者邮箱:jinxiao_pu@163.com


如果本项目对你有用请给我一颗star,万分感谢。

详情代码请移步我的github:https://github.com/pujinxiao/Lagou_spider

作者:今孝 

出处:http://www.cnblogs.com/jinxiao-pu/p/6757145.html

本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接。

posted @ 2017-04-24 16:10  今孝  阅读(2855)  评论(2编辑  收藏  举报
//制作目录