摘要: 现在网站大部分都是反爬虫技术,最简单就是加代理,写了一个代理小程序。 可以在自己的爬虫程序中加入这个程序,每次动态的使用代理,将爬虫程序伪装成浏览器,这样就不会被网站禁止了 阅读全文
posted @ 2018-10-30 16:20 雨轩恋i 阅读(2813) 评论(3) 推荐(0) 编辑
摘要: 在我们的项目中,单单分析一个51job网站的工作职位可能爬取结果不太理想,所以我又爬取了boss直聘网的工作,不过boss直聘的网站一次只能展示300个职位,所以我们一次也只能爬取300个职位。 jobbossspider.py: items.py pipelines输出管道: pipelinemy 阅读全文
posted @ 2018-10-30 16:15 雨轩恋i 阅读(3124) 评论(3) 推荐(0) 编辑