2018 年 10月 30 日随笔档案 - 雨轩恋i

2018年10月30日

摘要：现在网站大部分都是反爬虫技术，最简单就是加代理，写了一个代理小程序。可以在自己的爬虫程序中加入这个程序，每次动态的使用代理，将爬虫程序伪装成浏览器，这样就不会被网站禁止了阅读全文

posted @ 2018-10-30 16:20 雨轩恋i 阅读(2819) 评论(3) 推荐(0) 编辑

摘要：在我们的项目中，单单分析一个51job网站的工作职位可能爬取结果不太理想，所以我又爬取了boss直聘网的工作，不过boss直聘的网站一次只能展示300个职位，所以我们一次也只能爬取300个职位。 jobbossspider.py: items.py pipelines输出管道: pipelinemy 阅读全文

posted @ 2018-10-30 16:15 雨轩恋i 阅读(3203) 评论(3) 推荐(0) 编辑

雨轩恋i

公告