2018 年 10月 17 日随笔档案 - 可能是小林吧

2018年10月17日

Scrapy突破反爬虫的限制

摘要： 7-1 爬虫和反爬的对抗过程以及策略基本概念爬虫：自动获取网站数据的程序，关键是批量的获取反爬虫：使用技术手段防止爬虫程序的方法误伤：反爬技术将普通用户识别为爬虫，如果误伤过高，效果再好也不能用一般ip地址禁止是不太可能被使用的成本：反爬虫需要的人力和机器成本拦截：成功拦截爬虫，一般拦截率越高，误伤阅读全文

posted @ 2018-10-17 21:17 可能是小林吧阅读(326) 评论(0) 推荐(0) 编辑

通过CrawlSpider对招聘网站进行整站爬取（拉勾网实战）

摘要：爬虫首先要明确自己要爬取的网站以及内容进入拉勾网的网站然后看看想要爬取什么内容职位，薪资，城市，经验要求学历要求，全职或者兼职职位诱惑，职位描述提取公司的名称以及在拉勾网的url等等然后在navicat中设计表我是在数据库article_spider中设计的表lagou_job 然后进入a 阅读全文

posted @ 2018-10-17 11:36 可能是小林吧阅读(1160) 评论(0) 推荐(0) 编辑

Scrapy突破反爬虫的限制

通过CrawlSpider对招聘网站进行整站爬取（拉勾网实战）

导航

公告