随笔档案「2019年6月」 - leffss

scrapy主要防止封IP策略

摘要：scrapy如果抓取太频繁了，就被被封IP，目前有以下主要策略保证不会被封：策略1：设置download_delay下载延迟，数字设置为5秒，越大越安全策略2：禁止Cookie，某些网站会通过Cookie识别用户身份，禁用后使得服务器无法识别爬虫轨迹策略3：使用user agent池。也就是每阅读全文

posted @ 2019-06-11 13:22 leffss 阅读(1495) 评论(0) 推荐(0)

scrapy-redis + Bloom Filter分布式爬取tencent社招信息

摘要：scrapy-redis + Bloom Filter分布式爬取tencent社招信息什么是scrapy-redis 什么是 Bloom Filter 为什么需要使用scrapy-redis + Bloom Filter 目标任务安装爬虫创建爬虫编写 items.py 编写 spiders/ 阅读全文

posted @ 2019-06-11 13:18 leffss 阅读(659) 评论(0) 推荐(0)

scrapy-redis分布式爬取tencent社招信息

摘要：scrapy-redis分布式爬取tencent社招信息什么是scrapy-redis 目标任务安装爬虫创建爬虫编写 items.py 编写 spiders/tencent.py 编写 pipelines.py 编写 middlewares.py 编写 settings.py 搭建 redi 阅读全文

posted @ 2019-06-11 13:12 leffss 阅读(341) 评论(0) 推荐(0)

scrapy爬取cnblogs文章列表

摘要：scrapy爬取cnblogs文章目标任务安装爬虫创建爬虫编写 items.py 编写 spiders/cnblogs.py 编写 pipelines.py 编写 settings.py 运行爬虫 scrapy爬取cnblogs文章目标任务安装爬虫创建爬虫编写 items.py 编写阅读全文

posted @ 2019-06-11 13:07 leffss 阅读(809) 评论(0) 推荐(0)

leffss

06 2019 档案

公告