2017 年 11月 20 日随笔档案 - 人微言轻1

2017年11月20日

摘要： import redis r = redis.Redis(host='58.221.49.23',password='123456',port=6379) for i in r.lrange('yhd:info_urls',0,745): r.lpush('yhd:info_urls_back',i) 阅读全文

posted @ 2017-11-20 17:55 人微言轻1 阅读(1842) 评论(0) 推荐(0) 编辑

爬虫的一些个人想法

摘要：针对scrapy框架： 1. 不需要不整个网站一次性抓取下来，因为在抓取的过程中很有可能被ban，所有根据网站的层次结构，一层一层进行抓取。这样就算爬虫被ban也可以把上一层的url保存在数据库中,以便下次使用阅读全文

posted @ 2017-11-20 15:33 人微言轻1 阅读(160) 评论(0) 推荐(0) 编辑

分布式爬虫

摘要： 1. 爬去首页 2. 爬去URL列表 3. 爬去商品详细信息阅读全文

posted @ 2017-11-20 13:28 人微言轻1 阅读(182) 评论(0) 推荐(0) 编辑

人贱言轻

公告