2017 年 12月 1 日随笔档案 - LeeeetMe

2017年12月1日

摘要：遇到的坑： 1、在爬取盗墓笔记-藏海花的时候，碰到数据爬取不到的现象，发现部分【藏海花】章节的网页结构和其他的不同，导致获取不到数据，改正后重新填充。 2、在xpath中，即使已经通过xpath筛选到对象；如果将此对象另外筛选，必须要在筛选条件之前加上[ . ] 代表的是当前节点下，否则默认的范围是阅读全文

posted @ 2017-12-01 00:26 LeeeetMe 阅读(223) 评论(0) 推荐(0) 编辑

Scrapy IP代理池

摘要：如果爬虫爬取速度过快，很容易被反爬虫给禁掉IP，公司的网络，大部分的网络是一种动态分配的，对待这种情况变化方案和设置IP代理，除了这点也要考虑网站门户的访问压力。主要有效方案： 1、设置IP代理池。 2、adsl定时拨号()。设置爬虫的 ip代理： middlewares.py 上边只是简单的在阅读全文

posted @ 2017-12-01 00:24 LeeeetMe 阅读(407) 评论(0) 推荐(0) 编辑

公告