摘要:
遇到的坑: 1、在爬取盗墓笔记-藏海花的时候,碰到数据爬取不到的现象,发现部分【藏海花】章节的网页结构和其他的不同,导致获取不到数据,改正后重新填充。 2、在xpath中,即使已经通过xpath筛选到对象;如果将此对象另外筛选,必须要在筛选条件之前加上[ . ] 代表的是当前节点下,否则默认的范围是 阅读全文
摘要:
如果爬虫爬取速度过快,很容易被反爬虫给禁掉IP,公司的网络,大部分的网络是一种动态分配的,对待这种情况 变化方案和设置IP代理,除了这点也要考虑网站门户的访问压力。 主要有效方案: 1、设置IP代理池。 2、adsl定时拨号()。设置爬虫的 ip代理: middlewares.py 上边只是简单的在 阅读全文