摘要: # 如何提升scrapy爬取数据的效率? 推荐: 单线程加异步协程 # crawlSpider 是 Spider的一个子类 # 创建一个工程 LinkExtractor( allow=r'Items/',# 满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。 deny=xxx, # 满足正 阅读全文
posted @ 2019-05-09 23:42 追风zz 阅读(530) 评论(0) 推荐(0) 编辑
摘要: # 什么是图片懒加载? 图片懒加载概念: 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏 阅读全文
posted @ 2019-05-09 21:40 追风zz 阅读(516) 评论(0) 推荐(0) 编辑
摘要: # 一些概念 # UA池 代理IP池 scrapy的下载中间件 - 在scrapy中如何给所有的请求对象尽可能多的设置不一样的请求载体身份标识 - UA池,process_request(request) - 在scrapy中如何给发生异常的请求设置代理ip - ip池,process_except 阅读全文
posted @ 2019-05-09 09:15 追风zz 阅读(326) 评论(0) 推荐(0) 编辑