2019 年 5月 9 日随笔档案 - 追风zz

2019年5月9日

摘要： # 如何提升scrapy爬取数据的效率? 推荐: 单线程加异步协程 # crawlSpider 是 Spider的一个子类 # 创建一个工程 LinkExtractor( allow=r'Items/'，# 满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。 deny=xxx, # 满足正阅读全文

posted @ 2019-05-09 23:42 追风zz 阅读(530) 评论(0) 推荐(0) 编辑

图片懒加载及其反爬机制

摘要： # 什么是图片懒加载? 图片懒加载概念：图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏阅读全文

posted @ 2019-05-09 21:40 追风zz 阅读(516) 评论(0) 推荐(0) 编辑

UA池代理IP池 scrapy的下载中间件

摘要： # 一些概念 # UA池代理IP池 scrapy的下载中间件 - 在scrapy中如何给所有的请求对象尽可能多的设置不一样的请求载体身份标识 - UA池，process_request(request) - 在scrapy中如何给发生异常的请求设置代理ip - ip池，process_except 阅读全文

posted @ 2019-05-09 09:15 追风zz 阅读(326) 评论(0) 推荐(0) 编辑

追风zz

我一路向北离开有你的季节

公告

追风zz

我一路向北 离开有你的季节

公告

我一路向北离开有你的季节