scrapy中的ImagePipeline下载图片到本地、并提取本地的保存地址

通过scrapy内置到ImagePipeline下载图片到本地

在settings中打开 ITEM_PIPELINES的注释，并在这里面加入

'scrapy.pipelines.images.ImagesPipeline':5,
   #后面的数字代表执行优先级 ，当执行pipeine的时候会按照数字由小到大执行

在settings中加入

IMAGES_URLS_FIELD ="image_url"  #image_url是在items.py中配置的网络爬取得图片地址
#配置保存本地的地址
project_dir=os.path.abspath(os.path.dirname(__file__))  #获取当前爬虫项目的绝对路径
IMAGES_STORE=os.path.join(project_dir,'images')  #组装新的图片路径
　还有很多设置有特殊需要的话可以用哦 （详情可以去imagepipeine源码查看）

   IMAGES_MIN_HEIGHT=100   #设定下载图片的最小高度

   IMAGES_MIN_WIDTH=100　　#设定下载图片的最小宽度

可能会报错：
```
ModuleNotFoundError: No module named 'PIL'
```
1. 这时候安装pip install pillow库就可以了

获取图片保存本地的地址

下载图片，如果想获取图片保存本地的地址，那么就需要重写ImagesPipeline，并且在settings中调用重写的pipeline

#既然要重写，记得提前引入
from scrapy.pipelines.images import ImagesPipeline

class ArticleImagePipeline(ImagesPipeline):
# 重载ImagePipeline中的item_completed方法，获取下载地址
def item_completed(self, results, item, info):

　 for ok,value in results:   #通过断点可以看到图片路径存在results内

　　　　image_file_path=value['path'] #将路径保存在item中返回

　　　　item['front_image_path']=image_file_path
　　return item

posted @ 2019-09-26 01:10 tulintao 阅读(964) 评论(0) 编辑收藏举报

刷新页面返回顶部

tulintao

scrapy中的ImagePipeline下载图片到本地、并提取本地的保存地址

公告