scrapy minio feed expoprts 配置简单说明

scrapy 对于解析的item 可以直接配置后端存储,可以直接配置不同的格式写入数据到存储中,以下是关于minio的简单说明

配置

核心是feed 以及backend 配置

  • feed 配置

settings.py

# feed 配置
FEED_EXPORT_ENCODING = "utf-8"
FEEDS = {
   # 支持配置格式化 name 是spider 名称,time 时间戳
    "s3://mydemo/%(name)s/%(name)s_%(time)s.jsonl": {
    "format": "jsonlines",
    }
}
# s3 mino 配置
AWS_ACCESS_KEY_ID = "minio"
AWS_SECRET_ACCESS_KEY = "minio123"
AWS_REGION_NAME = "us-east-1"
AWS_ENDPOINT_URL = "http://localhost:9000"

参考效果

推荐名称上基于规则存放不同的minio path 这样有助于进行分析以及处理

  • 效果

说明

使用好path 命名,后期结合dremio 或者其他分析工具可以很好的进行数据处理,如果数据比较规范化,dremio + s3 是一个很快速的玩法

参考资料

https://docs.scrapy.org/en/latest/topics/feed-exports.html#
https://docs.scrapy.org/en/latest/topics/feed-exports.html#s3

posted on 2024-07-03 08:00  荣锋亮  阅读(4)  评论(0编辑  收藏  举报

导航