scrapy minio feed expoprts 配置简单说明
scrapy 对于解析的item 可以直接配置后端存储,可以直接配置不同的格式写入数据到存储中,以下是关于minio的简单说明
配置
核心是feed 以及backend 配置
- feed 配置
settings.py
# feed 配置
FEED_EXPORT_ENCODING = "utf-8"
FEEDS = {
# 支持配置格式化 name 是spider 名称,time 时间戳
"s3://mydemo/%(name)s/%(name)s_%(time)s.jsonl": {
"format": "jsonlines",
}
}
# s3 mino 配置
AWS_ACCESS_KEY_ID = "minio"
AWS_SECRET_ACCESS_KEY = "minio123"
AWS_REGION_NAME = "us-east-1"
AWS_ENDPOINT_URL = "http://localhost:9000"
参考效果
推荐名称上基于规则存放不同的minio path 这样有助于进行分析以及处理
- 效果
说明
使用好path 命名,后期结合dremio 或者其他分析工具可以很好的进行数据处理,如果数据比较规范化,dremio + s3 是一个很快速的玩法
参考资料
https://docs.scrapy.org/en/latest/topics/feed-exports.html#
https://docs.scrapy.org/en/latest/topics/feed-exports.html#s3