scrapy minio feed expoprts 配置简单说明

scrapy 对于解析的item 可以直接配置后端存储,可以直接配置不同的格式写入数据到存储中,以下是关于minio的简单说明

配置

核心是feed 以及backend 配置

  • feed 配置

settings.py

# feed 配置
FEED_EXPORT_ENCODING = "utf-8"
FEEDS = {
   # 支持配置格式化 name 是spider 名称,time 时间戳
    "s3://mydemo/%(name)s/%(name)s_%(time)s.jsonl": {
    "format": "jsonlines",
    }
}
# s3 mino 配置
AWS_ACCESS_KEY_ID = "minio"
AWS_SECRET_ACCESS_KEY = "minio123"
AWS_REGION_NAME = "us-east-1"
AWS_ENDPOINT_URL = "http://localhost:9000"

参考效果

推荐名称上基于规则存放不同的minio path 这样有助于进行分析以及处理

  • 效果

说明

使用好path 命名,后期结合dremio 或者其他分析工具可以很好的进行数据处理,如果数据比较规范化,dremio + s3 是一个很快速的玩法

参考资料

https://docs.scrapy.org/en/latest/topics/feed-exports.html#
https://docs.scrapy.org/en/latest/topics/feed-exports.html#s3

posted on   荣锋亮  阅读(15)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2023-07-03 bpftune oracle linux 试用体验
2023-07-03 bpftune oracle 开源的基于bpf 的系统linux 系统优化工具
2022-07-03 cossacklabs acra 开源数据库安全套件
2022-07-03 delta lake 2.0 预览版发布
2022-07-03 hasura graphql-engine 二进制运行方法说明
2021-07-03 使用parquetjs 创建parquet 文件
2021-07-03 dremio 数据格式的一些说明

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示