scrapy minio feed expoprts 配置简单说明
scrapy 对于解析的item 可以直接配置后端存储,可以直接配置不同的格式写入数据到存储中,以下是关于minio的简单说明
配置
核心是feed 以及backend 配置
- feed 配置
settings.py
# feed 配置
FEED_EXPORT_ENCODING = "utf-8"
FEEDS = {
# 支持配置格式化 name 是spider 名称,time 时间戳
"s3://mydemo/%(name)s/%(name)s_%(time)s.jsonl": {
"format": "jsonlines",
}
}
# s3 mino 配置
AWS_ACCESS_KEY_ID = "minio"
AWS_SECRET_ACCESS_KEY = "minio123"
AWS_REGION_NAME = "us-east-1"
AWS_ENDPOINT_URL = "http://localhost:9000"
参考效果
推荐名称上基于规则存放不同的minio path 这样有助于进行分析以及处理
- 效果
说明
使用好path 命名,后期结合dremio 或者其他分析工具可以很好的进行数据处理,如果数据比较规范化,dremio + s3 是一个很快速的玩法
参考资料
https://docs.scrapy.org/en/latest/topics/feed-exports.html#
https://docs.scrapy.org/en/latest/topics/feed-exports.html#s3
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2023-07-03 bpftune oracle linux 试用体验
2023-07-03 bpftune oracle 开源的基于bpf 的系统linux 系统优化工具
2022-07-03 cossacklabs acra 开源数据库安全套件
2022-07-03 delta lake 2.0 预览版发布
2022-07-03 hasura graphql-engine 二进制运行方法说明
2021-07-03 使用parquetjs 创建parquet 文件
2021-07-03 dremio 数据格式的一些说明