2023年10月1日

modin pandas 大规模数据处理方案

摘要: modin 是一个可以快速替换原生pandas 的方案,我们只需要替换一个简单的引用,就可以将pandas 的数据处理速度有很大的提升modin 支持与不少框架的集成(ray, dask,unidisk),目前modin 对于常用read 操作都有很不错的支持,参考图 参考架构 如下图,可以看出mo 阅读全文

posted @ 2023-10-01 21:57 荣锋亮 阅读(53) 评论(0) 推荐(0) 编辑

aws awswrangler 集成minio 简单试用

摘要: aws awswrangler 现在已经改名为aws-sdk-pandas,但是对于python 使用的时候安装已经是使用awswrangler 名称 以下是一个简单的集成 minio 的测试,核心是配置环境变量,这个也比较符合aws 对于相关资源的集成玩法 环境准备 docker-compose 阅读全文

posted @ 2023-10-01 21:34 荣锋亮 阅读(64) 评论(0) 推荐(0) 编辑

pandas 加载minio 文件数据

摘要: 就是一个简单记录,基于s3 进行文件存储还是比较方便的 环境准备 docker-compose.yaml version: '3' services: minio: image: minio/minio ports: - "9002:9000" - "19001:19001" environment 阅读全文

posted @ 2023-10-01 09:03 荣锋亮 阅读(100) 评论(0) 推荐(0) 编辑

导航