kedro 创建模块化数据科学pipeline 的python 框

kedro 创建模块化数据科学pipeline 的python 框架

包含的特性

  • pipeline 可视化,基于了kedro-viz
  • data catalog 轻量级的data connenctors 可以方便数据的读取以及保存,扩展上也比较强大
  • 周边集成,可以方便的与apache airflow,spark,azure ml,docker ,kubeflow,pandans,mlfow 等集成
  • 项目模版,此工具属于 kedro 的一个最佳实践,有利于我们的工程化,里边包含了配置,数据,参数,安全,notebooks,pipeline code 等的玩法

说明

类似的也有metaflow,metaflow 在整体设计上更加全面,比如符合现代数据数据栈的一些玩法,当然kedro 的一些理念也是很不错的,比如data catalog,pipeline, 项目模块化都是很值得学习的

参考资料

https://docs.kedro.org/projects/kedro-datasets/en/kedro-datasets-4.1.0/
https://github.com/kedro-org/kedro
https://metaflow.org/
https://github.com/Netflix/metaflow

posted on   荣锋亮  阅读(26)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2023-09-19 cloudpickle pickle 扩展包
2023-09-19 feast 开源feature store
2023-09-19 embeddedkafka 方便测试的基于内存的kafka 实现
2023-09-19 tus java client 使用以及问题说明
2023-09-19 tus-node-server 官方基于node 实现的tus server 1.0 发布
2022-09-19 使用 victoriametrics vmagent 解决 coroot prometheus 大量存储以及push 问题
2022-09-19 coroot 简单试用

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示