kedro 创建模块化数据科学pipeline 的python 框

kedro 创建模块化数据科学pipeline 的python 框架

包含的特性

  • pipeline 可视化,基于了kedro-viz
  • data catalog 轻量级的data connenctors 可以方便数据的读取以及保存,扩展上也比较强大
  • 周边集成,可以方便的与apache airflow,spark,azure ml,docker ,kubeflow,pandans,mlfow 等集成
  • 项目模版,此工具属于 kedro 的一个最佳实践,有利于我们的工程化,里边包含了配置,数据,参数,安全,notebooks,pipeline code 等的玩法

说明

类似的也有metaflow,metaflow 在整体设计上更加全面,比如符合现代数据数据栈的一些玩法,当然kedro 的一些理念也是很不错的,比如data catalog,pipeline, 项目模块化都是很值得学习的

参考资料

https://docs.kedro.org/projects/kedro-datasets/en/kedro-datasets-4.1.0/
https://github.com/kedro-org/kedro
https://metaflow.org/
https://github.com/Netflix/metaflow

posted on 2024-09-19 08:00  荣锋亮  阅读(18)  评论(0编辑  收藏  举报

导航