kedro 创建模块化数据科学pipeline 的python 框
kedro 创建模块化数据科学pipeline 的python 框架
包含的特性
- pipeline 可视化,基于了kedro-viz
- data catalog 轻量级的data connenctors 可以方便数据的读取以及保存,扩展上也比较强大
- 周边集成,可以方便的与apache airflow,spark,azure ml,docker ,kubeflow,pandans,mlfow 等集成
- 项目模版,此工具属于 kedro 的一个最佳实践,有利于我们的工程化,里边包含了配置,数据,参数,安全,notebooks,pipeline code 等的玩法
说明
类似的也有metaflow,metaflow 在整体设计上更加全面,比如符合现代数据数据栈的一些玩法,当然kedro 的一些理念也是很不错的,比如data catalog,pipeline, 项目模块化都是很值得学习的
参考资料
https://docs.kedro.org/projects/kedro-datasets/en/kedro-datasets-4.1.0/
https://github.com/kedro-org/kedro
https://metaflow.org/
https://github.com/Netflix/metaflow