modin pandas 大规模数据处理方案
modin 是一个可以快速替换原生pandas 的方案,我们只需要替换一个简单的引用,就可以将pandas 的数据处理速度有很大的提升
modin 支持与不少框架的集成(ray, dask,unidisk),目前modin 对于常用read 操作都有很不错的支持,参考图
参考架构
如下图,可以看出modin 的扩展能力还是很强大的
说明
对于需要进行数据处理(比如机器学习场景modin 是一个很不错的工具)
参考资料
https://github.com/modin-project/modin
http://modin.readthedocs.io/
https://modin.readthedocs.io/en/latest/getting_started/why_modin/why_modin.html
https://modin.readthedocs.io/en/latest/getting_started/why_modin/modin_vs_dask_vs_koalas.html