几个不错的数据加速工具

主要说明一些关于数据查询引擎、以及大数据加速的开源工具

alluxio

分布式虚拟机文件系统,可以用来加载数据访问,比较适合大数据,机器数据,数据湖查询。。。

juicefs

也是开源的基于golang 的对于对象存储的优化(当然也可以本地运行的,缺少分布式能力,需要一个元数据存储)
目前来说支持机器学习,以及大数据周边,运行起来相对轻量,但是元数据存储是一个大问题

rubix

对于列式以及对象存储的文件系统优化(presto 支持的不错,但是不好的是基本不活跃了)

阿里的jindofs

github 上说预计会开源,但是暂时还没看到源码

说明

现在越来越多的企业都在基于对象存储进行数据湖系统的简单,但是数据加速还是比较重要的,以上是简单列出了一些可选工具,后续有新的会完善的

参考资料

https://github.com/qubole/rubix
https://www.alluxio.io/
https://github.com/Alluxio/alluxio
https://juicefs.com/
https://github.com/juicedata/juicefs
https://github.com/aliyun/alibabacloud-jindodata

posted on 2022-06-11 19:50  荣锋亮  阅读(359)  评论(0编辑  收藏  举报

导航