几个不错的数据加速工具
主要说明一些关于数据查询引擎、以及大数据加速的开源工具
alluxio
分布式虚拟机文件系统,可以用来加载数据访问,比较适合大数据,机器数据,数据湖查询。。。
juicefs
也是开源的基于golang 的对于对象存储的优化(当然也可以本地运行的,缺少分布式能力,需要一个元数据存储)
目前来说支持机器学习,以及大数据周边,运行起来相对轻量,但是元数据存储是一个大问题
rubix
对于列式以及对象存储的文件系统优化(presto 支持的不错,但是不好的是基本不活跃了)
阿里的jindofs
github 上说预计会开源,但是暂时还没看到源码
说明
现在越来越多的企业都在基于对象存储进行数据湖系统的简单,但是数据加速还是比较重要的,以上是简单列出了一些可选工具,后续有新的会完善的
参考资料
https://github.com/qubole/rubix
https://www.alluxio.io/
https://github.com/Alluxio/alluxio
https://juicefs.com/
https://github.com/juicedata/juicefs
https://github.com/aliyun/alibabacloud-jindodata