Alluxio及其典型应用场景
一、简介
Alluxio号称是世界上第一个内存级虚拟分布式存储系统,是计算与存储间的桥梁。
二、典型应用场景
1. 计算层需要反复访问远程(比如在云端,或跨机房)的数据;
2. 计算层需要同时访问多个独立的持久化数据源(比如同时访问S3和HDFS中的数据);
3. 多个独立的大数据应用(比如不同的Spark Job)需要高速有效的共享数据;
4. 当计算层有着较为严重的内存资源、以及JVM GC压力,或者较高的任务失败率时,Alluxio作为输入输出数据的Off heap存储可以极大缓解这一压力,并使计算消耗的时间和资源更可控可预测。
百度之所以应用Alluxio成功了,因为它符合第一个场景,百度查询的痛点是:
由于数据分散分布在多个数据中心,有很大的可能是:数据的查询需要到达远程数据中心以提取数据——这应该是在用户运行查询时遇到延迟的最大原因。
三、其他
Alluixo利用的是堆内内存,如果不符合典型场景,用起来就是鸡肋!
Ignite是堆外内存,真正加速任务