摘要:
Apache Spark的主要功能之一就是在集群内存中持久/缓存RDD。这加速了迭代计算。 阅读全文
摘要:
apache spark的核心概念是弹性分布式数据集(RDD)。它是一个不可变的分布式数据集合,它在集群中的机器之间进行分区。它有助于两种类型的操作:转换和动作。转换是在RDD上产生另一个RDD的操作,如filter(),map()或union()。触发计算的Anactionisanoperationsuchascount(),first(),take(n)或collect()返回一个值返回给Master,或写入稳定的存储系统。转型被懒惰地评估,因为直到行动保证才能运行。Spark Master / Driver记住应用于RDD的转换,所以如果一个分区丢失(比如从机失效),该分区可以很容易地在集群中的其他机器上重构。这就是为什么叫“弹性”。 阅读全文
摘要:
Spark引擎提供了一种在一组机器上分布式内存中处理数据的方法。 阅读全文
摘要:
Hbase单机安装部署 阅读全文