摘要:
本文发表于2012年。提出了一种称为离散化数据流(Discretized Streams,D-Streams)的编程模型。该模型提供了一种高级函数式API,具有高度的一致性和强大的容错能力。基于Spark分布式计算框架,进行扩展实现了一个D-Stream的原型,称为Spark Streaming。 阅读全文
摘要:
《Spark: Cluster Computing with Working Sets》论文阅读笔记。本文发表于2010年, 早于同一作者2年后发表的《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》,介绍了基于RDD的分布式计算模型以及早期Spark的实现。 阅读全文