摘要: 本文发表于2012年。提出了一种称为离散化数据流(Discretized Streams,D-Streams)的编程模型。该模型提供了一种高级函数式API,具有高度的一致性和强大的容错能力。基于Spark分布式计算框架,进行扩展实现了一个D-Stream的原型,称为Spark Streaming。 阅读全文
posted @ 2015-05-28 17:48 LionHeart_Grady 阅读(662) 评论(0) 推荐(0) 编辑
摘要: 《Spark: Cluster Computing with Working Sets》论文阅读笔记。本文发表于2010年, 早于同一作者2年后发表的《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》,介绍了基于RDD的分布式计算模型以及早期Spark的实现。 阅读全文
posted @ 2015-05-28 11:47 LionHeart_Grady 阅读(1532) 评论(0) 推荐(1) 编辑