摘要: 1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不 阅读全文
posted @ 2017-02-06 18:01 大数据从业者FelixZh 阅读(3699) 评论(0) 推荐(0) 编辑
摘要: 当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件: 1、输入的数据来自可靠的数据源和可靠的接收器; 2、应用程序的metadata被application的driver持久化了(ch 阅读全文
posted @ 2017-02-06 17:45 大数据从业者FelixZh 阅读(4382) 评论(1) 推荐(1) 编辑