摘要: Spark Streaming支持实时数据流的可扩展(scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。 架构图 特性如下: 可线性伸缩至超过数百个节点; 实现亚秒级延迟处理; 可与Spark批处理和交互 阅读全文
posted @ 2020-06-24 11:56 萨姆大叔 阅读(611) 评论(0) 推荐(0) 编辑
摘要: 一、编程环境 以下为Mac系统上单机版Spark练习编程环境的配置方法。 注意:仅配置练习环境无需安装Hadoop,无需安装Scala。 1,安装Java8 注意避免安装其它版本的jdk,否则会有不兼容问题。 https://www.oracle.com/technetwork/java/javas 阅读全文
posted @ 2020-06-24 11:10 萨姆大叔 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 一、Spark优势特点 作为大数据计算框架MapReduce的几人者,Spark具备一下优势特性。 1 高效性 不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。 阅读全文
posted @ 2020-06-24 09:56 萨姆大叔 阅读(577) 评论(0) 推荐(0) 编辑