摘要: 概述 Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以以静态数据表示批量计算的方式来表达 streaming computation (流式计算)。 Spark S 阅读全文
posted @ 2018-06-30 13:46 aidodoo 阅读(628) 评论(0) 推荐(0) 编辑
摘要: 基础概念 Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如 map, reduce, joi 阅读全文
posted @ 2018-06-30 12:36 aidodoo 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 简介 Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 阅读全文
posted @ 2018-06-30 12:18 aidodoo 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 详解spark常用rdd 阅读全文
posted @ 2018-06-30 10:43 aidodoo 阅读(260) 评论(0) 推荐(0) 编辑