摘要: 1.什么是结构化流. 结构化流(Structured Streaming),是一种基于Spark-SQL引擎构建的,可容错的,可扩展的流处理引擎. 它以微批量计算的形式来表达流式计算,随着流式数据持续到达,它能持续的进行处理并更新最终计算结果. 它使用Spark-SQL带来的丰富的API,来表示流聚 阅读全文
posted @ 2018-07-05 23:53 NightPxy 阅读(910) 评论(0) 推荐(0) 编辑
摘要: 1.自定义弱类型UDAF 1.1 弱类型UDAF定义 弱类型UDAF继承实现 UserDefinedAggregateFunction 抽象类 override def inputSchema: StructType = 输入schema override def bufferSchema: Str 阅读全文
posted @ 2018-07-05 16:41 NightPxy 阅读(431) 评论(0) 推荐(0) 编辑
摘要: 7. 数据源 Spark-SQL 支持通过Dataframe接口对各种数据源进行操作 各种数据源的加载&保存 数据转换(relational transformations) 注册临时视图(temporary view),来允许SQL的形式直接对临时视图进行操作 7.1 数据源加载 Spark-SQ 阅读全文
posted @ 2018-07-05 00:13 NightPxy 阅读(2720) 评论(0) 推荐(0) 编辑