摘要: Structured Streaming提供一些API来管理Streaming对象。用户可以通过这些API来手动管理已经启动的Streaming,保证在系统中的Streaming有序执行。 1. StreamingQuery 在调用DataStreamWriter方法的start启动Streamin 阅读全文
posted @ 2017-09-03 20:16 xiuneng 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 1. 结构 1.1 概述 Structured Streaming组件滑动窗口功能由三个参数决定其功能:窗口时间、滑动步长和触发时间. 窗口时间:是指确定数据操作的长度; 滑动步长:是指窗口每次向前移动的时间长度; 触发时间:是指Structured Streaming将数据写入外部DataStre 阅读全文
posted @ 2017-09-03 20:08 xiuneng 阅读(4635) 评论(0) 推荐(0) 编辑
摘要: Spark Structured streaming API支持的输出源有:Console、Memory、File和Foreach。其中Console在前两篇博文中已有详述,而Memory使用非常简单。本文着重介绍File和Foreach两种方式,并介绍如何在源码基本扩展新的输出方式。 1. Fil 阅读全文
posted @ 2017-09-03 19:58 xiuneng 阅读(4368) 评论(0) 推荐(0) 编辑
摘要: Spark Structured Streaming目前的2.1.0版本只支持输入源:File、kafka和socket。 1. Socket Socket方式是最简单的数据输入源,如Quick example所示的程序,就是使用的这种方式。用户只需要指定"socket"形式并配置监听的IP和Por 阅读全文
posted @ 2017-09-03 19:43 xiuneng 阅读(4752) 评论(0) 推荐(0) 编辑
摘要: Spark Struntured Streaming是Spark 2.1.0版本后新增加的流计算引擎,本博将通过几篇博文详细介绍这个框架。这篇是介绍Spark Structured Streaming的基本开发方法。以Spark 自带的example进行测试和介绍,其为"StructuredNetw 阅读全文
posted @ 2017-09-03 19:30 xiuneng 阅读(2108) 评论(0) 推荐(0) 编辑