2017 年 4月 28 日随笔档案 - 天之涯0204

2017年4月28日

摘要： print():打印DStream中的前10行数据 saveAsTextFiles(prefix, [suffix])：保存成文本文件到prefix指定的目录下，后缀为suffix saveAsObjectFiles(prefix, [suffix]) ：保存DStream数据为 SequenceF 阅读全文

posted @ 2017-04-28 17:41 天之涯0204 阅读(186) 评论(0) 推荐(0) 编辑

Window Operations详解

摘要： window(windowLength, slideInterval)：返回窗口长度为windowLength，每隔slideInterval滑动一次的window DStream countByWindow(windowLength, slideInterval)：返回窗口中元素的个数 reduc 阅读全文

posted @ 2017-04-28 15:18 天之涯0204 阅读(959) 评论(0) 推荐(0) 编辑

Window Operations

摘要： Window Operations 有点类似于Storm中的State，可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态,可以对一段时间的数据进行处理。如图window length 为3秒sliding interval 为2秒batch interval of th 阅读全文

posted @ 2017-04-28 11:42 天之涯0204 阅读(249) 评论(0) 推荐(0) 编辑

Spark Streaming Transformations

摘要： map(func)：对DStream中的所有的元素进行func转换生成新的DStream flatMap(func)：和map方法类似，先对DStream中的元素进行func运算，然后压平，就是说，如果有一个元素是集合或者数组，那么会被拆成一个一个的元素 filter(func)：对DStream中阅读全文

posted @ 2017-04-28 11:28 天之涯0204 阅读(153) 评论(0) 推荐(0) 编辑

Spark Streaming 单词计数

摘要： Receiver 从数据源接收数据，然后把数据存储在内存中供spark streaming使用，在本地运行spark streaming不能设置master为local或者local[1]，此时运行的线程只有一个，因为需要一个线程去运行Receiver接收数据，因此，就没有线程去处理数据了代码使阅读全文

posted @ 2017-04-28 10:11 天之涯0204 阅读(411) 评论(0) 推荐(0) 编辑

Spark Streaming

摘要： Spark Streaming Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、Zero 阅读全文

posted @ 2017-04-28 09:21 天之涯0204 阅读(174) 评论(0) 推荐(0) 编辑

公告