06 2017 档案

spark streaming(2) DAG静态定义及DStream,DStreamGraph

摘要：DAG 中文名有向无环图。它不是spark独有技术。它是一种编程思想，甚至于hadoop阵营里也有运用DAG的技术，比如Tez，Oozie。有意思的是，Tez是从MapReduce的基础上深化而来的分布式计算框架。其核心思想是将Map和Reduce两个阶段分成更多的函数，各个函数之间可自由组合，形阅读全文

posted @ 2017-06-30 16:51 是奉壹呀阅读(1991) 评论(0) 推荐(0) 编辑

spark基本组件与概念

摘要：数据结构核心之数据集RDD 俗称为弹性分布式数据集。Resilient Distributed Datasets，意为容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来操作这些数据。 RDD的特点它是在集群节点上的不可变的、阅读全文

posted @ 2017-06-29 11:57 是奉壹呀阅读(7769) 评论(0) 推荐(0) 编辑

spark streaming集成kafka接收数据的方式

摘要：spark streaming是以batch的方式来消费，strom是准实时一条一条的消费。当然也可以使用trident和tick的方式来实现batch消费(官方叫做mini batch)。效率嘛，有待验证。不过这两种方式都是先把数据从kafka中读取出来，然后缓存在内存或者第三方，再定时处理。如果阅读全文

posted @ 2017-06-27 14:52 是奉壹呀阅读(3955) 评论(0) 推荐(0) 编辑

jstorm集成kafka

摘要：本人是spark的拥趸，因为工作中需要用到jstorm，作记录如下。 pom.xml <dependencies> <dependency> <groupId>com.alibaba.jstorm</groupId> <artifactId>jstorm-core</artifactId> <ver 阅读全文

posted @ 2017-06-15 18:22 是奉壹呀阅读(599) 评论(0) 推荐(0) 编辑

Structured streaming

摘要：Structured streaming是spark 2.0以后新增的用于实时处理的技术。与spark streaming不同的是，Structured streaming打开了数据源到数据落地之间的限制，它这两个端整合起来，形成真正的“流”，形成一张巨大的表。同时也正因为此特点，真正实现了exac 阅读全文

posted @ 2017-06-13 18:43 是奉壹呀阅读(1011) 评论(0) 推荐(0) 编辑

streaming窗口操作

摘要：之前一直对窗口操作不太理解。认为spark streaming本身已经是分片计算，还需要窗口操作干啥。窗口操作最为简单易懂的场景就是，在M时间间隔计算一次N时间内的热搜。当M=N的时候，就像上述所说，窗口操作本身没什么优势;但当在M!=N的时候，窗口计算优势就体现出来了。之前用storm的窗口计阅读全文

posted @ 2017-06-08 16:37 是奉壹呀阅读(434) 评论(0) 推荐(0) 编辑

公告

昵称：是奉壹呀
园龄： 11年1个月
粉丝： 52
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

我从二院来

苍茫之天涯，乃吾辈之所爱也；浩瀚之程序，亦吾之所爱也，然则何时而爱耶？必曰：先天下之忧而忧，后天下之爱而爱也！

06 2017 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论