随笔分类 -  spark

摘要:一、Spark Streaming的介绍 1. 流处理 流式处理(Stream Processing)。流式处理就是指源源不断的数据流过系统时,系统能够不停地连续计算。所以流式处理没有什么严格的时间限制,数据从进入系统到出来结果可能是需要一段时间。然而流式处理唯一的限制是系统长期来看的输出速率应当快 阅读全文
posted @ 2018-02-25 16:49 erererer 阅读(434) 评论(0) 推荐(0)
摘要:相应的pom依赖文件 阅读全文
posted @ 2018-02-25 16:21 erererer 阅读(448) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-01-16 14:01 erererer 阅读(163) 评论(0) 推荐(0)
摘要:转载:https://www.iteblog.com/archives/1326.html 和基于Receiver接收数据不一样,这种方式定期地从Kafka的topic+partition中查询最新的偏移量,再根据定义的偏移量范围在每个batch里面处理数据。当作业需要处理的数据来临时,spark通 阅读全文
posted @ 2017-08-06 13:17 erererer 阅读(958) 评论(0) 推荐(0)
摘要:转载:https://www.iteblog.com/archives/1322.html Apache Kafka是一个分布式的消息发布-订阅系统。可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将会介绍两 阅读全文
posted @ 2017-08-06 13:12 erererer 阅读(836) 评论(0) 推荐(0)