spark - 随笔分类 - erererer

SparkStreaming流处理

摘要：一、Spark Streaming的介绍 1. 流处理流式处理(Stream Processing)。流式处理就是指源源不断的数据流过系统时，系统能够不停地连续计算。所以流式处理没有什么严格的时间限制，数据从进入系统到出来结果可能是需要一段时间。然而流式处理唯一的限制是系统长期来看的输出速率应当快阅读全文

posted @ 2018-02-25 16:49 erererer 阅读(463) 评论(0) 推荐(0)

sparkSQL脚本更改问题

摘要：相应的pom依赖文件阅读全文

posted @ 2018-02-25 16:21 erererer 阅读(459) 评论(0) 推荐(0)

sparksql遇到的问题

摘要：阅读全文

posted @ 2018-01-16 14:01 erererer 阅读(176) 评论(0) 推荐(0)

spark streaming 整合kafka(二)

摘要：转载：https://www.iteblog.com/archives/1326.html 和基于Receiver接收数据不一样，这种方式定期地从Kafka的topic+partition中查询最新的偏移量，再根据定义的偏移量范围在每个batch里面处理数据。当作业需要处理的数据来临时，spark通阅读全文

posted @ 2017-08-06 13:17 erererer 阅读(965) 评论(0) 推荐(0)

spark streaming 整合 kafka(一)

摘要：转载：https://www.iteblog.com/archives/1322.html Apache Kafka是一个分布式的消息发布-订阅系统。可以说，任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据，这里将会介绍两阅读全文

posted @ 2017-08-06 13:12 erererer 阅读(865) 评论(0) 推荐(0)

erererer

随笔分类 - spark

公告