摘要: 一、RDD(弹性分布式数据集) RDD 是 Spark 最核心的数据结构,RDD(Resilient Distributed Dataset)全称为弹性分布式数据集,是 Spark 对数据的核心抽象,也是最关键的抽象,它实质上是一组分布式的 JVM 不可变对象集合,不可变决定了它是只读的,所以 RD 阅读全文
posted @ 2020-05-02 13:19 abc十号 阅读(1228) 评论(0) 推荐(0) 编辑
摘要: 代码地址:https://gitee.com/xiexiandong/abc_bigdata.git 一、窗口函数 在定义了窗口分配器之后,我们需要为每一个窗口明确的指定计算逻辑,这个就是窗口函数要做的事情,当系统决定一个窗口已经准备好执行之后,这个窗口函数将被用 来处理窗口中的每一个元素(可能是分 阅读全文
posted @ 2020-04-27 21:26 abc十号 阅读(791) 评论(0) 推荐(0) 编辑
摘要: 一、flink架构 1.1、集群模型和角色 如上图所示:当 Flink 集群启动后,首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager,JobManager 再调度任务到各个 TaskManager 去执行,然后 TaskM 阅读全文
posted @ 2020-04-23 21:36 abc十号 阅读(1311) 评论(0) 推荐(0) 编辑