随笔分类 - Flink
摘要: “伴随着实时化浪潮的发展和深化,Flink 已逐步演进为实时流处理的领军技术和事实标准。Flink 一方面持续优化其流计算核心能力,不断提高整个行业的流计算处理标准,另一方面沿着流批一体的思路逐步推进架构改造和应用场景落地,但是,随着计算流批统一的逐渐完善的同时,Flink存储的流批统一缺陷显得
阅读全文
摘要:目录 一、服务安装 3 1 安装包下载 3 2 服务安装 3 2.1 环境配置 3 2.2 节点配置 3 2.3 服务启动 4 2.4 服务访问 4 二 简单使用-flink 4 1 web端配置Interpreters 4 2 demo测试 5 三 简单实用-iceberg 6 1 配置flink
阅读全文
摘要:大数据技术发展到现阶段,逐渐出现了诸多的掣肘,不断有新的问题出现,仅仅就存储方面来讲,与数据库这样高度优化的技术相比,大数据技术的抽象和实现还是太原始和初级。这个时候,革命性的技术数据湖应运而生。
阅读全文
摘要:重启策略概念: Flink支持不同的重启策略,可以控制在发生故障时如何重启新启动作业。 重启策略分类: 重启策略重启策略值描述默认值 Fixed delay fixed-delay 尝试一个给定的次数来重启Job,如果超过了最大的重启次数,Job最终将失败。 启用 checkpointing,但没有
阅读全文
摘要:长久以来,在YARN集群中部署Flink作业有两种模式,即Session Mode和Per-Job Mode,而在Flink 1.11版本中,又引入了第三种全新的模式:Application Mode。本文先回顾两种传统模式的做法与存在的问题,再简要介绍Application Mode。 传统部署模
阅读全文
摘要:数据集广播,主要分为广播变量,广播维表(数据集)两种,一种为变量,一种为常量(抽象的说法); 一.数据广播背景 对于小变量,小数据集,需要和大数据集,大流进行联合计算的时候,往往把小数据集广播出去,整体直接和大数据集(流)的分布式最小粒度数据进行计算,最后把计算结果合并,这样效率更高,省去分布式节点
阅读全文
摘要:一、大数据框架三种语义 在分布式系统中,如kafka、spark、flink等构成系统的任何节点都是被定义为可以彼此独立失败的。比如在 Kafka 中,broker 可能会 crash,在 producer 推送数据至 topic 的过程中也可能会遇到网络问题。根据 producer 处理此
阅读全文