摘要: 架构选型 首先在架构上,Flink 采用了经典的主从模式,DataFlow Graph 与 Storm 形成的拓扑 Topology 结构类似,Flink 程序启动后,会根据用户的代码处理成 Stream Graph,然后优化成为 JobGraph,JobManager 会根据 JobGraph 生 阅读全文
posted @ 2020-09-21 13:54 Christbao 阅读(1647) 评论(0) 推荐(0) 编辑
摘要: 一、数据倾斜 1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。 数据倾斜原理 目前我们所知道的大数据处理框架,比如 Flink、Spark、Hadoop 等之所以能处理高达千亿的数据,是因为这些框架都利用了分布式计算的思想,集群中多个计算节点并行,使得数据处理能力能 阅读全文
posted @ 2020-09-21 13:37 Christbao 阅读(4493) 评论(0) 推荐(0) 编辑
摘要: Flink 框架中支持事件时间、摄入时间和处理时间三种。而当我们在流式计算环境中数据从 Source 产生,再到转换和输出,这个过程由于网络和反压的原因会导致消息乱序。因此,需要有一个机制来解决这个问题,这个特别的机制就是“水印”。 Flink 的窗口和时间 根据窗口数据划分的不同,目前 Flink 阅读全文
posted @ 2020-09-21 11:37 Christbao 阅读(610) 评论(0) 推荐(0) 编辑
摘要: 1:基于 Flink 的实时数据仓库是如何做的? 我们要从 Flink 的优势开始入手,介绍基于 Flink 的实时数仓建设的关键技术选型和整体设计。 传统的离线数据仓库将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL和其他建模后产出报表等应用。离线数据仓库主要是构建 T+1 的离线数据,通 阅读全文
posted @ 2020-09-21 11:26 Christbao 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 进阶篇主要包含了 Flink 中的数据传输、容错机制、序列化、数据热点、反压等实际生产环境中遇到的问题等考察点。这一阶段主要考察我们对 Flink 掌握的深度,也是留下好印象的关键环节。 1:请谈谈你对 Flink Table & SQL 的了解情况?以及 TableEnvironment 这个类有 阅读全文
posted @ 2020-09-21 11:18 Christbao 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 罗列Flink基础相关的题。 1:请介绍一下 Flink。 考察我们队 Flink 整体的掌握情况,我们应该从以下几个基本的概念入手。 Flink 是大数据领域的分布式实时和离线计算引擎,其程序的基础构建模块是流(Streams)和转换(Transformations),每一个数据流起始于一个或多个 阅读全文
posted @ 2020-09-21 11:10 Christbao 阅读(193) 评论(0) 推荐(0) 编辑