2020 年 9月 21 日随笔档案 - Christbao

2020年9月21日

摘要：架构选型首先在架构上，Flink 采用了经典的主从模式，DataFlow Graph 与 Storm 形成的拓扑 Topology 结构类似，Flink 程序启动后，会根据用户的代码处理成 Stream Graph，然后优化成为 JobGraph，JobManager 会根据 JobGraph 生阅读全文

posted @ 2020-09-21 13:54 Christbao 阅读(1647) 评论(0) 推荐(0) 编辑

四、Flink数据倾斜问题

摘要：一、数据倾斜 1、什么是数据倾斜？由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。数据倾斜原理目前我们所知道的大数据处理框架，比如 Flink、Spark、Hadoop 等之所以能处理高达千亿的数据，是因为这些框架都利用了分布式计算的思想，集群中多个计算节点并行，使得数据处理能力能阅读全文

posted @ 2020-09-21 13:37 Christbao 阅读(4493) 评论(0) 推荐(0) 编辑

三、Flink 窗口、时间和水印及Exactly-once 原理

摘要： Flink 框架中支持事件时间、摄入时间和处理时间三种。而当我们在流式计算环境中数据从 Source 产生，再到转换和输出，这个过程由于网络和反压的原因会导致消息乱序。因此，需要有一个机制来解决这个问题，这个特别的机制就是“水印”。 Flink 的窗口和时间根据窗口数据划分的不同，目前 Flink 阅读全文

posted @ 2020-09-21 11:37 Christbao 阅读(610) 评论(0) 推荐(0) 编辑

附录3：Flink 方案设计

摘要： 1：基于 Flink 的实时数据仓库是如何做的？我们要从 Flink 的优势开始入手，介绍基于 Flink 的实时数仓建设的关键技术选型和整体设计。传统的离线数据仓库将业务数据集中进行存储后，以固定的计算逻辑定时进行ETL和其他建模后产出报表等应用。离线数据仓库主要是构建 T+1 的离线数据，通阅读全文

posted @ 2020-09-21 11:26 Christbao 阅读(545) 评论(0) 推荐(0) 编辑

附录2：Flink进阶

摘要：进阶篇主要包含了 Flink 中的数据传输、容错机制、序列化、数据热点、反压等实际生产环境中遇到的问题等考察点。这一阶段主要考察我们对 Flink 掌握的深度，也是留下好印象的关键环节。 1：请谈谈你对 Flink Table & SQL 的了解情况？以及 TableEnvironment 这个类有阅读全文

posted @ 2020-09-21 11:18 Christbao 阅读(363) 评论(0) 推荐(0) 编辑

附录1：Flink 基础

摘要：罗列Flink基础相关的题。 1：请介绍一下 Flink。考察我们队 Flink 整体的掌握情况，我们应该从以下几个基本的概念入手。 Flink 是大数据领域的分布式实时和离线计算引擎，其程序的基础构建模块是流（Streams）和转换（Transformations），每一个数据流起始于一个或多个阅读全文

posted @ 2020-09-21 11:10 Christbao 阅读(193) 评论(0) 推荐(0) 编辑

Christbao

世界上最公平的是时间

公告