摘要: 前言 Flink 是流式的、实时的 计算引擎 上面一句话就有两个概念,一个是流式,一个是实时。 流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行,所以这里面就有一个问题,边界怎么确定? 无非就两种方式,根据时间段或者数据量进行确定,根据时间段就是每隔 阅读全文
posted @ 2021-05-28 16:49 温家三哥 阅读(337) 评论(0) 推荐(0) 编辑
摘要: Flink可靠性的基石-checkpoint机制详细解析 Checkpoint介绍 checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 证应用流图状态的一致性。Flink的ch 阅读全文
posted @ 2021-05-28 16:06 温家三哥 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 理论 HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮助 使用语法如下: EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|AN 阅读全文
posted @ 2021-05-28 15:51 温家三哥 阅读(806) 评论(0) 推荐(0) 编辑
摘要: hive语句执行顺序 msyql语句执行顺序 代码写的顺序: select ... from... where.... group by... having... order by.. 或者 from ... select ... 代码的执行顺序: from... where...group by. 阅读全文
posted @ 2021-05-28 15:30 温家三哥 阅读(602) 评论(0) 推荐(0) 编辑
摘要: hive执行计划解析 Hive wiki - LanguageManual Explain 1.hive执行流程的重要性 1)当sql任务非常慢时,就需要分析它的执行流程2)常见的面试中,问对hive的理解?回答只是写sql,这个是很片面的。要从表面的sql,在脑海中映射出MR流程,在哪儿进行map 阅读全文
posted @ 2021-05-28 14:44 温家三哥 阅读(1582) 评论(0) 推荐(0) 编辑