Flink UI 详解

1、主页

2、Running Jobs

2.1 Running Jobs Overview

2.1.1 Jobs Detail

通过点击plan图或者点击status就可以看到Task Detail了

Task Detail里面包括以下部分：
1、JobGraphNode包含的算子,JobGraph的DAG一个顶点就是JobManger的一个调度单位
2、一些参数信息：
2.1 Status：节点的执行状态
2.2 Task的个数：因为这里设置的并行度是1，所以这个节点的Task的个数就是1
2.3 Parallelism:1 设置的并行度是1
2.4 Records Sent：发送给下一个节点的Records，这个数目应该与下一个节点的Records Received参数的值相对应
2.5 Start Time
2.6 Bytes Received:因为这是一个source 节点所以这个值是0
2.7 End Time
2.8 Records Received
2.9 Duration
2.10 Bytes Sent

2.1.2 SubTask

2.1.3 TaskManagers

2.1.4 Watermarks

(写的逻辑里面没用Watermark，以后用到了再更新)

2.1.5 Accumulator

（不好意思~Accumulator也没用，下次用到了再更新，-_-!!!）

2.1.6 BackPressure

当DAG的某个过程的背压状态为 low 或者 high 时，则说明下游的处理速度不及上游的输出速度。也就是说下游的处理是整个任务的瓶颈所在，需要进行优化处理

2.1.7 metrics

这里可以选择自己想看的参数，metrics内容较多，后续持续学习更新

2.2 Running Jobs Exception

这个异常是因为把kafka的生产者停了，这里kafka消费策略为从最新的数据开始消费（后续会更kafka消费的博客）

2.3 TimeLine

2.4 Checkpoint

1、Checkpoint统计信息：
Triggered:440,表示自作业开始以来已触发的检查点总数为400
inProgress:0,当前进行中的检查点数量。
Completed:291,自作业开始以来成功完成的检查点总数。
Failed:149,自作业开始以来失败的检查点总数
Restored:3,自作业开始以来的还原操作数。这还告诉您自提交以来作业已重新启动多少次。注意，带有保存点的初始提交也算作还原，如果JobManager在操作过程中丢失，则该计数将重置。
2、Latest Completed Checkpoint
反映了最后完成的Checkpoint的信息，点击小+号可以看到相应Operator的详细信息
3、Latest Failed Checkpoint
反映了最后失败的Checkpoint的信息
4、Latest Savepoint
（不好意思_{这个也没用到}后续用到了再更）
5、latest Restore
这里有两种类型的还原操作：
* 1、从检查点还原：我们从定期的定期检查点还原
* 2、从保存点还原：我们从保存点还原。

2.4.2 History

检查点历史记录保留有关最近触发的检查点（包括当前正在进行的检查点）的统计信息

1、ID:触发的检查点的ID。每个检查点的ID从1开始递增。
2、Status:检查点的当前状态，为“进行中”，已完成或失败。
3、Acknowledged:表示有多少个 operators对这个 Checkpoint 进行了 ack，由图可以看出来共有两个operator对这个Checkpoint 进行了 ack，但是只有一个成功了
4、TriggerTime:在JobManager上触发检查点的时间
5、Latest Acknowledged:
6、End to End Duration:端到端持续时间，一个完整检查点的端到端持续时间由确认该检查点的最后一个子任务确定。此时间通常比实际检查点状态所需的单个子任务长。
7、State Size:状态大小
8、Buffered During Alignment:对齐期间所有已确认子任务缓冲的字节数。如果在检查点期间发生流对齐，则该值仅> 0。如果检查点模式为AT_LEAST_ONCE，这个值会一直为0，因为至少一次模式不需要流对齐
(PS：可以看到这些Checkpoint都失败了，失败的原因可以从后续的日志中看出来)
正常的Checkpoint（来自官网）：

2.4.3 Summary

摘要为端到端持续时间，状态大小和对齐期间缓冲的字节计算了所有已完成检查点的简单最小/平均/最大统计信息

2.4.4 Checkpoint

Checkpointing Mode:检查点模式,精确一次或至少一次
interval:间隔,配置的检查点间隔。在此间隔内触发检查点
Timeout:超时后，JobManager将取消检查点并触发新的检查点。
Minimum Pause Between Checkpoints:检查点之间的最小所需暂停。检查点成功完成后，我们至少要等待此时间，然后再触发下一个检查点，这可能会延迟常规间隔。
Maximum Concurrent Checkpoints:最大并发检查点数,可以同时进行的最大检查点数
Persist Checkpoints Externally:外部保留检查点,启用或禁用。如果启用，还将列出外部检查点的清除配置（删除或保留取消）。