Flink-v1.12官方网站翻译-P015-Glossary

术语表

 

 

 

Flink应用集群是一个专用的Flink集群,它只执行一个Flink应用的Flink作业。Flink集群的寿命与Flink应用的寿命绑定。

 

 

Flink Job Cluster是一个专用的Flink Cluster,它只执行一个Flink Job。Flink Cluster的寿命与Flink Job的寿命绑定。

 

 

一个分布式系统由(通常)一个JobManager和一个或多个Flink TaskManager进程组成。

 

Event

事件是关于应用程序所模拟的域的状态变化的声明。事件可以是流或批处理应用程序的输入和/或输出。事件是特殊类型的记录。

 

ExecutionGraph

 

see Physical Graph

 

Function

函数由用户实现,封装了Flink程序的应用逻辑。大多数Functions都由相应的Operator封装。

 

Instance

术语instance用于描述运行时特定类型(通常是Operator或Function)的具体实例。由于Apache Flink大部分是用Java编写的,所以对应于Java中的Instance或Object的定义。在Apache Flink的上下文中,并行实例这个术语也经常被用来强调同一个Operator或Function类型的多个实例在并行运行。

 

 

Flink应用程序是一个Java应用程序,它从main()方法(或通过其他方式)提交一个或多个Flink作业。提交作业通常是通过调用执行环境上的execute()来完成的。

应用程序的作业可以提交到一个长期运行的Flink会话集群,也可以提交到一个专门的Flink应用集群,或者提交到一个Flink作业集群。

 

Flink Job是指在Flink应用中通过调用execute()来创建和提交的逻辑图(也常称为数据流图)的运行时表示。

 

JobGraph

see Logical Graph

 

 

JobManager是Flink集群的协调器。它包含了三个不同的组件:Flink资源管理器、Flink调度器和每个运行的Flink JobMaster。Flink资源管理器、Flink调度器和每个运行中的Flink JobMaster。

 

 

JobMasters是运行在JobManager中的组件之一。一个JobMaster负责监督单个作业的Tasks的执行情况。

 

Logical Graph

 

逻辑图是一个有向图,其中节点是操作符,边缘定义了操作符的输入/输出关系,并对应数据流或数据集。逻辑图是通过从Flink应用程序提交作业来创建的。

逻辑图也常被称为数据流图。

 

Managed State

 

Managed State描述的是已经在框架中注册的应用状态。对于托管状态,Apache Flink将负责处理持久性和重新缩放等问题。

 

Operator

逻辑图的节点。操作符执行某种操作,通常由Function执行。源和汇是数据摄入和数据输出的特殊操作符。

 

Operator Chain

 

一个操作者链由两个或多个连续的操作者组成,中间没有任何重新分区。同一操作者链内的操作者直接相互转发记录,而不需要经过序列化或Flink的网络栈。

 

Partition

分区是整个数据流或数据集的一个独立子集。通过将每条记录分配到一个或多个分区,将数据流或数据集划分为多个分区。数据流或数据集的分区在运行时由任务消耗。改变数据流或数据集分区方式的转换通常称为重新分区。

 

Physical Graph

 

物理图是翻译逻辑图的结果,以便在分布式运行时执行。节点是任务,边缘表示输入/输出关系或数据流或数据集的分区。

 

Record

记录是数据集或数据流的组成元素。操作符和函数接收记录作为输入,并发出记录作为输出。

 

(Runtime) Execution Mode

 

DataStream API程序可以在两种执行模式中的一种执行:BATCH或STREAMING。BATCH 或 STREAMING。请参阅执行模式了解更多详情。

 

 

一个长期运行的Flink Cluster,它接受多个Flink Job的执行。该Flink Cluster的寿命不受任何Flink Job寿命的约束。以前,Flink Session Cluster也被称为会话模式下的Flink Cluster。与Flink Application Cluster比较。

 

State Backend

 

对于流处理程序来说,Flink Job的状态后端决定了它的状态如何存储在每个TaskManager上(TaskManager的Java堆或(嵌入式)RocksDB),以及它在检查点时的写入位置(JobManager的Java堆或Filesystem)。

 

Sub-Task

 

子任务是指负责处理数据流的一个分区的任务。术语 "子任务 "强调同一操作员或操作员链有多个并行的Task。

 

Task

物理图的节点。任务是工作的基本单位,由Flink的运行时执行。任务正好封装了一个操作者或操作者链的一个并行实例。

 

 

任务管理器是Flink集群的工作进程。任务被安排给TaskManagers执行。它们相互通信,在后续的Task之间交换数据。

 

Transformation

变换应用于一个或多个数据流或数据集,并产生一个或多个输出数据流或数据集。变换可能会在每条记录的基础上改变数据流或数据集,但也可能只改变其分区或执行聚合。操作符和函数是Flink的API的 "物理 "部分,而变换只是一个API概念。具体来说,大多数变换是由某些Operator实现的。

 

 

posted @ 2020-12-28 23:42  田野与天  阅读(118)  评论(0编辑  收藏  举报