Flink的并发执行(Parallel Execution)

(一)Flink的并发执行

,一个Flink程序可以由不同的task(如:transformations/opterators,data sources及data sinks等)组成,一个task会分发到多个并发实例中运行,并且每个并发实例处理task的部分输入数据集。一个task的并发实例数叫做parallelism。

如果你想使用savepoints的话,你需要设置一个最大并发数,当你从savepoints中重新获取数据时,你可以改变并发数,但是新的并发数必须大于先前的并发数。这样的要求是由于Flink内部将state根据key-group分到不同的partition中,我们不能添加key-group的数量,因为这对性能不友好。(这句不知道怎么翻译好,算了,不翻译了!)

(二)设置Parallelism

task的parallelism可以在Flink的不同级别上指定:

1.算子(operator)级别

每个operator、data source或者data sink都可以通过调用setParallelism()方法来指定parallelism,例如:

复制代码
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

DataStream<String> text = [...]
DataStream<Tuple2<String, Integer>> wordCounts = text
    .flatMap(new LineSplitter())
    .keyBy(0)
    .timeWindow(Time.seconds(5))
    .sum(1).setParallelism(5);

wordCounts.print();

env.execute("Word Count Example");
复制代码

2.运行环境级别

正如此处所提醒的一样,Flink程序是在一个运行环境的上下文中运行的。一个运行环境为每个operator、data source和data sink的运行定义了一个默认的并发数。运行环境的并发数可以被每个算子确切的并发数配置所覆盖

运行环境的默认并发数可以通过调用setParallelism()方法来指定。为了让所有的operator、data source和data sink以3个并发数来运行,你可按如下方法来设置运行环境的默认并发数:

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(3);

DataStream<String> text = [...]
DataStream<Tuple2<String, Integer>> wordCounts = [...]
wordCounts.print();

env.execute("Word Count Example");

3.客户端级别

并发数可以在提交Job到Flink的客户端设置,客户端可以是Java或者Scala程序,典型的例子如:Flink的命令行接口(CLI).

对于CLI客户端,并发参数可以通过-p来指定,例如:

./bin/flink run -p 10 ../examples/*WordCount-java*.jar

在Java程序中,可以按如下方式指定:

复制代码
try {
    PackagedProgram program = new PackagedProgram(file, args)
    InetSocketAddress jobManagerAddress = RemoteExecutor.getInetFromHostport("localhost:6123")
    Configuration config = new Configuration()

    Client client = new Client(jobManagerAddress, new Configuration(), program.getUserCodeClassLoader())

    // 将并发度设为10
    client.run(program, 10, true)

} catch {
    case e: Exception => e.printStackTrace
}
复制代码

4.系统级别

影响所有运行环境的系统级别的默认并发度可以在./conf/flink-conf.yamlparallelism.defaul项中指定

5.设置最大并发度

最大并发度可以在你设置并发度的地方设置(除开客户端级别和系统级别外),你可以通过调用setMaxParallelism()方法来设置最大并发度。

默认的最大并发度大致为operatorParallelism + (parallelism/2) ,其中下限为127,上限为32768.

 

posted @   ImreW  阅读(251)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
点击右上角即可分享
微信分享提示