sunny123456

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  1796 随笔 :: 22 文章 :: 24 评论 :: 226万 阅读
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

flink状态编程

简单记录一下最近工作中常用的flink状态

flink中可以创建不同类型的状态,如键控状态(Keyed State)和操作符状态(Operator State)等。状态管理是在流处理的整个过程中保持状态的一种能力,它让我们能够在复杂的事件处理和流转换中保留重要的状态信息,例如:聚合结果、过滤条件、模型参数等。 
 
在flink中,状态具有三个基本特征:可见性(Visibility)、共享性(Shareability)、容错性(Fault Tolerance)。因为在分布式环境中,可能需要对状态进行备份,以实现容错性,所以在状态编程中需要考虑状态的共享性,即该状态是否应该被多个任务共享。同时,还需要考虑状态的可见性,即应该让哪个任务可以访问该状态。 
 
下面是一个键控状态的示例,用于统计每个键(key)出现的次数:

DataStream<Tuple2<String, Integer>> keyedStream = ...;
 
DataStream<Tuple2<String, Integer>> resultStream = keyedStream
    .keyBy(0)
    .flatMap(new CountFunction());
 
public class CountFunction extends RichFlatMapFunction<Tuple2<String, Integer>, Tuple2<String, Integer>> {
    private transient ValueState<Integer> count;
 
    public void flatMap(Tuple2<String, Integer> input, Collector<Tuple2<String, Integer>> out) throws Exception {
        Integer currentCount = count.value();
        if (currentCount == null) {
            currentCount = 0;
        }
        currentCount++;
        count.update(currentCount);
        out.collect(new Tuple2<>(input.f0, currentCount));
    }
 
    public void open(Configuration config) {
        ValueStateDescriptor<Integer> descriptor = new ValueStateDescriptor<>("count", IntSerializer.INSTANCE);
        count = getRuntimeContext().getState(descriptor);
    }
}

在此示例中,我们创建了一个键控流( keyedStream ),并使用 keyBy() 方法按键(key)分组。然后,我们定义了一个 flatMap() 函数,它能够在键控流中为每个键计数。 RichFlatMapFunction 类使我们能够在函数内部维护状态。我们定义了一个 ValueState 变量( count ),它将在函数执行时存储每个键的计数。在 flatMap() 函数中,我们使用 count.value() 方法获取当前计数,并将计数递增。最后,在更新计数后,我们将键和当前计数作为元组发送到输出流中。在 open() 方法中,我们使用 ValueStateDescriptor 类定义了 count 变量的状态描述符,即该状态的名称和数据类型。  getRuntimeContext().getState(descriptor) 方法创建了一个键控状态变量,并返回其实例。

下面是一个基于这段代码的更具体的实例: 
假设我们有一个数据流,其中包含了一系列订单,每个订单中包含了订单编号和订单金额。我们需要统计每个订单编号出现的次数,并计算每个订单编号的平均订单金额。 
 首先,我们需要使用flink的流处理API创建一个数据流( DataStream ),其中包含了订单数据。然后,我们需要使用 keyBy() 方法按照订单编号进行分组,以便进行订单计数和平均金额的统计。接下来,我们定义一个状态变量( count 和 sum ),并在 open() 方法中为状态变量创建一个状态描述符( ValueStateDescriptor )。在 flatMap() 方法中,我们获取当前订单编号的计数和订单金额总额,通过更新状态变量来累加订单数和总金额,最后计算平均金额,并将订单编号、订单数和平均金额作为一个新的元素添加到结果流中。

DataStream<Tuple2<String, Double>> orders = ...;
 
DataStream<Tuple3<String, Integer, Double>> stats = orders
    .keyBy(0)
    .flatMap(new OrderStats());
 
public class OrderStats extends RichFlatMapFunction<Tuple2<String, Double>, Tuple3<String, Integer, Double>> {
 
    private transient ValueState<Tuple2<Integer, Double>> state;
 
    public void flatMap(Tuple2<String, Double> input, Collector<Tuple3<String, Integer, Double>> out) throws Exception {
        Tuple2<Integer, Double> current = state.value();
        if (current == null) {
            current = new Tuple2<>(0, 0.0);
        }
        current.f0++;
        current.f1 += input.f1;
        state.update(current);
        double avg = current.f1 / current.f0;
        out.collect(new Tuple3<>(input.f0, current.f0, avg));
    }
 
    public void open(Configuration config) {
        ValueStateDescriptor<Tuple2<Integer, Double>> descriptor = new ValueStateDescriptor<>("orderStats",
                TypeInformation.of(new TypeHint<Tuple2<Integer, Double>>() {
                }));
        state = getRuntimeContext().getState(descriptor);
    }
}

首先,创建了一个包含订单数据的数据流( orders ),其中每个元素都是一个包含订单编号和订单金额的元组。然后,我们使用 keyBy() 方法按照订单编号进行分组,并将其传递给一个自定义的 OrderStats 函数。在 OrderStats 函数中,我们定义了一个键控状态变量( state ),用来维护每个订单编号的订单数和总金额。在 flatMap() 方法中,我们从状态中获取当前订单编号的订单数和总金额,并根据新的订单金额更新状态。然后,我们计算平均金额并将订单编号、订单数和平均金额作为一个新的元素添加到结果流中。在 open() 方法中,我们定义了一个 ValueStateDescriptor 来描述状态变量,并使用 getRuntimeContext().getState(descriptor) 方法获取状态实例。 
 当代码运行时,它会根据订单编号进行分组,并计算每个订单编号的订单数和总金额。然后,它会将统计信息作为元组添加到结果流中,这样我们就可以判断每个订单编号的数量和平均金额了。

希望这个简单的实例能对大家有帮助!

原文链接:https://blog.csdn.net/weixin_52542476/article/details/130427150
posted on   sunny123456  阅读(44)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示