2022年10月18日

Flink-UDF

摘要: Flink 的 Table API 和 SQL 提供了多种自定义函数的接口,以抽象类的形式定义。当前 UDF主要有以下几类: 标量函数(Scalar Functions):将输入的标量值转换成一个新的标量值; 表函数(Table Functions):将标量值转换成一个或多个新的行数据,也就是扩展成 阅读全文

posted @ 2022-10-18 22:33 嘣嘣嚓 阅读(965) 评论(0) 推荐(0) 编辑

2022年10月17日

Flink-基于Table的窗口、聚合操作

摘要: 我们知道,窗口可以将无界流切割成大小有限的“桶”(bucket)来做计算,通过截取有限数据集来处理无限的流数据。在 DataStream API 中提供了对不同类型的窗口进行定义和处理的接口,而在 Table API 和 SQL 中,类似的功能也都可以实现。 1.窗口 1.1分组窗口(Group W 阅读全文

posted @ 2022-10-17 15:31 嘣嘣嚓 阅读(1662) 评论(0) 推荐(0) 编辑

2022年10月11日

Flink-基于Table设置事件属性

摘要: 基于时间的操作(比如时间窗口),需要定义相关的时间语义和时间数据来源的信息。在Table API 和 SQL 中,会给表单独提供一个逻辑上的时间字段,专门用来在表处理程序中指示时间。 所以所谓的时间属性(time attributes),其实就是每个表模式结构(schema)的一部分。它可以在创建表 阅读全文

posted @ 2022-10-11 14:30 嘣嘣嚓 阅读(295) 评论(0) 推荐(0) 编辑

2022年10月8日

Flink-动态表和持续查询

摘要: 在 Flink 中使用表和 SQL基本上跟其他场景是一样的;不过对于表和流的转换,却稍显复杂。当我们将一个 Table 转换成 DataStream 时,有“仅插入流”(Insert-Only Streams)和“更新日志流”(Changelog Streams)两种不同的方式,具体使用哪种方式取决 阅读全文

posted @ 2022-10-08 21:45 嘣嘣嚓 阅读(900) 评论(0) 推荐(0) 编辑

2022年9月29日

Flink-Table API(概念、基础操作、流表转换)

摘要: 在 Flink 提供的多层级 API 中,核心是 DataStream API,这是我们开发流处理应用的基本途径;底层则是所谓的处理函数(process function),可以访问事件的时间信息、注册定时器、自定义状态,进行有状态的流处理。DataStream API 和处理函数比较通用,有了这些 阅读全文

posted @ 2022-09-29 22:46 嘣嘣嚓 阅读(3358) 评论(1) 推荐(1) 编辑

2022年9月21日

Flink-状态一致性(如何保证exactly-once、flink+kafka端到端保证exactly-once)

摘要: 当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是"正确性级别"的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多正确?举例来说,假设要对最近一小时登录的用户计数。在系统经历故障之后,计数结果是多少?如果有偏差,是有漏掉的计数还 阅读全文

posted @ 2022-09-21 00:00 嘣嘣嚓 阅读(1178) 评论(0) 推荐(0) 编辑

2022年9月20日

Flink-State Backends(状态后端)

摘要: 状态后端(State Backends) 每传入一条数据,有状态的算子任务都会读取和更新状态 由于有效的状态访问对于处理数据的低延迟至关重要,因此每个并行任务都会在本地维护其状态,以确保快速的状态访问 状态的存储、访问以及维护,由一个可插入的组件决定,这个组件就叫做状态后端(state backen 阅读全文

posted @ 2022-09-20 23:55 嘣嘣嚓 阅读(170) 评论(0) 推荐(0) 编辑

Flink-checkpoint配置及重启策略

摘要: Flink-checkpoint配置及重启策略 val env = StreamExecutionEnvironment.getExecutionEnvironment env.setParallelism(1) // checkpoint配置 env.enableCheckpointing(100 阅读全文

posted @ 2022-09-20 21:20 嘣嘣嚓 阅读(1103) 评论(0) 推荐(0) 编辑

2022年9月8日

Flink-容错机制-检查点原理和算法

摘要: 一、一致性检查点(Checkpoints) Flink故障恢复机制的核心,就是应用状态的一致性检查点 有状态流应用的一致性检查点,其实就是所有任务的状态,在某个时间点的一份拷贝(一份快照);这个时间点,应该是所有任务都恰好处理完一个相同的输入数据的时候 二、从检查点恢复状态 在执行流应用程序期间,F 阅读全文

posted @ 2022-09-08 22:54 嘣嘣嚓 阅读(187) 评论(0) 推荐(0) 编辑

2022年9月6日

Flink-ProcessFunction

摘要: 我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。例如 MapFunction 这样的 map 转换算子就无法访问时间戳或者当前事件的事件时间。 基于此,DataStream API 提供了一系列的 Low-Level 转换算子。可以访问时间戳、wate 阅读全文

posted @ 2022-09-06 22:56 嘣嘣嚓 阅读(93) 评论(0) 推荐(0) 编辑

导航