随笔分类 -  Flink

摘要:原文链接:https://cloud.tencent.com/developer/article/2167527 【作者介绍】王磊,阿里云 MVP,华院计算技术总监。 著有:《图解 Spark 大数据快速分析实战》;《offer 来了:Java 面试核心知识点精讲(原理篇)》;《offer 来了:J 阅读全文
posted @ 2024-08-16 15:17 MrSponge 阅读(405) 评论(0) 推荐(0) 编辑
摘要:在Flink中,水位线可大致分为乱序流水位线和有序流水位线。实际开发中用的最多的就是乱序流水位线 在此之前,你已了解Flink在分布式环境下Watermark的传播方式 Flink官方提供的设置水位线的方法有Source之前和Source之后,这里主要介绍Source之后的方法 默认方法 通过ass 阅读全文
posted @ 2023-02-19 11:39 MrSponge 阅读(582) 评论(0) 推荐(0) 编辑
摘要:**Timeout of 60000ms expired before the position for partition tv_log-1 could be determined** 大概意思:消费kafka,在某个分区连接超时超时了60000ms 这个时候首先要检查:C:\Windows\Sy 阅读全文
posted @ 2023-01-22 13:27 MrSponge 阅读(5000) 评论(0) 推荐(0) 编辑
摘要:Flink CDC 1、CDC 简介 1.1 什么是CDC ​ CDC 是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库 的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录 下来,写入到消息中间件中以供其他服务进行订阅及消费。 阅读全文
posted @ 2023-01-15 15:12 MrSponge 阅读(1423) 评论(0) 推荐(0) 编辑
摘要:Flink安装部署 local本地模式-了解 原理 操作 1.下载安装包 https://archive.apache.org/dist/flink/ 2.上传flink-1.13.1-bin-scala_2.12.tgz到node1的指定目录 3.解压 tar -zxvf flink-1.13.1 阅读全文
posted @ 2023-01-09 15:50 MrSponge 阅读(691) 评论(0) 推荐(1) 编辑
摘要:State-理解原理即可 Flink中状态的自动管理 之前写的Flink代码中其实已经做好了状态自动管理,如 发送hello ,得出(hello,1) 再发送hello ,得出(hello,2) 说明Flink已经自动的将当前数据和历史状态/历史结果进行了聚合,做到了状态的自动管理 在实际开发中绝大 阅读全文
posted @ 2023-01-09 15:44 MrSponge 阅读(77) 评论(0) 推荐(0) 编辑
摘要:合流 1、概念 将不同流中的数据汇聚在一起,然后可以进行一个统计等相关操作。 2、基本合流操作 union和connect union算子可以合并多个同类型的数据流,并生成同类型的数据流,即可以将多个DataStream[T]合并为一个新的DataStream[T]。数据将按照先进先出(First 阅读全文
posted @ 2023-01-09 15:40 MrSponge 阅读(204) 评论(0) 推荐(0) 编辑
摘要:流处理说明 有边界的流bounded stream:批数据 无边界的流unbounded stream:真正的流数据 Source 基于集合 package com.pzb.source; import org.apache.flink.api.common.RuntimeExecutionMode 阅读全文
posted @ 2023-01-09 15:39 MrSponge 阅读(416) 评论(0) 推荐(0) 编辑
摘要:Sink 1. Sink输出 1.1 预定义Sink 1.1.1 基于控制台和文件的Sink API 1.ds.print 直接输出到控制台 2.ds.printToErr() 直接输出到控制台,用红色 3.ds.writeAsText("本地/HDFS的path",WriteMode.OVERWR 阅读全文
posted @ 2023-01-09 15:31 MrSponge 阅读(842) 评论(0) 推荐(0) 编辑
摘要:Time/Watermarker 时间分类 EventTime的重要性和Watermarker的引入 代码演示-开发版-掌握 https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/event_timestamps_water 阅读全文
posted @ 2023-01-09 15:25 MrSponge 阅读(95) 评论(0) 推荐(0) 编辑
摘要:流处理说明 Transformation 基本操作 map/flatMap/filter/keyBy/sum/reduce... 和之前学习的Scala/Spark里面的一样的意思 map方法、flatmap方法、keyBy方法、reduce方法 map方法 map:将函数作用在集合中的每一个元素上 阅读全文
posted @ 2023-01-09 15:18 MrSponge 阅读(104) 评论(0) 推荐(0) 编辑
摘要:Flink高级api 1. Flink四大基石 Flink之所以能这么流行,离不开它最重要的四个基石:Checkpoint、State、Time、Window。 1.1 Checkpoint 这是Flink最重要的一个特性。 Flink基于Chandy-Lamport算法实现了一个分布式的一致性的快 阅读全文
posted @ 2023-01-09 15:12 MrSponge 阅读(567) 评论(0) 推荐(0) 编辑
摘要:Process Flink 提供了 8 个不同的处理函数: (1) ProcessFunction 最基本的处理函数,基于DataStream 直接调用.process()时作为参数传入。 (2) KeyedProcessFunction 对流按键分区后的处理函数,基于 KeyedStream 调用 阅读全文
posted @ 2023-01-09 15:01 MrSponge 阅读(143) 评论(0) 推荐(0) 编辑
摘要:Flink TableAPI&SQL 学习至此结束(这是我根据B站尚硅谷教学视频自学的总结吧--能力有限) 阅读全文
posted @ 2022-12-12 09:32 MrSponge 阅读(468) 评论(1) 推荐(0) 编辑
摘要:Flink TableAPI和SQL的基本运用介绍 在Flink中,TableAPI 和 SQL 可以看作是一体的,TableAPI可以将环境中的数据转换成对应的一张表,或者将表里的转换输出到外部系统,然后可以执行SQL语句来进行一个查询和统计。 1、 快速上手 添加相关依赖: <dependenc 阅读全文
posted @ 2022-11-17 17:27 MrSponge 阅读(91) 评论(0) 推荐(0) 编辑
摘要:Process Flink 提供了 8 个不同的处理函数: (1) ProcessFunction 最基本的处理函数,基于DataStream 直接调用.process()时作为参数传入。 (2) KeyedProcessFunction 对流按键分区后的处理函数,基于 KeyedStream 调用 阅读全文
posted @ 2022-11-11 21:27 MrSponge 阅读(53) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示