随笔分类 -  Flink

摘要:一、准备工作 安装jdk1.8及maven,jdk使用CDH安装包中自带的jdk的rpm包即可 安装完成后添加环境变量 [root@linux201 ~] vim /etc/profile.d/custom.sh 添加如下内容 # JAVA_HOME JAVA_HOME=/usr/java/jdk1 阅读全文
posted @ 2022-06-28 10:25 民宿 阅读(1390) 评论(1) 推荐(0) 编辑
摘要:1.概念 反压(backpressure)是流式计算中十分常见的问题。反压意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。由于实时计算应用通常使用消息队列来进行生产端和消费端的解耦,消费端数据源是 pull-based 的,所以反压通常是从某个节点传导至数据 阅读全文
posted @ 2021-11-23 17:12 民宿 阅读(1516) 评论(0) 推荐(1) 编辑
摘要:朋友问我一个问题: RichSinkFunction close只有任务结束时候才会去调用,但是数据库连接一直拿着,最后成了数据库连接超时了,有什么好的建议去处理吗? 解答: 使用连接池,每次使用的时候是从连接池获取连接,open 方法不是用来获取连接的而是初始化连接池,你应该在你的 invoke 阅读全文
posted @ 2021-11-13 16:59 民宿 阅读(1257) 评论(0) 推荐(0) 编辑
摘要:delete SourceRecord { sourcePartition={server=mysql_binlog_source}, sourceOffset={ts_sec=1634898017, file=master.000007, pos=982176634, row=1, server_ 阅读全文
posted @ 2021-10-27 14:49 民宿 阅读(739) 评论(1) 推荐(0) 编辑
摘要:为什么要管理状态 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,我们想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重 阅读全文
posted @ 2021-10-21 16:54 民宿 阅读(423) 评论(0) 推荐(0) 编辑
摘要:由于同步一些表报错,所以导致checkpoint不生效,本次错误是代码问题。 多线程sink多张表,如果一个失败,其他成功,checkpoint无法生效。 阅读全文
posted @ 2021-08-25 17:40 民宿 阅读(338) 评论(0) 推荐(0) 编辑
摘要:使用Flink版本1.10.1 启动命令 flink run -m yarn-cluster -yd -ynm DTSLauncher -yjm 1024m -ytm 2048m -yn 3 -ys 1 -c com.br.dts.stream.launcher.DTSLauncher /data/ 阅读全文
posted @ 2021-08-05 11:39 民宿 阅读(1645) 评论(0) 推荐(0) 编辑
摘要:./bin/flink run -m yarn-cluster ./examples/batch/WordCount.jar -d,--detached:设置在后台运行。 -yjm,--jobManagerMemory<arg>:设置 JobManager 的内存,单位是 MB。 -ytm,--ta 阅读全文
posted @ 2021-08-05 10:33 民宿 阅读(484) 评论(0) 推荐(0) 编辑
摘要:Savepoint 和 Checkpoint 都是使用 Asynchronous Barrier Snapshotting(简称 ABS)算法实现分布式快照的,都可以确保一致性、容错、故障恢复。何其相似乃尔,却又为何既生瑜,又生亮?是无心之举,还是有意为之? 什么是 Checkpoint? Flin 阅读全文
posted @ 2021-07-30 13:40 民宿 阅读(613) 评论(0) 推荐(1) 编辑
摘要:生产环境使用 Flink 遇到的 Checkpoint 相关故障后,整理输出,价值较高的 实战采坑记,本文会带你更深入的了解 Flink 实现增量 Checkpoint 的细节。 通过本文,你能 get 到以下知识: Flink Checkpoint 目录的清除策略 生产环境应该选择哪种清除策略 生 阅读全文
posted @ 2021-07-30 10:17 民宿 阅读(1437) 评论(1) 推荐(1) 编辑
摘要:说明:以下所有都基于Flink1.11版本 代码都精简过了 简单栗子 public class MysqlSinkExample { public static void main(String[] args) throws Exception { StreamExecutionEnvironmen 阅读全文
posted @ 2021-07-27 16:24 民宿 阅读(760) 评论(0) 推荐(1) 编辑
摘要:官网链接 https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/ops/deployment/hadoop.html 方法一: 方法二: 个人体验 在我配置了Hadoop_classpath之后,还是会显示 org.apach 阅读全文
posted @ 2021-07-26 15:07 民宿 阅读(156) 评论(0) 推荐(0) 编辑
摘要:Flink1.10.0编译hadoop2.7.2 编译flink-shaded-hadoop-2-uber 从Flink 1.11开始,flink-shaded-hadoop-2-uberFlink项目不再正式支持使用发行版。如果想建立flink-shaded对供应商特定的Hadoop版本,您必须首 阅读全文
posted @ 2021-07-26 14:36 民宿 阅读(467) 评论(0) 推荐(0) 编辑
摘要:StreamOperator是任务执行过程中实际处理类,上层由StreamTask调用,下层调用UserFunction,列举一些常见的StreamOperator env.addSource对应StreamSource dataStream.map 对应StreamMap dataStrem.wi 阅读全文
posted @ 2021-07-26 13:46 民宿 阅读(193) 评论(0) 推荐(0) 编辑
摘要:问:数据工程师最期望数据怎么来? 答:按顺序来。 MapReduce当初能用起来,就是因为Map阶段对所有数据都进行排序了,后面的Reduce阶段就可以直接用排序好的数据了。 批处理的时候因为数据已经落地了,咱可以慢慢排序。但是流式数据都是一条一条过来的,这个时候数据到达的时间和出发时的顺序不一致会 阅读全文
posted @ 2021-07-26 13:42 民宿 阅读(753) 评论(0) 推荐(0) 编辑
摘要:watermark的生成策略有两种:一种是周期性生成,另外一种是根据特定标记生成。在实际使用中大多数情况下会选择周期性生成方式也就是AssignerWithPeriodicWatermarks方式,使用方式如下: //指定为evenTime时间语义 env.setStreamTimeCharacte 阅读全文
posted @ 2021-07-26 13:35 民宿 阅读(241) 评论(0) 推荐(1) 编辑
摘要:在Flink中,EventTime即事件时间,能够反映事件在某个时间点发生的真实情况,即使在任务重跑情况也能够被还原,计算某一段时间内的数据,那么只需要将EventTime范围的数据聚合计算即可,但是数据在上报、传输过程中难免会发生数据延时,进而造成数据乱序,就需要考虑何时去触发这个计算,Flink 阅读全文
posted @ 2021-07-26 13:30 民宿 阅读(119) 评论(0) 推荐(0) 编辑
摘要:一、时间语义 Flink在流处理中提供了不同的时间语义支持,其中有两种核心的时间语义:ProcessingTime与EventTime。 ProcessingTime表示的是处理时间,在处理时间流处理中,所有涉及的时间计算都是以本地机器的时间为准,例如每5分钟的一个时间窗口操作,0-5分钟的窗口触发 阅读全文
posted @ 2021-07-26 13:27 民宿 阅读(302) 评论(0) 推荐(0) 编辑
摘要:checkpoint是保证Flink状态容错的重要机制,通过checkpoint可以实现不同的数据语义,也就是我们所说的Exactly-Once与At-Least-Once,通过不同的checkpoint机制实现不同的数据语义,这里所说的机制表示的是checkpoint对齐机制:对齐,实现Exact 阅读全文
posted @ 2021-07-26 13:22 民宿 阅读(200) 评论(0) 推荐(0) 编辑
摘要:无限数据流的统计问题 今天给大家分享一下Flink的Windows。Hive的窗口函数其实跟MySQL的差不多,因为他们都是基于离线数据的聚合。Flink的windows和Hive的窗口函数不完全一样。 离线数据处理好理解,数据已经落地在一张表里,咱可以通过partition by,按照某个字段进行 阅读全文
posted @ 2021-07-26 10:36 民宿 阅读(479) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示