随笔分类 -  Flink

摘要:所有的数据处理工具都面临数据高可靠、高可用的问题,一旦服务发生问题,如何保证数据不会丢失? 高可靠解决方案 MySQL用BinLog来解决这个问题,它把每一步事务操作都记录下来,一旦发生问题,可以追踪binlog找到每一步的操作记录。MySQL还会提供快照、备份的功能。 HDFS通过多副本和ZooK 阅读全文
posted @ 2021-07-26 10:31 民宿 阅读(355) 评论(0) 推荐(0) 编辑
摘要:Flink运行时的组件 Flink运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管理器(ResourceManager)、任务管理器(TaskManager),以及分发器(Dispatcher)。因为Flink是用Java和Scala 阅读全文
posted @ 2021-07-23 13:50 民宿 阅读(354) 评论(0) 推荐(0) 编辑
摘要:一、问题: 启动flink项目失败,日志异常:java.lang.OutOfMemoryError: unable to create new native thread 二、解决办法: 1、 关于这个问题,一开始猜想是因消息队列(activemq)引起的,因为处理数据较多,开启的线程数较多导致,因 阅读全文
posted @ 2021-07-22 20:19 民宿 阅读(911) 评论(0) 推荐(0) 编辑
摘要:概述 默认:Flink保证并行度与kafka partition一对一详解(一) 当Flink并行度与分区不一致? 原理 采用取模运算;平衡 kafka partition与并行度关系。 取模运算原理见取模运算理解 计算公式 kafkaPartition mod 并行度总数 = 分配到并行度中的pa 阅读全文
posted @ 2021-07-22 15:34 民宿 阅读(674) 评论(0) 推荐(0) 编辑
摘要:我们都知道flink 连接kafka时,默认是一个partition对应一个thread,它究竟是怎么实现的呢?以及到我们自己定义 RichParallelSourceFunction 的时候如何借鉴这部分代码呢? 我们一起来看一下(基于flink-1.8) 看过flink kafka连接器源码的同 阅读全文
posted @ 2021-07-22 15:25 民宿 阅读(1610) 评论(0) 推荐(0) 编辑
摘要:Flink 提供了专门的 Kafka 连接器,向 Kafka topic 中读取或者写入数据。Flink Kafka Consumer 集成了 Flink 的 Checkpoint 机制,可提供 exactly-once 的处理语义。为此,Flink 并不完全依赖于跟踪 Kafka 消费组的偏移量, 阅读全文
posted @ 2021-07-22 15:16 民宿 阅读(929) 评论(0) 推荐(0) 编辑
摘要:TaskManger与Slots Flink中每一个worker(TaskManager)都是一个JVM进程,它可能会在独立的线程上执行一个或多个subtask。为了控制一个worker能接收多少个task,worker通过task slot来进行控制(一个worker至少有一个task slot) 阅读全文
posted @ 2021-07-22 14:49 民宿 阅读(7896) 评论(0) 推荐(4) 编辑
摘要:结论:生产环境推荐使用yarn方式部署 使用standalone遇到的问题 1) 同一个standalone cluster中的job相互抢占资源,而standalone cluster的模式仅仅只能通过task slot在task manager的堆内内存上做到资源隔离。同时由于前文提到过的Fli 阅读全文
posted @ 2021-07-22 10:56 民宿 阅读(1850) 评论(0) 推荐(0) 编辑
摘要:1 Flink 应用程序启动 ./bin/flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 -c streaming.SoetWindowWordCountJavaCheckPoint(入口类) /usr/local/install/testJa 阅读全文
posted @ 2021-07-19 18:11 民宿 阅读(2792) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示