Flink - 随笔分类 - 大数据从业者FelixZh

flink 项目打包成jar包使用java -jar运行异常

摘要：java -jar错误信息如下： Exception in thread "main" com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:flinkdemo-1.0-SNAPSH 阅读全文

posted @ 2022-11-04 21:45 大数据从业者FelixZh 阅读(430) 评论(0) 推荐(0) 编辑

Flink SQL UNNEST/UDTF 如何实现列转行?

摘要：在 SQL 任务里面经常会遇到一列转多行的需求,今天就来总结一下在 Flink SQL 里面如何实现列转行的,先来看下面的一个具体案例. 需求：原始数据格式如下 name data JasonLee [{"content_type":"flink","url":"111"},{"content_t 阅读全文

posted @ 2022-11-01 09:17 大数据从业者FelixZh 阅读(3575) 评论(0) 推荐(0) 编辑

Apache Flink 流计算基准测试框架

摘要：每一种引擎有其优势的地方，如何选择适合自己业务的流计算引擎成了一个由来已久的话题。除了比较各个引擎提供的不同的功能矩阵之外，性能是一个无法绕开的评估因素。基准测试（benchmark）就是用来评估系统性能的一个重要和常见的过程。 01 背景随着数据时效性对企业的精细化运营越来越重要，“实时即未来” 阅读全文

posted @ 2022-10-29 19:37 大数据从业者FelixZh 阅读(747) 评论(0) 推荐(0) 编辑

Flink性能测试case案例

摘要：在我们做测试之前，调研了一些已有的大数据平台性能测试报告，比如，雅虎的Streaming-benchmarks，或者Intel的HiBench等等。除此之外，还有很多的论文也从不同的角度对分布式计算平台进行了测试。虽然这些测试case各有不同的侧重点，但他们都用到了同样的两个指标，即吞吐和延迟。吞吐阅读全文

posted @ 2022-10-29 19:25 大数据从业者FelixZh 阅读(1260) 评论(0) 推荐(0) 编辑

一种Hudi on Flink动态同步元数据变化的方法

摘要：一、背景一个需求，需要同步MySQL数据到Hive，包括DDL与DML，所以需要动态同步元数据变化。二、官方Schema Evolution例子从Hudi官方文档Schema Evolution(https://hudi.apache.org/docs/next/schema_evolutio 阅读全文

posted @ 2022-09-29 10:33 大数据从业者FelixZh 阅读(1170) 评论(0) 推荐(0) 编辑

Caused by: com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:/home/FlinkIdeaDemo-1.0.jar!/reference.conf: 875: Could not resolve substitution to a value:

摘要：Caused by: com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:/home/FlinkIdeaDemo-1.0.jar!/reference.conf: 875: Cou 阅读全文

posted @ 2022-06-24 16:26 大数据从业者FelixZh 阅读(491) 评论(0) 推荐(0) 编辑

Flink KeyBy分布不均匀问题及解决方法

摘要：问题现象当Key数量较少时，Flink流执行KeyBy()，并且设置的并行度setParallelism()不唯一时，会出现分到不同task上的key数量不均匀的情况，即：某些subtask没有分到数据，但是某些subtask分到了较多的key对应的数据 Key数量较大时，不容易出现这类不均匀的阅读全文

posted @ 2022-06-01 22:39 大数据从业者FelixZh 阅读(3773) 评论(0) 推荐(1) 编辑

Apache Flink - is it possible to evenly distribute slot sharing groups?

摘要：We have a pipeline with operations, split into 2 workloads - Source -> Transform are in a first group and are CPU-intensive workloads, they are put in 阅读全文

posted @ 2022-04-19 11:14 大数据从业者FelixZh 阅读(399) 评论(0) 推荐(0) 编辑

Apache Hudi核心概念一网打尽

摘要：1. 场景 https://hudi.apache.org/docs/use_cases.html 近实时写入减少碎片化工具的使用 CDC 增量导入 RDBMS 数据限制小文件的大小和数量近实时分析相对于秒级存储 (Druid, OpenTSDB) ，节省资源提供分钟级别时效性，支撑更高效阅读全文

posted @ 2022-04-08 14:46 大数据从业者FelixZh 阅读(412) 评论(0) 推荐(0) 编辑

实战案例：Sql client使用sql操作FlinkCDC2Hudi、支持从savepoint恢复hudi作业

摘要：Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。整体流程如下：在上述第二步中，我们通过手工停止kafka→hudi的阅读全文

posted @ 2022-04-06 09:41 大数据从业者FelixZh 阅读(1245) 评论(2) 推荐(0) 编辑

Flink如何设置RocksDB日志：How to Configure RocksDB Logging for Advanced Troubleshooting

摘要：Question RocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging? Answer Note: This section app 阅读全文

posted @ 2022-03-22 09:29 大数据从业者FelixZh 阅读(643) 评论(0) 推荐(0) 编辑

Flink 自定义触发器实现带超时时间的 CountWindow

摘要：Flink 的 window 有两个基本款，TimeWindow 和 CountWindow。TimeWindow 是到时间就触发窗口，CountWindow 是到数量就触发。 TimeWindow、CountWindow 都可以分为滚动窗口、滑动窗口如果我需要到时间就触发，并且到时间之前如果已经阅读全文

posted @ 2022-03-15 11:40 大数据从业者FelixZh 阅读(479) 评论(0) 推荐(0) 编辑

实战案例：Flink1.3.1 ON Hudi0.10，同步数据到Hive

摘要：由于业务需要调研数据湖的使用，这里以Hudi0.10为例，使用的是CDH6.2.1的集群。一、编译Hudi0.10 在centos7上编译，需要配置maven，安装scala环境和docker环境，使用集群环境为CDH6.2.1 maven配置 tar -zxvf apache-maven-3.6 阅读全文

posted @ 2022-02-22 14:52 大数据从业者FelixZh 阅读(1702) 评论(2) 推荐(0) 编辑

Flink延时监控

摘要：什么是延时监控？延时监控，简单理解监控算子到算子的延迟时间。记录算子间或者源流入到算子时间，监控系统健康以及调节。流式计算中处理延迟是一个非常重要的监控metric flink中通过开启配置 metrics.latency.interval 来开启latency后就可以在metric中看到askM 阅读全文

posted @ 2021-10-11 10:39 大数据从业者FelixZh 阅读(1640) 评论(0) 推荐(0) 编辑

FLink全链路时延—测量方式

摘要：一、背景 FLink Job端到端延迟是一个重要的指标，用来衡量FLink任务的整体性能和响应延迟（大部分流式应用，要求低延迟特性）。通过流处理引擎竞品对比，我们发现大部分流计算引擎产品，都在告警监控页面，集成了全链路时延指标展示（直方图）一些低延时的处理场景，例如用于登陆、用户下单规则检测，实阅读全文

posted @ 2021-10-11 10:33 大数据从业者FelixZh 阅读(1566) 评论(0) 推荐(0) 编辑

如何确定Flink反压的根源？How to identify the source of backpressure?

摘要：How to identify the source of backpressure? 07 Jul 2021 Piotr Nowojski (@PiotrNowojski) What is backpressure? Why should I care about backpressure? Wh 阅读全文

posted @ 2021-09-06 19:23 大数据从业者FelixZh 阅读(552) 评论(0) 推荐(0) 编辑

The Impact of Disks on RocksDB State Backend in Flink: A Case Study

摘要：As covered in a recent blog post, RocksDB is a state backend in Flink that allows a job to have state larger than the amount of available memory as th 阅读全文

posted @ 2021-08-31 17:12 大数据从业者FelixZh 阅读(139) 评论(0) 推荐(0) 编辑

Flink数据倾斜调优实战案例解析

摘要：案例功能说明通过socketTextStream读取9999端口数据，统计在一定时间内不同类型商品的销售总额度，如果持续销售额度为0，则执行定时器通知老板，是不是卖某种类型商品的员工偷懒了（只做功能演示，根据个人业务来使用，比如统计UV等操作）。 ProcessFunction是一个低阶的流处理操阅读全文

posted @ 2021-07-15 20:13 大数据从业者FelixZh 阅读(837) 评论(0) 推荐(0) 编辑

Flink数据倾斜概述与优化

摘要：在大数据处理领域，数据倾斜是一个非常常见的问题，今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。 1.数据倾斜的原理和影响 1.1 原理数据倾斜就是数据的分布严重不均，造成一部分数据很多，一部分数据很少的局面。数据分布理论上都是倾斜的，符合“二八原理”：例如80%的财富集中在20%的人阅读全文

posted @ 2021-07-15 17:18 大数据从业者FelixZh 阅读(4345) 评论(0) 推荐(0) 编辑

java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id container_1566481621886_4397244_01_000004 timed out.

摘要：根据Heartbeat of TaskManager with id和The heartbeat of ResourceManager with id在源码中找出这样的代码 private class TaskManagerHeartbeatListener implements Heartbeat 阅读全文

posted @ 2021-06-16 23:37 大数据从业者FelixZh 阅读(4890) 评论(0) 推荐(0) 编辑

大数据从业者

最新文章，见微信公众号：大数据从业者

随笔分类 - Flink

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (996)

阅读排行榜

评论排行榜

推荐排行榜

最新评论