随笔分类 -  Flink

摘要:java -jar错误信息如下: Exception in thread "main" com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:flinkdemo-1.0-SNAPSH 阅读全文
posted @ 2022-11-04 21:45 大数据从业者FelixZh 阅读(430) 评论(0) 推荐(0) 编辑
摘要:在 SQL 任务里面经常会遇到一列转多行的需求,今天就来总结一下在 Flink SQL 里面如何实现列转行的,先来看下面的一个具体案例. 需求: 原始数据格式如下 name data JasonLee [{"content_type":"flink","url":"111"},{"content_t 阅读全文
posted @ 2022-11-01 09:17 大数据从业者FelixZh 阅读(3575) 评论(0) 推荐(0) 编辑
摘要:每一种引擎有其优势的地方,如何选择适合自己业务的流计算引擎成了一个由来已久的话题。除了比较各个引擎提供的不同的功能矩阵之外,性能是一个无法绕开的评估因素。基准测试(benchmark)就是用来评估系统性能的一个重要和常见的过程。 01 背景 随着数据时效性对企业的精细化运营越来越重要,“实时即未来” 阅读全文
posted @ 2022-10-29 19:37 大数据从业者FelixZh 阅读(747) 评论(0) 推荐(0) 编辑
摘要:在我们做测试之前,调研了一些已有的大数据平台性能测试报告,比如,雅虎的Streaming-benchmarks,或者Intel的HiBench等等。除此之外,还有很多的论文也从不同的角度对分布式计算平台进行了测试。虽然这些测试case各有不同的侧重点,但他们都用到了同样的两个指标,即吞吐和延迟。吞吐 阅读全文
posted @ 2022-10-29 19:25 大数据从业者FelixZh 阅读(1260) 评论(0) 推荐(0) 编辑
摘要:一、背景 一个需求,需要同步MySQL数据到Hive,包括DDL与DML,所以需要动态同步元数据变化。 二、官方Schema Evolution例子 从Hudi官方文档Schema Evolution(https://hudi.apache.org/docs/next/schema_evolutio 阅读全文
posted @ 2022-09-29 10:33 大数据从业者FelixZh 阅读(1170) 评论(0) 推荐(0) 编辑
摘要:Caused by: com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:/home/FlinkIdeaDemo-1.0.jar!/reference.conf: 875: Cou 阅读全文
posted @ 2022-06-24 16:26 大数据从业者FelixZh 阅读(491) 评论(0) 推荐(0) 编辑
摘要:问题现象 当Key数量较少时,Flink流执行KeyBy(),并且设置的并行度setParallelism()不唯一时,会出现分到不同task上的key数量不均匀的情况,即: 某些subtask没有分到数据,但是某些subtask分到了较多的key对应的数据 Key数量较大时,不容易出现这类不均匀的 阅读全文
posted @ 2022-06-01 22:39 大数据从业者FelixZh 阅读(3773) 评论(0) 推荐(1) 编辑
摘要:We have a pipeline with operations, split into 2 workloads - Source -> Transform are in a first group and are CPU-intensive workloads, they are put in 阅读全文
posted @ 2022-04-19 11:14 大数据从业者FelixZh 阅读(399) 评论(0) 推荐(0) 编辑
摘要:1. 场景 https://hudi.apache.org/docs/use_cases.html 近实时写入 减少碎片化工具的使用 CDC 增量导入 RDBMS 数据 限制小文件的大小和数量 近实时分析 相对于秒级存储 (Druid, OpenTSDB) ,节省资源 提供分钟级别时效性,支撑更高效 阅读全文
posted @ 2022-04-08 14:46 大数据从业者FelixZh 阅读(412) 评论(0) 推荐(0) 编辑
摘要:Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍 接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。整体流程如下: 在上述第二步中,我们通过手工停止kafka→hudi的 阅读全文
posted @ 2022-04-06 09:41 大数据从业者FelixZh 阅读(1245) 评论(2) 推荐(0) 编辑
摘要:Question RocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging? Answer Note: This section app 阅读全文
posted @ 2022-03-22 09:29 大数据从业者FelixZh 阅读(643) 评论(0) 推荐(0) 编辑
摘要:Flink 的 window 有两个基本款,TimeWindow 和 CountWindow。TimeWindow 是到时间就触发窗口,CountWindow 是到数量就触发。 TimeWindow、CountWindow 都可以分为滚动窗口、滑动窗口 如果我需要到时间就触发,并且到时间之前如果已经 阅读全文
posted @ 2022-03-15 11:40 大数据从业者FelixZh 阅读(479) 评论(0) 推荐(0) 编辑
摘要:由于业务需要调研数据湖的使用,这里以Hudi0.10为例,使用的是CDH6.2.1的集群。 一、编译Hudi0.10 在centos7上编译,需要配置maven,安装scala环境和docker环境,使用集群环境为CDH6.2.1 maven配置 tar -zxvf apache-maven-3.6 阅读全文
posted @ 2022-02-22 14:52 大数据从业者FelixZh 阅读(1702) 评论(2) 推荐(0) 编辑
摘要:什么是延时监控?延时监控,简单理解监控算子到算子的延迟时间。记录算子间或者源流入到算子时间,监控系统健康以及调节。 流式计算中处理延迟是一个非常重要的监控metric flink中通过开启配置 metrics.latency.interval 来开启latency后就可以在metric中看到askM 阅读全文
posted @ 2021-10-11 10:39 大数据从业者FelixZh 阅读(1640) 评论(0) 推荐(0) 编辑
摘要:一、背景 FLink Job端到端延迟是一个重要的指标,用来衡量FLink任务的整体性能和响应延迟(大部分流式应用,要求低延迟特性)。 通过流处理引擎竞品对比,我们发现大部分流计算引擎产品,都在告警监控页面,集成了全链路时延指标展示(直方图) 一些低延时的处理场景,例如用于登陆、用户下单规则检测,实 阅读全文
posted @ 2021-10-11 10:33 大数据从业者FelixZh 阅读(1566) 评论(0) 推荐(0) 编辑
摘要:How to identify the source of backpressure? 07 Jul 2021 Piotr Nowojski (@PiotrNowojski) What is backpressure? Why should I care about backpressure? Wh 阅读全文
posted @ 2021-09-06 19:23 大数据从业者FelixZh 阅读(552) 评论(0) 推荐(0) 编辑
摘要:As covered in a recent blog post, RocksDB is a state backend in Flink that allows a job to have state larger than the amount of available memory as th 阅读全文
posted @ 2021-08-31 17:12 大数据从业者FelixZh 阅读(139) 评论(0) 推荐(0) 编辑
摘要:案例功能说明 通过socketTextStream读取9999端口数据,统计在一定时间内不同类型商品的销售总额度,如果持续销售额度为0,则执行定时器通知老板,是不是卖某种类型商品的员工偷懒了(只做功能演示,根据个人业务来使用,比如统计UV等操作)。 ProcessFunction是一个低阶的流处理操 阅读全文
posted @ 2021-07-15 20:13 大数据从业者FelixZh 阅读(837) 评论(0) 推荐(0) 编辑
摘要:在大数据处理领域,数据倾斜是一个非常常见的问题,今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。 1.数据倾斜的原理和影响 1.1 原理 数据倾斜就是数据的分布严重不均,造成一部分数据很多,一部分数据很少的局面。 数据分布理论上都是倾斜的,符合“二八原理”:例如80%的财富集中在20%的人 阅读全文
posted @ 2021-07-15 17:18 大数据从业者FelixZh 阅读(4345) 评论(0) 推荐(0) 编辑
摘要:根据Heartbeat of TaskManager with id和The heartbeat of ResourceManager with id在源码中找出这样的代码 private class TaskManagerHeartbeatListener implements Heartbeat 阅读全文
posted @ 2021-06-16 23:37 大数据从业者FelixZh 阅读(4890) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示