wgcn_bj

导航

2022年4月8日

测试博客园是否支持mermaid

摘要: region :主要是和任务故障恢复相关, 一个excutiongraph中,彼此没有网络通信的Excutionvertex会被划分成一个region 如 graph LR; Source1-->Map1; Map1-->Sink1; Source2-->Map2; Map2-->Sink2 阅读全文

posted @ 2022-04-08 11:51 wgcn_bj 阅读(24) 评论(0) 推荐(0) 编辑

JVM诊断及工具笔记(5) cpu使用率方面的自助诊断

摘要: 这篇文章描述了因为进程/单线程cpu瓶颈,导致Flink任务延迟的案例,并且分享了从最开始平台工作人员手动去服务器帮用户诊断,再到如何赋能给用户自助诊断的过程。 案例一:是TaskManager进程cpu使用率达到瓶颈的案例 (如果读者生产环境未开启cgroup可以跳过这个案例) 案例二:是Task 阅读全文

posted @ 2022-04-08 11:40 wgcn_bj 阅读(175) 评论(0) 推荐(0) 编辑

JVM诊断及工具笔记(4) 使用visualvm分析JVM堆内存泄漏

摘要: 在这里感谢最近一直阅读我文章的小伙伴,如果觉得文章对你有用,可以帮忙关注转载,需要的时候可以及时找到文章。 背景 今年Q3季度我们在推广业务方使用Iceberg,当时为了让不同业务线的用户可以使用自己的hadoop账号权限把数据写到他们的hadoop集市目录,我们在Iceberg中添加了ugi,使F 阅读全文

posted @ 2022-04-08 11:38 wgcn_bj 阅读(328) 评论(1) 推荐(0) 编辑

2022年2月1日

JVM诊断及工具笔记(3) 使用pmap 定位一次Jvm Native Memory泄漏

摘要: 这次要说的点依旧不大,主要想给大家讲的是如果发现 Flink on Yarn 定位Native Memory超出限制一个排查思路加上第二篇文章讲的Direct Memory相关。第四篇我大概率会讲一个堆内存相关的案例。 背景 这次问题发生是在18年,我们开始调研Flink。当时运维帮忙搭建了一个不大 阅读全文

posted @ 2022-02-01 21:10 wgcn_bj 阅读(577) 评论(0) 推荐(0) 编辑

JVM诊断及工具笔记(1)使用arthas热更新代码

摘要: 笔者目前在汽车之家云基础平台负责flink平台,数据湖, kafka平台的设计及开发。平时擅长做平台设计,定位及解决各种疑难杂症。最近开始冲动,想总结下最近几年使用的工具及定位的疑难杂症。时间久远,且目前工作,生活节奏较快。我大多数总结的文章应该都是大白话文,以简短的文章为主。心路历程及过程都是次要 阅读全文

posted @ 2022-02-01 21:09 wgcn_bj 阅读(86) 评论(0) 推荐(0) 编辑

JVM诊断及工具笔记(2)使用arthas定位哪里执行了System#gc()

摘要: 笔者是汽车之家实时计算平台的一名小伙伴。负责flink平台,数据湖及kafka平台的设计与开发。平时擅长做平台设计,定位及解决各种疑难杂症。第二篇文章,讲的点依旧很小,但是这次图多!!! 在这里感谢支持上篇文章的小伙伴了 前言 这篇文章是之前解决一个Flink任务在线上发生fullgc 当时的想法就 阅读全文

posted @ 2022-02-01 21:09 wgcn_bj 阅读(510) 评论(0) 推荐(0) 编辑

2022年1月31日

Flink源码学习笔记(3)了解Flink HA功能的实现

摘要: 使用Flink HA功能维护JobManager中组件的生命周期,可以有效的避免因为JobManager 进程失败导致任务无法恢复的情况。 接下来分享下 Flink HA功能的实现 大纲 基于Zookeeper+Hadoop HA功能的实现 HA功能的接口概述 基于Zookeeper实现的HA接口 阅读全文

posted @ 2022-01-31 19:27 wgcn_bj 阅读(626) 评论(0) 推荐(0) 编辑

Flink源码学习笔记(2) 基于Yarn的自动伸缩容实现

摘要: 1.背景介绍 随着实时计算技术在之家内部的逐步推广,Flink 任务数及计算量都在持续增长,集群规模的也在逐步增大,本着降本提效的理念,我们研发了 Flink 任务伸缩容功能: 提供自动伸缩容功能,可自动调节 Flink 任务占用的资源,让计算资源分配趋于合理化。一方面避免用户为任务配置过多资源,造 阅读全文

posted @ 2022-01-31 19:24 wgcn_bj 阅读(270) 评论(0) 推荐(0) 编辑

Flink源码学习笔记(1) Flink心跳机制的实现

摘要: 前言 开始分享第一篇flink源码的学习,诊断相关的文章仍会继续更新。先讲第一篇Flink实现的心跳机制。Flink代码版本是1.9.2 类图依赖关系 先上个心跳实现的类图 其中主要的几个接口和实现类 HeartbeatTarget : 请求回复心跳的接口,定义了requestHeartbeat ( 阅读全文

posted @ 2022-01-31 19:17 wgcn_bj 阅读(160) 评论(0) 推荐(0) 编辑

2022年1月20日

Iceberg学习日记(1) 定位两个线上Iceberg查不到文件的问题

摘要: Iceberg学习日记(1) 定位两个线上Iceberg查不到文件的问题 前言 Iceberg是我们去年年底(2020)开始调研,目前上线了130多张表。主要用于流量日志清洗,数据报表,推荐特征基础数据。至今为也算是积累了一些使用及定位问题经验。 这篇文章会介绍两个线上Iceberg表查不到数据/快照文件的问题,希望对大家有帮助。 一.Rewrite操作有可能会误删数据文 阅读全文

posted @ 2022-01-20 12:27 wgcn_bj 阅读(246) 评论(0) 推荐(0) 编辑