chaplinthink - 博客园

Clickhouse入门及实践

摘要： ClickHouse安装采用doker安装测试：拉取服务端 docker pull yandex/clickhouse-server 拉取客户端 docker pull yandex/clickhouse-client 启动ck-server: docker run -d --name ck-s 阅读全文

posted @ 2022-05-08 12:47 chaplinthink 阅读(408) 评论(0) 推荐(0)

Flink CDC 与Hudi整合

摘要：本篇主要讲解Flink CDC与hudi整合实践, 探索新的湖仓一体架构阅读全文

posted @ 2022-05-05 22:00 chaplinthink 阅读(1351) 评论(0) 推荐(0)

Flink CDC同步MySQL数据到Iceberg实践

摘要： Flink CDC同步MySQL分库分表数据到Iceberg数据湖实践阅读全文

posted @ 2022-04-25 22:05 chaplinthink 阅读(2745) 评论(0) 推荐(0)

大数据各组件重要技术点总结

摘要：主要从架构、组件原理、业务场景等角度针对相关组件的技术要点进行总结阅读全文

posted @ 2022-04-19 21:41 chaplinthink 阅读(859) 评论(0) 推荐(0)

[离线计算-Spark|Hive] HDFS小文件处理

摘要：本文主要介绍小文件的处理方法思路,以及通过阅读源码和相关资料学习hudi 如何在写入时智能的处理小文件问题新思路.Hudi利用spark 自定义分区的机制优化记录分配到不同文件的能力,达到小文件的合并处理. 阅读全文

posted @ 2022-01-20 22:36 chaplinthink 阅读(562) 评论(0) 推荐(0)

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

摘要：本文主要针对hudi进行调研, 设计MySQL CDC 近实时同步至数仓中方案, 写入主要利用hudi的upsert以及delete能力. 针对hudi 表的查询,引入kyuubi 框架,除了增强平台 spark sql 一些即席查询服务的能力外,同时支持查询hudi表,并可以实现hudi表与hive表的联合查询, 同时对原有hive相关服务没有太大影响. 阅读全文

posted @ 2022-01-17 22:27 chaplinthink 阅读(846) 评论(0) 推荐(1)

[离线计算-Spark|Hive] 大数据应用性能指标采集工具改造落地

摘要：本文主要介绍了下Uber的开源项目jvm-profiler的产生背景,设计原理以及架构, 后面也设计了一套落地方案,用于采集spark、hive任务的资源消耗相关指标,可用于后续分析以及资源调优. 阅读全文

posted @ 2022-01-11 00:12 chaplinthink 阅读(453) 评论(0) 推荐(0)

[平台建设] 日志数据同步数仓设计

摘要：本文主要针对日志数据接入数据仓库场景进行设计, 同时介绍了下在设计接入时的一些细节,针对可能出现的问题进行必要的处理. 阅读全文

posted @ 2022-01-05 23:57 chaplinthink 阅读(276) 评论(0) 推荐(0)

[平台建设] Spark任务的诊断调优

摘要：本文主要根据平台用户平常提交的spark任务思考,调研引入Dr. Elephant, 通过阅读Dr 相关源码, 明白Dr 执行整体流程并对代码进行改造,适配我们的需求.最终转变为平台产品来对用户的Spark任务进行诊断并给出相关调优建议. 阅读全文

posted @ 2021-12-31 22:19 chaplinthink 阅读(644) 评论(0) 推荐(0)

[平台建设] 大数据平台如何实现任务日志采集

摘要：本文主要介绍如何基于log4j appender自定义扩展实现大数据平台任务日志采集. 阅读全文

posted @ 2021-12-30 00:07 chaplinthink 阅读(876) 评论(0) 推荐(0)

导航