上一页 1 2 3 4 5 6 7 ··· 11 下一页
摘要: 本文主要介绍小文件的处理方法思路,以及通过阅读源码和相关资料学习hudi 如何在写入时智能的处理小文件问题新思路.Hudi利用spark 自定义分区的机制优化记录分配到不同文件的能力,达到小文件的合并处理. 阅读全文
posted @ 2022-01-20 22:36 chaplinthink 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 本文主要针对hudi进行调研, 设计MySQL CDC 近实时同步至数仓中方案, 写入主要利用hudi的upsert以及delete能力. 针对hudi 表的查询,引入kyuubi 框架,除 了增强平台 spark sql 一些即席查询服务的能力外,同时支持查询hudi表,并可以实现hudi表与hive表的联合查询, 同时对原有hive相关服务没有太大影响. 阅读全文
posted @ 2022-01-17 22:27 chaplinthink 阅读(691) 评论(0) 推荐(1) 编辑
摘要: 本文主要介绍了下Uber的开源项目jvm-profiler的产生背景,设计原理以及架构, 后面也设计了一套落地方案,用于采集spark、hive任务的资源消耗相关指标,可用于后续分析以及资源调优. 阅读全文
posted @ 2022-01-11 00:12 chaplinthink 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 本文主要针对日志数据接入数据仓库场景进行设计, 同时介绍了下在设计接入时的一些细节,针对可能出现的问题进行必要的处理. 阅读全文
posted @ 2022-01-05 23:57 chaplinthink 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 本文主要根据平台用户平常提交的spark任务思考,调研引入Dr. Elephant, 通过阅读Dr 相关源码, 明白Dr 执行整体流程并对代码进行改造,适配我们的需求.最终转变为平台产品来对用户的Spark任务进行诊断并给出相关调优建议. 阅读全文
posted @ 2021-12-31 22:19 chaplinthink 阅读(513) 评论(0) 推荐(0) 编辑
摘要: 本文主要介绍如何基于log4j appender自定义扩展实现大数据平台任务日志采集. 阅读全文
posted @ 2021-12-30 00:07 chaplinthink 阅读(803) 评论(0) 推荐(0) 编辑
摘要: 本文主要对ES聚合场景下部分结果数据未返回问题分析,给出排查思路和解决方案 阅读全文
posted @ 2021-12-28 23:00 chaplinthink 阅读(1715) 评论(0) 推荐(0) 编辑
摘要: 本文主要介绍HBase平台的建设思路及设计, 并对跨集群数据迁移实践进行总结 阅读全文
posted @ 2021-12-27 21:37 chaplinthink 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 背景 项目中有个需求是需要几个字段作为标签,统计各个标签的文档数量,同时支持分词后的全文检索功能。 所使用的ES版本: elasticsearch-5.6.16 原有的mapping设计: curl -XPUT http://ip:9200/meta_es_metric_data -d' { "se 阅读全文
posted @ 2021-12-24 14:58 chaplinthink 阅读(605) 评论(0) 推荐(1) 编辑
摘要: 架构设计 下至接口设计 上至技术选型 架构PPT少不了对ROI(投资回报)和TCO(总体拥有成本)陈述 想要在这个行业里有所作为,就需要克制对新鲜玩意的迷恋,开始问一些问题。 架构的种类 不管你是构建软件系统、网络还是数据库,任何成功的方案都需要你理解问题,并且设定一个愿景可以和每一个参与构建最终产 阅读全文
posted @ 2021-12-19 23:34 chaplinthink 阅读(122) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 11 下一页