摘要:
本文主要介绍小文件的处理方法思路,以及通过阅读源码和相关资料学习hudi 如何在写入时智能的处理小文件问题新思路.Hudi利用spark 自定义分区的机制优化记录分配到不同文件的能力,达到小文件的合并处理. 阅读全文
摘要:
本文主要针对hudi进行调研, 设计MySQL CDC 近实时同步至数仓中方案, 写入主要利用hudi的upsert以及delete能力. 针对hudi 表的查询,引入kyuubi 框架,除 了增强平台 spark sql 一些即席查询服务的能力外,同时支持查询hudi表,并可以实现hudi表与hive表的联合查询, 同时对原有hive相关服务没有太大影响. 阅读全文
摘要:
本文主要介绍了下Uber的开源项目jvm-profiler的产生背景,设计原理以及架构, 后面也设计了一套落地方案,用于采集spark、hive任务的资源消耗相关指标,可用于后续分析以及资源调优. 阅读全文
摘要:
本文主要针对日志数据接入数据仓库场景进行设计, 同时介绍了下在设计接入时的一些细节,针对可能出现的问题进行必要的处理. 阅读全文
摘要:
本文主要根据平台用户平常提交的spark任务思考,调研引入Dr. Elephant, 通过阅读Dr 相关源码, 明白Dr 执行整体流程并对代码进行改造,适配我们的需求.最终转变为平台产品来对用户的Spark任务进行诊断并给出相关调优建议. 阅读全文
摘要:
本文主要介绍如何基于log4j appender自定义扩展实现大数据平台任务日志采集. 阅读全文
摘要:
本文主要对ES聚合场景下部分结果数据未返回问题分析,给出排查思路和解决方案 阅读全文
摘要:
本文主要介绍HBase平台的建设思路及设计, 并对跨集群数据迁移实践进行总结 阅读全文
摘要:
背景 项目中有个需求是需要几个字段作为标签,统计各个标签的文档数量,同时支持分词后的全文检索功能。 所使用的ES版本: elasticsearch-5.6.16 原有的mapping设计: curl -XPUT http://ip:9200/meta_es_metric_data -d' { "se 阅读全文
摘要:
架构设计 下至接口设计 上至技术选型 架构PPT少不了对ROI(投资回报)和TCO(总体拥有成本)陈述 想要在这个行业里有所作为,就需要克制对新鲜玩意的迷恋,开始问一些问题。 架构的种类 不管你是构建软件系统、网络还是数据库,任何成功的方案都需要你理解问题,并且设定一个愿景可以和每一个参与构建最终产 阅读全文