摘要: 在数仓项目中,我们常常会选择Apache Atlas进行数据的治理。本文结合笔者在生产环境中遇到的常见问题及解决方法,整合出完整的Atlas编译、部署及使用过程。 阅读全文
posted @ 2022-05-11 15:35 榆天紫夏 阅读(2165) 评论(0) 推荐(1) 编辑
摘要: 在MapReduce被日渐淘汰的今天,以Spark作为执行引擎的Hive On Spark成为了新的流行。本文作者结合实践中真实的踩坑经历,带来一篇保姆级的hive on spark教程。 阅读全文
posted @ 2021-09-27 16:00 榆天紫夏 阅读(7273) 评论(0) 推荐(2) 编辑
摘要: hive作为广为人知的数据仓库工具,在生产环境中经常因单节点负载过高而产生宕机。本文结合作者在生产环境中实际碰到的问题,从源码的层面解读hiveserver2的高可用方式与具体实现。 阅读全文
posted @ 2021-09-18 14:53 榆天紫夏 阅读(2135) 评论(0) 推荐(0) 编辑