摘要: metastore 安装方式有什么区别 内嵌模式 内嵌模式使用的是内嵌的 Derby 数据库来存储元数据,也不需要额外起 Metastore 服务。这个是默认的,配置简单,但是一次只能一个客户端连接,适用于用来实验,不适用于生产环境。 本地元存储 本地安装 mysql 替代 derby 存储元数据, 阅读全文
posted @ 2019-08-30 16:02 青紫天涯 阅读(304) 评论(0) 推荐(0) 编辑
摘要: Hive优化1.我们知道大数据场景下不害怕数据量大,害怕的是数据倾斜,怎样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键,数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。2.设置合理的map reduce 的task数量map阶段优化 举例: 阅读全文
posted @ 2019-08-30 14:30 青紫天涯 阅读(347) 评论(0) 推荐(0) 编辑
摘要: hive中Sort By,Order By,Cluster By,Distribute By,Group By的区别 order by: hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中 阅读全文
posted @ 2019-08-30 13:21 青紫天涯 阅读(2247) 评论(0) 推荐(0) 编辑