摘要:
metastore 安装方式有什么区别 内嵌模式 内嵌模式使用的是内嵌的 Derby 数据库来存储元数据,也不需要额外起 Metastore 服务。这个是默认的,配置简单,但是一次只能一个客户端连接,适用于用来实验,不适用于生产环境。 本地元存储 本地安装 mysql 替代 derby 存储元数据, 阅读全文
摘要:
Hive优化1.我们知道大数据场景下不害怕数据量大,害怕的是数据倾斜,怎样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键,数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。2.设置合理的map reduce 的task数量map阶段优化 举例: 阅读全文
摘要:
hive中Sort By,Order By,Cluster By,Distribute By,Group By的区别 order by: hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中 阅读全文