摘要:
主要的几个状态机流程图: (图太大了,请下到本地 打开看) 阅读全文
posted @ 2015-08-08 22:05
天天吃火锅
阅读(356)
评论(0)
推荐(0)
摘要:
前言: 这几天遇到一个很诡异的问题,一个三级left outer join的句子,在hive0.9和0.14上的执行结果会不一样。 而且在0.14上通过转换右表连接的顺序可以达到正确输出的目的,但是其中是为什么却不得而知,情况非常 诡异,猜... 阅读全文
posted @ 2015-08-08 21:59
天天吃火锅
阅读(360)
评论(0)
推荐(0)
摘要:
今天在集群上看到有两个任务跑失败了: Err log: In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer= In or... 阅读全文
posted @ 2015-08-08 21:57
天天吃火锅
阅读(584)
评论(0)
推荐(0)
摘要:
本地短路读取文件: dfs.client.read.shortcircuit=true;#开启本地磁盘读 dfs.block.local-path-access.user=hdfs#可以使用本地读的用户 dfs.client.read.shortcircuit.skip.checksu... 阅读全文
posted @ 2015-08-08 21:55
天天吃火锅
阅读(220)
评论(0)
推荐(0)
摘要:
MapJoin基本的几种方式: Common Mapjoin: hive.ignore.mapjoin.hint=true;#虽然现在可以自动转化mapjoin,但还是建议设成true,可以在需要特殊处理人为转化为mapjoin。 hive.auto.convert.... 阅读全文
posted @ 2015-08-08 21:54
天天吃火锅
阅读(259)
评论(0)
推荐(0)
摘要:
1.hive数据存储优化 1>对于需要经常连接查询的表一定要建立分区和桶。分区的意义在于列裁剪数据,桶的意义在于并行计算 (因为用来做桶的列通过hash后分布在各自桶里,在连接时并行进行桶与桶之间的连接即可。(ORC格式的stripes文件同样有这个功能后面讲到)) ... 阅读全文
posted @ 2015-08-08 21:53
天天吃火锅
阅读(169)
评论(0)
推荐(0)
摘要:
问题出现场景: 如用户描述:( 测试脚本如下: echo " set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;set hive.optimize.sort.dyn... 阅读全文
posted @ 2015-08-08 21:50
天天吃火锅
阅读(968)
评论(0)
推荐(0)
摘要:
以下是Map&Reduce的调度,抢占流程(RMContainerAllocater): RMContainerAllocater类图: 三个典型调度场景: 阅读全文
posted @ 2015-08-08 21:35
天天吃火锅
阅读(118)
评论(0)
推荐(0)