摘要: 主要的几个状态机流程图: (图太大了,请下到本地 打开看) 阅读全文
posted @ 2015-08-08 22:05 天天吃火锅 阅读(356) 评论(0) 推荐(0)
摘要: 前言: 这几天遇到一个很诡异的问题,一个三级left outer join的句子,在hive0.9和0.14上的执行结果会不一样。 而且在0.14上通过转换右表连接的顺序可以达到正确输出的目的,但是其中是为什么却不得而知,情况非常 诡异,猜... 阅读全文
posted @ 2015-08-08 21:59 天天吃火锅 阅读(360) 评论(0) 推荐(0)
摘要: 今天在集群上看到有两个任务跑失败了: Err log: In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer= In or... 阅读全文
posted @ 2015-08-08 21:57 天天吃火锅 阅读(584) 评论(0) 推荐(0)
摘要: 本地短路读取文件: dfs.client.read.shortcircuit=true;#开启本地磁盘读 dfs.block.local-path-access.user=hdfs#可以使用本地读的用户 dfs.client.read.shortcircuit.skip.checksu... 阅读全文
posted @ 2015-08-08 21:55 天天吃火锅 阅读(220) 评论(0) 推荐(0)
摘要: MapJoin基本的几种方式: Common Mapjoin: hive.ignore.mapjoin.hint=true;#虽然现在可以自动转化mapjoin,但还是建议设成true,可以在需要特殊处理人为转化为mapjoin。 hive.auto.convert.... 阅读全文
posted @ 2015-08-08 21:54 天天吃火锅 阅读(259) 评论(0) 推荐(0)
摘要: 1.hive数据存储优化 1>对于需要经常连接查询的表一定要建立分区和桶。分区的意义在于列裁剪数据,桶的意义在于并行计算 (因为用来做桶的列通过hash后分布在各自桶里,在连接时并行进行桶与桶之间的连接即可。(ORC格式的stripes文件同样有这个功能后面讲到)) ... 阅读全文
posted @ 2015-08-08 21:53 天天吃火锅 阅读(169) 评论(0) 推荐(0)
摘要: 问题出现场景: 如用户描述:( 测试脚本如下: echo " set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;set hive.optimize.sort.dyn... 阅读全文
posted @ 2015-08-08 21:50 天天吃火锅 阅读(968) 评论(0) 推荐(0)
摘要: 以下是Map&Reduce的调度,抢占流程(RMContainerAllocater): RMContainerAllocater类图: 三个典型调度场景: 阅读全文
posted @ 2015-08-08 21:35 天天吃火锅 阅读(118) 评论(0) 推荐(0)