天天吃火锅

2015年8月8日

摘要：主要的几个状态机流程图：（图太大了，请下到本地打开看）阅读全文

posted @ 2015-08-08 22:05 天天吃火锅阅读(358) 评论(0) 推荐(0)

Hive0.14在left outer join多级连接中，执行计划生成BUG记录

摘要：前言：这几天遇到一个很诡异的问题，一个三级left outer join的句子，在hive0.9和0.14上的执行结果会不一样。而且在0.14上通过转换右表连接的顺序可以达到正确输出的目的，但是其中是为什么却不得而知，情况非常诡异，猜... 阅读全文

posted @ 2015-08-08 21:59 天天吃火锅阅读(375) 评论(0) 推荐(0)

DataNode上执行文件读写时报java.io.IOException: Bad connect ack with firstBadLink as 192.168.X.X错误解决记录

摘要：今天在集群上看到有两个任务跑失败了： Err log: In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer= In or... 阅读全文

posted @ 2015-08-08 21:57 天天吃火锅阅读(601) 评论(0) 推荐(0)

Hdfs本地短路读取文件

摘要：本地短路读取文件： dfs.client.read.shortcircuit=true;#开启本地磁盘读 dfs.block.local-path-access.user=hdfs#可以使用本地读的用户 dfs.client.read.shortcircuit.skip.checksu... 阅读全文

posted @ 2015-08-08 21:55 天天吃火锅阅读(230) 评论(0) 推荐(0)

Hive配置优化

摘要： MapJoin基本的几种方式： Common Mapjoin： hive.ignore.mapjoin.hint=true;#虽然现在可以自动转化mapjoin，但还是建议设成true，可以在需要特殊处理人为转化为mapjoin。 hive.auto.convert.... 阅读全文

posted @ 2015-08-08 21:54 天天吃火锅阅读(271) 评论(0) 推荐(0)

Hive0.14数据存储优化

摘要： 1.hive数据存储优化 1>对于需要经常连接查询的表一定要建立分区和桶。分区的意义在于列裁剪数据，桶的意义在于并行计算（因为用来做桶的列通过hash后分布在各自桶里，在连接时并行进行桶与桶之间的连接即可。（ORC格式的stripes文件同样有这个功能后面讲到）） ... 阅读全文

posted @ 2015-08-08 21:53 天天吃火锅阅读(180) 评论(0) 推荐(0)

Hive客户端多并发问题解决方法记录

摘要：问题出现场景：如用户描述：（测试脚本如下: echo " set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;set hive.optimize.sort.dyn... 阅读全文

posted @ 2015-08-08 21:50 天天吃火锅阅读(992) 评论(0) 推荐(0)

MapReduce作业内调度研究

摘要：以下是Map&Reduce的调度，抢占流程（RMContainerAllocater）： RMContainerAllocater类图：三个典型调度场景：阅读全文

posted @ 2015-08-08 21:35 天天吃火锅阅读(126) 评论(0) 推荐(0)

公告