摘要:
Hive是通过把sql转换成对应mapreduce程序,然后提交到Hadoop上执行,查看具体的执行计划可以通过执行explain sql知晓 一条sql会被转化成由多个阶段组成的步骤,每个步骤有执行顺序和依赖关系,可以称之为有向无环图(DAG:Directed Acyclic Graph) 这些步 阅读全文
摘要:
测试数据 Order By Job中只会启动一个reduce做全局排序,数据量大时,耗时会很久 在strict模式(hive.mapred.mode=strict)下,必须添加limit语句限制返回条数 Sort By 排序前会根据排序字段分区,一个job启动多个reduce进行局部排序 如果有li 阅读全文