Hive 面试题——HiveSQL 执行顺序

描述

今天刷到了一个面试题:hivesql 执行顺序,接下来就从一个带有 group by 的例子看看 hivesql 的执行顺序

执行顺序为

from ..on .. join .. where .. group by .. having .. select .. distinct .. order by .. limit

测试数据

desc movies;
id    int
title_name    varchar(25)
score    double
select * from movies;
1007    侠客行    80.66
1008    小李飞刀    97.66
1005    流星蝴蝶剑    86.31
1006    萍踪侠影    85.75
1009    绝代双骄    81
1010    碧血剑    82.9
1011    射雕英雄传    92.88
1012    武林外传    88.95
1001    笑傲镜湖    91.69
1002    倚天屠龙记    95.21
1003    神雕侠侣    96.32
1004    孔雀翎    79.29

执行SQL 

select id, title_name, min(score) min_score
from movies
group by id, title_name
having min_score >= 80
order by id;

结果

执行顺序:

from … where … select … group by … having … order by …

其实总结hive的执行顺序也是总结mapreduce的执行顺序:

MR程序的执行顺序:

map阶段:

 1.执行from加载,进行表的查找与加载

2.执行where过滤,进行条件过滤与筛选

3.执行select查询:进行输出项的筛选

4.执行group by分组:描述了分组后需要计算的函数

5.map端文件合并:map端本地溢出写文件的合并操作,每个map最终形成一个临时文件。 然后按列映射到对应的reduceReduce阶段:

Reduce阶段:

1.group by:对map端发送过来的数据进行分组并进行计算。

2.select:最后过滤列用于输出结果

3.limit排序后进行结果输出到HDFS文件

所以通过上面的例子我们可以看到,在进行selectt之后我们会形成一张表,在这张表当中做分组排序这些操作。

posted @ 2023-02-15 04:50  晓枫的春天  阅读(151)  评论(0编辑  收藏  举报