EX: 这里是收集的面试题

1.  mapper 分片  数量  解释

 PS :  这里面还没有进行reduce 之前的shuffer  , shuffer会把每个单词发送的不同的机器 ,

假如有两个reduce , 那么相同颜色的都在一个节点上面 ,

2.

                                     

 

 3.reduce 之前必须shuffer 

 这是在有两个reducer的情况下 , 得到的结果

                                             

这是总共只有一个reduce的情况下 , 生产环境中 , 很容易造成压力过载!

                                                             

 2.创建分区表

create  table uinfo(id STRING) partitioned by (month Int)Row Format Delimited Fields Terminated By '\t'
------
#导入数据
load data local inpath '-数据-' into table trade partition(month=202005)

分区表创建的时候使用 partitioned by  , 查询的时候用的 partition(  col= 201212)这样

另外,分区表的分区值是个伪列,不存在表中 ,但是代表它的一个属性 , 数据存放在哪个分区中, 那么他就是哪个属性 , 和自己本身内容无关

就比如把数据导入201208  和 201210 , 就算数据相同 , 他们的分区不一样 , 具有的月份属性也不一样

posted @ 2020-05-02 10:11  挪威森林猫Zzz  阅读(138)  评论(0编辑  收藏  举报