EX: 这里是收集的面试题
1. mapper 分片 数量 解释
PS : 这里面还没有进行reduce 之前的shuffer , shuffer会把每个单词发送的不同的机器 ,
假如有两个reduce , 那么相同颜色的都在一个节点上面 ,
2.
3.reduce 之前必须shuffer
这是在有两个reducer的情况下 , 得到的结果
这是总共只有一个reduce的情况下 , 生产环境中 , 很容易造成压力过载!
2.创建分区表
create table uinfo(id STRING) partitioned by (month Int)Row Format Delimited Fields Terminated By '\t' ------ #导入数据 load data local inpath '-数据-' into table trade partition(month=202005)
分区表创建的时候使用 partitioned by , 查询的时候用的 partition( col= 201212)这样
另外,分区表的分区值是个伪列,不存在表中 ,但是代表它的一个属性 , 数据存放在哪个分区中, 那么他就是哪个属性 , 和自己本身内容无关
就比如把数据导入201208 和 201210 , 就算数据相同 , 他们的分区不一样 , 具有的月份属性也不一样