摘要:
具有选择性(适合sum,max,不适合avg) 1.做优化:前提是不影响最终结果; a.实现map端到reduce端减少数据网络传输(网络IO) b.减少map Task数据输出(磁盘IO) 2.combine其实是Reduce,combine的输出作为reduce的输入 3.疑问:添加combin 阅读全文
摘要:
俗称:洗牌 InputFormat-->InputSplit-->map函数(mapper)-->环形缓冲区-->partition(分区)-->sort(排序)-->spill to disk(溢写至磁盘)-->merge(合并)-->存储在maptask节点的本地(本地存储)-->fetch(通 阅读全文
摘要:
1. 定义 partititon控制按值分区,并作为map输出的中间产物。键(或键的子集)用于派生分区,通常由哈希函数;分区的总数与reduce任务的数量相同。reduce的数量决定分区数;默认采用的是HashPartititon分区,当reduce个数为1时,采用的不是哈希分区,而是底层自定义的分 阅读全文