随笔分类 - Hadoop
摘要:1、MR支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip DEFLATE .gz 否 bzip2 bzip2 bzip2 .bz2 是 LZO lzop LZO .lzo 是 Snappy 无 Snappy .
阅读全文
摘要:1、Map阶段 增大缓冲区的大小:默认100M,可以改为200 增大缓冲区的溢写百分比:默认0.8,可以改为0.9 减少溢写文件的merge次数 采用combiner提前预聚合,减少IO。(不影响业务逻辑的前提下,只能加减,不能做乘除等复杂聚合) 2、Reduce阶段 合理设置map和reduce数
阅读全文
摘要:1、工作机制详述 (1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAp
阅读全文
摘要:一、MapTask并行度决定机制 二、MapTask的工作机制 (1)Read阶段: Map Task通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段: 该节点主要是将解析出的key/value交给用户编写map()函数处理,并产
阅读全文
摘要:一、Shuffle机制 1、官网图 2、MR确保每个Reducer的输入都是按照key排序的。系统执行排序的过程(即将Mapper输出作为输入传给Reducer)成为Shuffle 二、Partition分区 1、默认分区HashPartitioner 默认分区是根据key的hashcode对Red
阅读全文
摘要:一、NN和2N的工作机制 一、概述 一、概述 一、概述 一、概述 一、概述 一、概述 一、概述
阅读全文