摘要: MR-Job中使用lzop详见MR案例:Job中使用Lzo压缩1). 配置前的环境准备# yum -y install lzo-devel zlib-devel gcc autoconf automakelibtool2). (all) 在集群的所有节点上安装Lzo库 下载、解压,然后编译。并将... 阅读全文
posted @ 2015-08-27 18:25 skyl夜 阅读(1684) 评论(0) 推荐(0) 编辑
摘要: Hadoop中用得比较多的4种压缩格式:lzo,gzip,snappy,bzip2。它们的优缺点和应用场景如下:1). gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linu... 阅读全文
posted @ 2015-08-27 15:37 skyl夜 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 输入格式类InputFormat用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查)、对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来、并转化为Map输入的键值对。getSplits()方法返回List集合,作用是将输入文件在逻辑上划分为多个输入分片,每个分片的数据... 阅读全文
posted @ 2015-08-27 13:52 skyl夜 阅读(681) 评论(0) 推荐(1) 编辑
摘要: 此文承接Job流程:Mapper类分析.MapReduce为确保每个reducer的输入都按键排序,数据从map输出到reducer输入的这段过程成为Shuffle。map端1).Spill溢写. 每个map()方法都将处理结果输出到一个环形内存缓冲区buf(100MB)中(mapreduce.ta... 阅读全文
posted @ 2015-08-27 11:48 skyl夜 阅读(702) 评论(0) 推荐(0) 编辑
摘要: 此文紧接Job流程:决定map个数的因素,Map任务被提交到Yarn后,被ApplicationMaster启动,任务的形式是YarnChild进程,在其中会执行MapTask的run()方法。无论是MapTask还是ReduceTask都是继承的Task这个抽象类。1). Mapper类中 set... 阅读全文
posted @ 2015-08-27 11:03 skyl夜 阅读(438) 评论(0) 推荐(0) 编辑