摘要:
此文紧接Job流程:决定map个数的因素,Map任务被提交到Yarn后,被ApplicationMaster启动,任务的形式是YarnChild进程,在其中会执行MapTask的run()方法。无论是MapTask还是ReduceTask都是继承的Task这个抽象类。1). Mapper类中 set... 阅读全文
摘要:
CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。此案例让我明白了三点:详见 解读:MR多路径输入 和 解读:CombineFileInputFormat类... 阅读全文
摘要:
回收站机制 1). HDFS 的回收站机制由 core-site.xml 中 fs.trash.interval 属性(以分钟为单位)设置,默认是 0,表示未启用。注意:配置数值应该为1440,而配置24*60会抛出NumberFormatException异常(亲测)。 2). 回收站特性被启用时... 阅读全文
摘要:
本案例采用 MultipleInputs类 实现多路径输入的倒排索引。解读:MR多路径输入package test0820;import java.io.IOException;import java.lang.reflect.Method;import org.apache.hadoop.conf... 阅读全文
摘要:
hdfs并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode中占用150byte内存。如果存储大量的小文件,它们会吃掉NameNode节点的大量内存。MR案例:小文件处理方案Hadoop Archive或者HAR,是一个高效地将小文件放入HDFS块中的文件... 阅读全文
摘要:
MR-Job默认的输入格式FileInputFormat为每一个小文件生成一个切片。CombineFileInputFormat通过将多个“小文件”合并为一个"切片"(在形成切片的过程中也考虑同一节点、同一机架的数据本地性),让每一个Mapper任务可以处理更多的数据,从而提高MR任务的执行速度。详... 阅读全文
摘要:
对于在一个MR-Job中使用多路径作为输入文件,一般有三种方法:1).多次调用,加载不同路径:import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.out... 阅读全文
摘要:
//MultipleOutputs类用于简化多文件输出The MultipleOutputs class simplifies writing output data to multiple outputs //案例一:在job默认的输出之外,附加自定义的输出.自定义的输出可以指定:输出格式以及 k... 阅读全文
摘要:
1. eclipse插件安装步骤:a).把插件复制到eclipse安装目录plugins文件夹下b).打开eclipse的Window---Preference---Hadoop M/R---指向hadoop-2.2.0安装目录:只要在Windows上将hadoop-2.2.0.tar.gz解压即可... 阅读全文
摘要:
【外连接】是在【内连接】的基础上稍微修改即可。具体HQL语句详见Hive查询Joinpackage join.map;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apac... 阅读全文