skyl夜 - 博客园

2015年8月27日

摘要：此文紧接Job流程：决定map个数的因素，Map任务被提交到Yarn后，被ApplicationMaster启动，任务的形式是YarnChild进程，在其中会执行MapTask的run()方法。无论是MapTask还是ReduceTask都是继承的Task这个抽象类。1). Mapper类中 set... 阅读全文

posted @ 2015-08-27 11:03 skyl夜阅读(455) 评论(0) 推荐(0)

2015年8月26日

MR案例：CombineFileInputFormat

摘要： CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。此案例让我明白了三点：详见解读：MR多路径输入和解读：CombineFileInputFormat类... 阅读全文

posted @ 2015-08-26 21:09 skyl夜阅读(2092) 评论(0) 推荐(0)

HDFS的回收站 && 安全模式

摘要：回收站机制　1). HDFS 的回收站机制由 core-site.xml 中 fs.trash.interval 属性(以分钟为单位)设置，默认是 0，表示未启用。注意：配置数值应该为1440，而配置24*60会抛出NumberFormatException异常(亲测)。　2). 回收站特性被启用时... 阅读全文

posted @ 2015-08-26 18:10 skyl夜阅读(1077) 评论(0) 推荐(0)

MR案例：倒排索引 && MultipleInputs

摘要：本案例采用 MultipleInputs类实现多路径输入的倒排索引。解读：MR多路径输入package test0820;import java.io.IOException;import java.lang.reflect.Method;import org.apache.hadoop.conf... 阅读全文

posted @ 2015-08-26 12:54 skyl夜阅读(720) 评论(1) 推荐(0)

2015年8月25日

解读：Hadoop Archive

摘要： hdfs并不擅长存储小文件，因为每个文件最少一个block，每个block的元数据都会在NameNode中占用150byte内存。如果存储大量的小文件，它们会吃掉NameNode节点的大量内存。MR案例：小文件处理方案Hadoop Archive或者HAR，是一个高效地将小文件放入HDFS块中的文件... 阅读全文

posted @ 2015-08-25 19:04 skyl夜阅读(2475) 评论(0) 推荐(1)

2015年8月24日

解读：CombineFileInputFormat类

摘要： MR-Job默认的输入格式FileInputFormat为每一个小文件生成一个切片。CombineFileInputFormat通过将多个“小文件”合并为一个"切片"（在形成切片的过程中也考虑同一节点、同一机架的数据本地性），让每一个Mapper任务可以处理更多的数据，从而提高MR任务的执行速度。详... 阅读全文

posted @ 2015-08-24 15:56 skyl夜阅读(4218) 评论(0) 推荐(1)

解读：MR多路径输入

摘要：对于在一个MR-Job中使用多路径作为输入文件，一般有三种方法：1).多次调用，加载不同路径：import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.out... 阅读全文

posted @ 2015-08-24 02:00 skyl夜阅读(1386) 评论(0) 推荐(0)

解读：MultipleOutputs类

摘要： //MultipleOutputs类用于简化多文件输出The MultipleOutputs class simplifies writing output data to multiple outputs //案例一：在job默认的输出之外,附加自定义的输出.自定义的输出可以指定：输出格式以及 k... 阅读全文

posted @ 2015-08-24 01:32 skyl夜阅读(1513) 评论(0) 推荐(0)

2015年8月23日

hadoop2对应的eclipse插件使用

摘要： 1. eclipse插件安装步骤：a).把插件复制到eclipse安装目录plugins文件夹下b).打开eclipse的Window---Preference---Hadoop M/R---指向hadoop-2.2.0安装目录：只要在Windows上将hadoop-2.2.0.tar.gz解压即可... 阅读全文

posted @ 2015-08-23 11:31 skyl夜阅读(424) 评论(0) 推荐(0)

2015年8月22日

MR案例：外连接代码实现

摘要：【外连接】是在【内连接】的基础上稍微修改即可。具体HQL语句详见Hive查询Joinpackage join.map;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apac... 阅读全文

posted @ 2015-08-22 03:13 skyl夜阅读(601) 评论(0) 推荐(0)

公告