摘要:
上图首先描述了在TaskTracker端Task(MapTask、ReduceTask)的执行过程,MapTask(org.apache.hadoop.mapred)首先被TaskRunner调用,然后在MapTask内部首先进行一些初始化工作,然后调用run()方法,判断如果使用了新版API就调用 阅读全文
摘要:
1 public static void main(String[] args) throws Exception { 2 Configuration conf = new Configuration(); 3 //conf就是作业的配置对象,读取core-site、core-default、hd... 阅读全文
摘要:
总体上看,Hadoop MapReduce分为两部分:一部分是org.apache.hadoop.mapred.*,这里面主要包含旧的API接口以及MapReduce各个服务(JobTracker以及TaskTracker)的实现;另一部分是org.apache.hadoop.mapreduce.*... 阅读全文
摘要:
1)有时候a函数体内调用了b函数,然后就需要调到b函数内部查看实现细节,看完之后就要返回到a函数内调用b函数的位置?使用快捷键:alt+<---(也就是左箭头)2)ctrl+shift+R在源码中查找相关类的定义3)安装了PMD、Implementor插件 阅读全文
摘要:
MR数据流向示意图步骤 1输入文件从HDFS流向Mapper节点。在一般情况下,map所需要的数据就存在本节点,这就是数据本地化计算的优势,但是往往集群中数据分布不均衡(1000台节点,数据冗余度是10,每个文件并不能均匀分布在每个节点上),而MR的计算槽位是均匀分布在节点上的(配置文件中指定的ma... 阅读全文
摘要:
1)InputFormat的类图:InputFormat 直接子类有三个:DBInputFormat、DelegatingInputFormat和FileInputFormat,分别表示输入文件的来源为从数据库、用于多个输入以及基于文件的输入。对于FileInputFormat,即从文件输入的输入方... 阅读全文
摘要:
1)slot就是槽的意思,是一个资源单位,只有给task分配了一个slot之后,这个task才可以运行。slot分两种,map slot沪蓉reduce slot。另外,slot是一个逻辑概念,一个数据节点的slots数量既不是CPU的核数,也不是memory chip,一个节点的slot数量用来表... 阅读全文
摘要:
1)首先创建WordCount1023文件夹,然后在此目录下使用编辑器,例如vim编写WordCount源文件,并保存为WordCount.java文件 1 /** 2 * Licensed under the Apache License, Version 2.0 (the "Licens... 阅读全文
摘要:
http://blog.csdn.net/dajuezhao/article/details/5734352 阅读全文
摘要:
1)使用eclipse,在HDFS上创建新目录import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public clas... 阅读全文