lz3018

2015年11月1日

InputSplit—>RecordReder—>map(key,value,context)的过程解析

摘要：上图首先描述了在TaskTracker端Task(MapTask、ReduceTask)的执行过程，MapTask(org.apache.hadoop.mapred)首先被TaskRunner调用，然后在MapTask内部首先进行一些初始化工作，然后调用run()方法，判断如果使用了新版API就调用阅读全文

posted @ 2015-11-01 14:41 lz3018 阅读(877) 评论(0) 推荐(0) 编辑

2015年10月31日

JobClient学习------作业提交与初始化

摘要： 1 public static void main(String[] args) throws Exception { 2 Configuration conf = new Configuration(); 3 //conf就是作业的配置对象，读取core-site、core-default、hd... 阅读全文

posted @ 2015-10-31 16:42 lz3018 阅读(1047) 评论(0) 推荐(0) 编辑

mapred和mapreduce

摘要：总体上看，Hadoop MapReduce分为两部分：一部分是org.apache.hadoop.mapred.*，这里面主要包含旧的API接口以及MapReduce各个服务(JobTracker以及TaskTracker)的实现；另一部分是org.apache.hadoop.mapreduce.*... 阅读全文

posted @ 2015-10-31 16:16 lz3018 阅读(2100) 评论(0) 推荐(0) 编辑

eclipse使用技巧

摘要： 1）有时候a函数体内调用了b函数，然后就需要调到b函数内部查看实现细节，看完之后就要返回到a函数内调用b函数的位置？使用快捷键：alt+<---（也就是左箭头）2）ctrl+shift+R在源码中查找相关类的定义3）安装了PMD、Implementor插件阅读全文

posted @ 2015-10-31 16:13 lz3018 阅读(122) 评论(0) 推荐(0) 编辑

2015年10月30日

MapReduce数据流向分析

摘要： MR数据流向示意图步骤 1输入文件从HDFS流向Mapper节点。在一般情况下，map所需要的数据就存在本节点，这就是数据本地化计算的优势，但是往往集群中数据分布不均衡(1000台节点，数据冗余度是10，每个文件并不能均匀分布在每个节点上)，而MR的计算槽位是均匀分布在节点上的(配置文件中指定的ma... 阅读全文

posted @ 2015-10-30 13:40 lz3018 阅读(827) 评论(0) 推荐(0) 编辑

2015年10月27日

输入格式--InputFormat和InputSplit

摘要： 1）InputFormat的类图：InputFormat 直接子类有三个：DBInputFormat、DelegatingInputFormat和FileInputFormat，分别表示输入文件的来源为从数据库、用于多个输入以及基于文件的输入。对于FileInputFormat，即从文件输入的输入方... 阅读全文

posted @ 2015-10-27 09:39 lz3018 阅读(2470) 评论(0) 推荐(0) 编辑

2015年10月24日

slot的含义

摘要： 1）slot就是槽的意思，是一个资源单位，只有给task分配了一个slot之后，这个task才可以运行。slot分两种，map slot沪蓉reduce slot。另外，slot是一个逻辑概念，一个数据节点的slots数量既不是CPU的核数，也不是memory chip，一个节点的slot数量用来表... 阅读全文

posted @ 2015-10-24 12:42 lz3018 阅读(2476) 评论(0) 推荐(0) 编辑

2015年10月23日

使用命令行编译、打包、运行WordCount--不用eclipse

摘要： 1）首先创建WordCount1023文件夹，然后在此目录下使用编辑器，例如vim编写WordCount源文件，并保存为WordCount.java文件 1 /** 2 * Licensed under the Apache License, Version 2.0 (the "Licens... 阅读全文

posted @ 2015-10-23 16:21 lz3018 阅读(771) 评论(0) 推荐(0) 编辑

2015年10月21日

看懂50030MapReduce页面参数

摘要： http://blog.csdn.net/dajuezhao/article/details/5734352 阅读全文

posted @ 2015-10-21 21:44 lz3018 阅读(189) 评论(0) 推荐(0) 编辑

2015年10月20日

eclipse下使用API操作HDFS

摘要： 1）使用eclipse，在HDFS上创建新目录import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public clas... 阅读全文

posted @ 2015-10-20 22:10 lz3018 阅读(659) 评论(0) 推荐(0) 编辑

公告