随笔分类 -  Hadoop

[转载]Hadoop InputFormat浅析
摘要:原文地址:http://hi.baidu.com/_kouu/blog/item/3f8809eb8ac4a9cfd539c902.html在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。MapReduce任务流程:1、运行mapred程序;2、本次运行将生成一个Job,于是JobClient向JobTracker申请一个JobID以标识这个Job;3、JobClie 阅读全文

posted @ 2012-04-27 19:11 南京大乱炖 阅读(375) 评论(0) 推荐(0) 编辑

轻松使用Hadoop RPC
摘要:Hadoop RPC是Hadoop的一个重要部分,提供分布式环境下的对象调用功能,源码在org.apache.hadoop.ipc中。而HBase也几乎完全copy了这部分的源码,只是在配置项上面有所改动。关于Hadoop RPC的机制分析和源码解读,网上已经有许多资料,一搜一大把,这里就不在描述了。本文通过一个小例子,介绍如何调用Hadoop RPC。1. 应用场景Hadoop RPC在整个Hadoop中应用非常广泛,Client、DataNode、NameNode之间的通讯全靠它了。举个例子,我们平时操作HDFS的时候,使用的是FileSystem类,它的内部有个DFSClient对象,这 阅读全文

posted @ 2011-12-30 18:54 南京大乱炖 阅读(6834) 评论(2) 推荐(8) 编辑

在eclipse中配置hadoop插件
摘要:1.安装插件准备程序:eclipse-3.3.2(这个版本的插件只能用这个版本的eclipse)hadoop-0.20.2-eclipse-plugin.jar (在hadoop-0.20.2/contrib/eclipse-plugin目录下)将hadoop-0.20.2-eclipse-plugin.jar 复制到eclipse/plugins目录下,重启eclipse。2.打开MapReduce视图Window -> Open Perspective -> Other 选择Map/Reduce,图标是个蓝色的象。3.添加一个MapReduce环境在eclipse下端,控制台旁 阅读全文

posted @ 2011-11-26 18:20 南京大乱炖 阅读(34057) 评论(4) 推荐(8) 编辑

Hadoop系列相关优秀网站收集
摘要:Hadoop技术论坛:http://www.hadoopor.comHBase相关技术收集:http://hbase.info/趋势科技中国研发中心 SPN研发团队技术博客:http://www.spnguru.com/淘宝搜索技术博客:http://www.searchtb.com/Alex的个人博客:http://www.gemini5201314.net/逖靖寒的世界:http://gpcuster.cnblogs.com/ 董的博客:http://dongxicheng.org/ 阅读全文

posted @ 2011-11-21 21:14 南京大乱炖 阅读(362) 评论(0) 推荐(0) 编辑

导航