01 2010 档案

《Hadoop开发者》第一期@入门专刊

摘要：我们论坛出的第一期Hadoop电子杂志, 欢迎大家下载.目录1 Hadoop介绍2 Hadoop在国内应用情况3 Hadoop源代码eclipse编译教程7 在Windows上安装Hadoop教程13 在Linux上安装Hadoop教程19 在Windows上使用eclipse编写Hadoop应用程序24 在Windows中使用Cygwin安装HBase28 Nutch 与Hado... 阅读全文

posted @ 2010-01-28 17:39 spork 阅读(3968) 评论(0) 推荐(0) 编辑

MapReduce数据流（三）

摘要：额外的MapReduce功能图4.6 插入了Combiner的MapReduce数据流　　Combiner：前面展示的流水线忽略了一个可以优化MapReduce作业所使用带宽的步骤，这个过程叫Combiner，它在Mapper之后Reducer之前运行。Combiner是可选的，如果这个过程适合于你的作业，Combiner实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点上的... 阅读全文

posted @ 2010-01-11 19:54 spork 阅读(4599) 评论(0) 推荐(0) 编辑

MapReduce数据流（二）

摘要：接上一篇：MapReduce数据流（一）　　　　输入块（InputSplit）：一个输入块描述了构成MapReduce程序中单个map任务的一个单元。把一个MapReduce程序应用到一个数据集上，即是指一个作业，会由几个（也可能几百个）任务组成。Map任务可能会读取整个文件，但一般是读取文件的一部分。默认情况下，FileInputFormat及其子类会以64MB（与HDFS的Block默认大小相... 阅读全文

posted @ 2010-01-11 19:50 spork 阅读(10054) 评论(0) 推荐(1) 编辑

MapReduce数据流（一）

摘要：在上一篇文章中我们讲解了一个基本的MapReduce作业由那些基本组件组成，从高层来看，所有的组件在一起工作时如下图所示：图4.4高层MapReduce工作流水线　　MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，每一个mapping任务都是平等的：mappers没有特定&ld... 阅读全文

posted @ 2010-01-11 19:36 spork 阅读(11682) 评论(1) 推荐(2) 编辑

MapReduce基础

摘要：这篇文章翻译自Yahoo的Hadoop教程，很久之前就看过了，感觉还不错。最近想总结一下以前学的东西，看到现在关于Hadoop的中文资料还比较少，就有了把它翻译出来的想法，希望能帮助到初学者。这只是Yahoo的Hadoop教程中很小的一部分，我下去还会选一些来翻译，一般来说只翻译讲原理的，操作类的就不翻译了。水平有限，不妥之处，请指正（感觉翻译过来后，读起来倒是没英文的顺畅：）。废话说完，正文开始... 阅读全文

posted @ 2010-01-10 18:16 spork 阅读(7544) 评论(0) 推荐(4) 编辑

公告

昵称： spork
园龄： 15年2个月
粉丝： 100
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

01 2010 档案

公告

搜索

我的标签

随笔分类 (27)

随笔档案 (24)

友情链接

阅读排行榜

评论排行榜

推荐排行榜

最新评论