01 2010 档案

摘要:我们论坛出的第一期Hadoop电子杂志, 欢迎大家下载.目录1 Hadoop介绍2 Hadoop在国内应用情况3 Hadoop源代码eclipse编译教程7 在Windows上安装Hadoop教程13 在Linux上安装Hadoop教程19 在Windows上使用eclipse编写Hadoop应用程序24 在Windows中使用Cygwin安装HBase28 Nutch 与Hado... 阅读全文
posted @ 2010-01-28 17:39 spork 阅读(3968) 评论(0) 推荐(0) 编辑
摘要:额外的MapReduce功能图4.6 插入了Combiner的MapReduce数据流  Combiner:前面展示的流水线忽略了一个可以优化MapReduce作业所使用带宽的步骤,这个过程叫Combiner,它在Mapper之后Reducer之前运行。Combiner是可选的,如果这个过程适合于你的作业,Combiner实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点上的... 阅读全文
posted @ 2010-01-11 19:54 spork 阅读(4599) 评论(0) 推荐(0) 编辑
摘要:接上一篇:MapReduce数据流(一)    输入块(InputSplit):一个输入块描述了构成MapReduce程序中单个map任务的一个单元。把一个MapReduce程序应用到一个数据集上,即是指一个作业,会由几个(也可能几百个)任务组成。Map任务可能会读取整个文件,但一般是读取文件的一部分。默认情况下,FileInputFormat及其子类会以64MB(与HDFS的Block默认大小相... 阅读全文
posted @ 2010-01-11 19:50 spork 阅读(10054) 评论(0) 推荐(1) 编辑
摘要:在上一篇文章中我们讲解了一个基本的MapReduce作业由那些基本组件组成,从高层来看,所有的组件在一起工作时如下图所示:图4.4高层MapReduce工作流水线  MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定&ld... 阅读全文
posted @ 2010-01-11 19:36 spork 阅读(11682) 评论(1) 推荐(2) 编辑
摘要:这篇文章翻译自Yahoo的Hadoop教程,很久之前就看过了,感觉还不错。最近想总结一下以前学的东西,看到现在关于Hadoop的中文资料还比较少,就有了把它翻译出来的想法,希望能帮助到初学者。这只是Yahoo的Hadoop教程中很小的一部分,我下去还会选一些来翻译,一般来说只翻译讲原理的,操作类的就不翻译了。水平有限,不妥之处,请指正(感觉翻译过来后,读起来倒是没英文的顺畅:)。废话说完,正文开始... 阅读全文
posted @ 2010-01-10 18:16 spork 阅读(7544) 评论(0) 推荐(4) 编辑

点击右上角即可分享
微信分享提示