spork - 博客园

2010年1月11日

摘要：额外的MapReduce功能图4.6 插入了Combiner的MapReduce数据流　　Combiner：前面展示的流水线忽略了一个可以优化MapReduce作业所使用带宽的步骤，这个过程叫Combiner，它在Mapper之后Reducer之前运行。Combiner是可选的，如果这个过程适合于你的作业，Combiner实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点上的... 阅读全文

posted @ 2010-01-11 19:54 spork 阅读(4613) 评论(0) 推荐(0)

MapReduce数据流（二）

摘要：接上一篇：MapReduce数据流（一）　　　　输入块（InputSplit）：一个输入块描述了构成MapReduce程序中单个map任务的一个单元。把一个MapReduce程序应用到一个数据集上，即是指一个作业，会由几个（也可能几百个）任务组成。Map任务可能会读取整个文件，但一般是读取文件的一部分。默认情况下，FileInputFormat及其子类会以64MB（与HDFS的Block默认大小相... 阅读全文

posted @ 2010-01-11 19:50 spork 阅读(10068) 评论(0) 推荐(1)

MapReduce数据流（一）

摘要：在上一篇文章中我们讲解了一个基本的MapReduce作业由那些基本组件组成，从高层来看，所有的组件在一起工作时如下图所示：图4.4高层MapReduce工作流水线　　MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，每一个mapping任务都是平等的：mappers没有特定&ld... 阅读全文

posted @ 2010-01-11 19:36 spork 阅读(11706) 评论(1) 推荐(2)

2010年1月10日

MapReduce基础

摘要：这篇文章翻译自Yahoo的Hadoop教程，很久之前就看过了，感觉还不错。最近想总结一下以前学的东西，看到现在关于Hadoop的中文资料还比较少，就有了把它翻译出来的想法，希望能帮助到初学者。这只是Yahoo的Hadoop教程中很小的一部分，我下去还会选一些来翻译，一般来说只翻译讲原理的，操作类的就不翻译了。水平有限，不妥之处，请指正（感觉翻译过来后，读起来倒是没英文的顺畅：）。废话说完，正文开始... 阅读全文

posted @ 2010-01-10 18:16 spork 阅读(7578) 评论(0) 推荐(4)

2009年12月29日

Scale-up and Scale-out

摘要：来自原小站，曾经迷糊过的东西，表上来，希望对正在迷糊或即将迷糊的人有帮助。　　谈到系统的可伸缩性，Scale-up（纵向扩展）和Scale-out（横向扩展）是两个常见的术语，对于初学者来说，很容易搞迷糊这两个概念，这里总结了一些把概念解释的比较清楚的内容。　　首先来段Wikipedia的，讲的很透彻了。 Scale vertically (scale up)　　To scale vertica... 阅读全文

posted @ 2009-12-29 11:00 spork 阅读(12736) 评论(1) 推荐(2)

Pig安装与配置教程

摘要：来自原小站，技术含量≈0，翻译整理自Hadoop-The Definitive Guide。Pig是yahoo捐献给apache的一个项目，它是SQL-like语言，是在MapReduce上构建的一种高级查询语言，把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall。Pig是一个客户... 阅读全文

posted @ 2009-12-29 10:52 spork 阅读(9461) 评论(0) 推荐(0)

About HDFS blocks

摘要：还是原小站的东西，学习Hadoop的一些心得，扔这里保管先吧。　　HDFS也有块（Block）的概念，但它的块是一个很大的单元，默认是64MB。像硬盘中的文件系统一样，在HDFS中的文件将会按块大小进行分解，并作为独立的单元进行存储。但和硬盘中的文件系统不一样的是，存储在块中的一个比块小的文件并不会占据一个块大小的硬盘物理空间（HDFS中一个块只存储一个文件的内容）。　　那为什么HDFS中的块如此... 阅读全文

posted @ 2009-12-29 10:47 spork 阅读(1605) 评论(0) 推荐(0)

HDFS的缺点及改进策略

摘要：从我小站转过来的，已经“牺牲”了，就放这吧，是我学习Hadoop中的一些心得。　　HDFS是一个不错的分布式文件系统，它有很多的优点，但也存在有一些缺点。目前而言，它在以下几个方面就效率不佳：　　低延时访问　　HDFS不太适合于那些要求低延时（数十毫秒）访问的应用程序，因为HDFS是设计用于大吞吐量数据的，这是以一定延时为代价的。HDFS是单Master的，所有的对文件的请... 阅读全文

posted @ 2009-12-29 10:37 spork 阅读(3537) 评论(0) 推荐(0)

2009年12月28日

开篇

摘要：我，一懒人，以前也开过几个博客，写过些文章，但由于懒，懒得想，懒得写，最终都放弃了。　　前阵子，觉得自己学东西老是容易忘，或者有时做事半天找不出什么思路来。就想在网上找片地，安个家，把自己的技术生活的一些点滴记录下来，以便后续查阅，也希望利用写作理思路的同时能产生些 Ideas。于是乎，申请了域名和空间用Wordpress折腾了一个小站。但生不逢时，赶上了大家众所周知的事情，小站无辜受牵连被封至今... 阅读全文

posted @ 2009-12-28 19:59 spork 阅读(386) 评论(1) 推荐(1)

公告