摘要: 来自原小站,曾经迷糊过的东西,表上来,希望对正在迷糊或即将迷糊的人有帮助。  谈到系统的可伸缩性,Scale-up(纵向扩展)和Scale-out(横向扩展)是两个常见的术语,对于初学者来说,很容易搞迷糊这两个概念,这里总结了一些把概念解释的比较清楚的内容。  首先来段Wikipedia的,讲的很透彻了。 Scale vertically (scale up)  To scale vertica... 阅读全文
posted @ 2009-12-29 11:00 spork 阅读(12665) 评论(1) 推荐(2) 编辑
摘要: 来自原小站,技术含量≈0,翻译整理自Hadoop-The Definitive Guide。Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall。Pig是一个客户... 阅读全文
posted @ 2009-12-29 10:52 spork 阅读(9358) 评论(0) 推荐(0) 编辑
摘要: 还是原小站的东西,学习Hadoop的一些心得,扔这里保管先吧。  HDFS也有块(Block)的概念,但它的块是一个很大的单元,默认是64MB。像硬盘中的文件系统一样,在HDFS中的文件将会按块大小进行分解,并作为独立的单元进行存储。但和硬盘中的文件系统不一样的是,存储在块中的一个比块小的文件并不会占据一个块大小的硬盘物理空间(HDFS中一个块只存储一个文件的内容)。  那为什么HDFS中的块如此... 阅读全文
posted @ 2009-12-29 10:47 spork 阅读(1593) 评论(0) 推荐(0) 编辑
摘要: 从我小站转过来的,已经“牺牲”了,就放这吧,是我学习Hadoop中的一些心得。  HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点。目前而言,它在以下几个方面就效率不佳:  低延时访问  HDFS不太适合于那些要求低延时(数十毫秒)访问的应用程序,因为HDFS是设计用于大吞吐量数据的,这是以一定延时为代价的。HDFS是单Master的,所有的对文件的请... 阅读全文
posted @ 2009-12-29 10:37 spork 阅读(3514) 评论(0) 推荐(0) 编辑