文章档案「2011年12月」 - 像少年啦飞驰

12 2011 档案

摘要：HDFS存储系统中，引入了文件系统的分块概念（block），块是存储的最小单位，HDFS定义其大小为64MB。与单磁盘文件系统相似，存储在 HDFS上的文件均存储为多个块，不同的是，如果某文件大小没有到达64MB，该文件也不会占据整个块空间。在分布式的HDFS集群上，Hadoop系统保证一个块存储在一个datanode上。当我们执行hadoop fs -put aa.txt /bb.txt，则aa.txt会被复制为集群的/bb.txt。查看系统的log日志hadoop-$username-namenode-*.log，可以看到类似于2011-09-07 08:39:12,506 INFO 阅读全文

posted @ 2011-12-13 15:04 像少年啦飞驰阅读(8812) 评论(0) 推荐(0)

Hadoop平台优化综述

摘要：1. 概述随着企业要处理的数据量越来越大，MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现，由于其良好的扩展性和容错性，已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台，虽然其应用价值已得到大家认可，但仍存在很多问题，以下是主要几个：（1） Namenode/jobtracker单点故障。 Hadoop采用的是master/slaves架构，该架构管理起来比较简单，但存在致命的单点故障和空间容量不足等缺点，这已经严重影响了Hadoop的可扩展性。（2） HDFS小文件问题。在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，阅读全文

posted @ 2011-12-09 21:24 像少年啦飞驰阅读(3104) 评论(0) 推荐(0)