摘要: 一. hdfs设计的动机为大规模分布式计算准备的分布式文件系统,并非实时性要求很高的文件系统。二. 设计的取舍1. 因为要求有高吞吐量,所以牺牲读取文件的实时性,实时性要求高的分布式文件系统可以选择hbase2. 使用廉价的机器,所以任意一个存储节点可能会挂掉,将之视为hadoop的常态3. 流式存储,一次写入,多次读取进行数据迭代,写入也尽量采取在文件的末尾进行追加的方式,在任意一处写入数据的操作代价很高,尽量不要做4. 不鼓励使用大量的小文件处理,每个小文件都需要都有一个元数据来存储这些小文件的信息,并且这些信息都存储在namenode上,一条元数据大概是150K左右的大小,而nameno 阅读全文
posted @ 2013-09-01 23:15 樱色布 阅读(2362) 评论(0) 推荐(0) 编辑