HDFS学习笔记

1、流式数据访问:一次写入,多次读取是最高效的访问模式。数据集通常由数据源生成或从数据源复制而来,每次分析都在该数据集上进行

2、数据块:文件的独立存储单元,默认64MB;目的是为了最小化寻址开销;块的元数据存在namenode的内存中;HDFS中一个小于块大小的文件不会占据整个块的空间

3、namenode的容错为什么重要,容错的方法有哪些?

4、读文件的流程:

5、写文件的流程:

6、写文件中数据队列、管线、副本布局的问题

7、distcp并行复制

8、带宽:数据中心中最稀缺的资源!

 

posted @ 2013-07-11 21:23  kivi  阅读(204)  评论(0编辑  收藏  举报