HDFS学习笔记

1、流式数据访问：一次写入，多次读取是最高效的访问模式。数据集通常由数据源生成或从数据源复制而来，每次分析都在该数据集上进行

2、数据块：文件的独立存储单元，默认64MB;目的是为了最小化寻址开销；块的元数据存在namenode的内存中；HDFS中一个小于块大小的文件不会占据整个块的空间

3、namenode的容错为什么重要，容错的方法有哪些？