HDFS

  1. HDFS建立在大多数高效的数据处理模式都是一次写入,多次读取。
  2. 每次数据的读取,都会涉及到一个相当大的比例,因此读取整个数据的时间远远比读取第一份数据的延迟更重要。
  3. namenode知道块在哪个datenode上,但不知道块的后续位置。
  4. namenode失效的话,整个文件系统将会无法使用,因此对namenode的容错非常关键,Hadoop提供两种方式,一种是备份文件保持文件系统元数据的持久话状态,这个写操作是可以配置成同步且原子操作。通常是本地磁盘和远端的NFS挂载。
  5. 为什么URLStreamHandlerFactory只能被每一个JVM调用一次(设计模式吗?)
  6. HDFS中的每个文件是一个Path对象(URI),而不是一个File对象。
  7. FileSystem get(Configuration conf)一个Configuration对象封装了Client或者server的配置信息,通过classpath读取配置文件,例如/etc/hadoop/core-site.xml,返回默认的文件系统,在core-site.xml配置,如果没有配置就是本地文件系统。

 

posted @ 2016-03-02 20:23  dalu610  阅读(126)  评论(0编辑  收藏  举报