HDFS

HDFS建立在大多数高效的数据处理模式都是一次写入，多次读取。
每次数据的读取，都会涉及到一个相当大的比例，因此读取整个数据的时间远远比读取第一份数据的延迟更重要。
namenode知道块在哪个datenode上，但不知道块的后续位置。
namenode失效的话，整个文件系统将会无法使用，因此对namenode的容错非常关键，Hadoop提供两种方式，一种是备份文件保持文件系统元数据的持久话状态，这个写操作是可以配置成同步且原子操作。通常是本地磁盘和远端的NFS挂载。
为什么URLStreamHandlerFactory只能被每一个JVM调用一次（设计模式吗？）
HDFS中的每个文件是一个Path对象(URI)，而不是一个File对象。
FileSystem get(Configuration conf)一个Configuration对象封装了Client或者server的配置信息，通过classpath读取配置文件，例如/etc/hadoop/core-site.xml,返回默认的文件系统，在core-site.xml配置，如果没有配置就是本地文件系统。

posted @ 2016-03-02 20:23 dalu610 阅读(132) 评论(0) 收藏举报

刷新页面返回顶部

dalu610