摘要: HDFS建立在大多数高效的数据处理模式都是一次写入,多次读取。 每次数据的读取,都会涉及到一个相当大的比例,因此读取整个数据的时间远远比读取第一份数据的延迟更重要。 namenode知道块在哪个datenode上,但不知道块的后续位置。 namenode失效的话,整个文件系统将会无法使用,因此对na 阅读全文
posted @ 2016-03-02 20:23 dalu610 阅读(126) 评论(0) 推荐(0) 编辑
摘要: MapReduce是一个处理数据的项目模型。Hadoop可以通过多个语言来写MapReduce项目。MapReduce是天生并行(inherently parallel)的。 为什么说这个天气数据集是非常好的candidate对于MapReduce,其中提到的两个特征:半结构化(semi-struc 阅读全文
posted @ 2016-03-02 15:09 dalu610 阅读(110) 评论(0) 推荐(0) 编辑