随笔档案「2012年12月9日」：Hadoop编程学习（三）：namenode内部关键数据结构介绍 ... - beanmoon

2012年12月9日

摘要： 1 概述本文档目的在于对namenode中各种关键的数据结构进行剖析和解释，以方便更好的对namenode的各种处理逻辑和代码结构进行理解。其中包括对namenode中Namenode和FSNameSystem的程序代码结构，FSDirectory，BlocksMap， CorruptReplicationMap，excessReplicateMap， UnderReplicatedBlocks，PendingReplictiondBlocks等数据结构的介绍。1.1 代码结构1.1.1 NameNode在HDFS中，namenode的服务提供整个HDFS文件系统的namespace管理，块管阅读全文

posted @ 2012-12-09 21:04 beanmoon 阅读(1177) 评论(0) 推荐(1)

Hadoop学习笔记（三）：Combiner funcitons

摘要：很多MapReduce程序受限于集群上可用的带宽，所以它会尽力最小化需要在map和reduce任务之间传输的中间数据。Hadoop允许用户声明一个combiner function来处理map的输出，同时把自己对map的处理结果作为reduce的输入。因为combiner function本身只是一种优化，hadoop并不保证对于某个map输出，这个方法会被调用多少次。换句话说，不管combiner function被调用多少次，对应的reduce输出结果都应该是一样的。下面我们以学习笔记（一）中的例子来加以说明，假设1950年的天气数据读取是由两个map完成的，其中第一个map的输出... 阅读全文

posted @ 2012-12-09 09:10 beanmoon 阅读(2844) 评论(0) 推荐(0)

Beanmoon

公告