摘要:
MapReduce过程Mapper的输出参数和Reducer的输入参数是一样的,都是中间需要处理的结果,而Reducer的输出结果便是我们想要的输出结果。所以根据需要对InputFormat进行较合理的设置,Job才能正常运行。Job过程中间的Key和Value的对应关系可以简单阐述如下:map: <k1,v1> -> list(k2,v2)combile: <k2,list(v2)> -> list(k2,v2)reduce: <k2,list(v2)> -> list(k3,v3)至于为什么需要显示指定中间、最终的数据... 阅读全文
摘要:
介绍如何从Secondary Namenode的checkpoint点恢复Namenode,对于以后理解从Checkpoint Node 和Backup Node恢复很有帮助。在core-site.xml的配置文件中,设置了checkpoint的时间间隔、大小限制和存储位置。<property> <name>fs.checkpoint.dir</name> <value>${hadoop.tmp.dir}/dfs/namesecondary</value> <description>Determines where on 阅读全文
摘要:
Hadoop集群管理员可能需要从集群中移除节点。过程其实很简单:将待移除的节点的ip地址添加到exclude文件中,exclude文件有由hdfs-site.xml中的dfs.hosts.exclude指定的文件内容指定。重启MapReduce集群,这是为了终止在待移除节点上运行的tasktracker。执行命令bin/hadoop dfsadmin -refreshNodes。 这个过程Hadoop会将待移除节点上的数据移动到其他的节点上。此时待移除节点处在Decommission in Progress。当所有的节点变为 Decommissioned状态的时候,即可关闭待移除的节点机器从c 阅读全文
摘要:
Hadoop集群管理员需要经常向集群中添加节点,过程其实很简单:按照之前datanode上的过程在新的机器上安装JDK、无密码SSH登录、解压相应版本的Hadoop按照之前datanode上的过程在新的机器上配置hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml四个配置文件,将JAVA_HOME、hadoop.tmp.dir和fs.default.name、dfs.replication、mapred.job.tracker进行相应的配置配置网络地址加入到原来的集群中去修改Namenode上的dfs.hosts(在hdfs-sit 阅读全文
摘要:
理解这两个概念,对于理解Hadoop是如何管理备份,Secondary Namenode、Checkpoint Namenode和Backup Node如何工作的很重要。fsimage:文件是文件系统元数据的一个永久性检查点,包含文件系统中的所有目录和文件idnode的序列化信息。edits:文件系统的写操作首先把它记录在edit中将文件系统个元数据操作分开操作,是为了提升内存的处理效率。如果不分开处理,即所有的写操作均记录在一个文件中,比如,fsimage中,那么每个操作都会对这个文件进行修改,因为这个文件可能会很大,所以每次进行写操作的时候就会很慢,随着fsimage越来越大,速度便会越来 阅读全文