2012 年 7月 25 日随笔档案 - hanyuanbo

2012年7月25日

摘要： MapReduce过程Mapper的输出参数和Reducer的输入参数是一样的，都是中间需要处理的结果，而Reducer的输出结果便是我们想要的输出结果。所以根据需要对InputFormat进行较合理的设置，Job才能正常运行。Job过程中间的Key和Value的对应关系可以简单阐述如下：map: <k1,v1> -> list(k2,v2)combile: <k2,list(v2)> -> list(k2,v2)reduce: <k2,list(v2)> -> list(k3,v3)至于为什么需要显示指定中间、最终的数据... 阅读全文

posted @ 2012-07-25 20:15 hanyuanbo 阅读(802) 评论(0) 推荐(0) 编辑

《Hadoop管理四》从Secondary Namenode恢复Namenode

摘要：介绍如何从Secondary Namenode的checkpoint点恢复Namenode，对于以后理解从Checkpoint Node 和Backup Node恢复很有帮助。在core-site.xml的配置文件中，设置了checkpoint的时间间隔、大小限制和存储位置。<property> <name>fs.checkpoint.dir</name> <value>${hadoop.tmp.dir}/dfs/namesecondary</value> <description>Determines where on 阅读全文

posted @ 2012-07-25 20:12 hanyuanbo 阅读(341) 评论(0) 推荐(0) 编辑

《Hadoop管理三》集群移除旧节点

摘要： Hadoop集群管理员可能需要从集群中移除节点。过程其实很简单：将待移除的节点的ip地址添加到exclude文件中，exclude文件有由hdfs-site.xml中的dfs.hosts.exclude指定的文件内容指定。重启MapReduce集群，这是为了终止在待移除节点上运行的tasktracker。执行命令bin/hadoop dfsadmin -refreshNodes。这个过程Hadoop会将待移除节点上的数据移动到其他的节点上。此时待移除节点处在Decommission in Progress。当所有的节点变为 Decommissioned状态的时候，即可关闭待移除的节点机器从c 阅读全文

posted @ 2012-07-25 19:56 hanyuanbo 阅读(318) 评论(0) 推荐(0) 编辑

《Hadoop管理二》集群添加新节点

摘要： Hadoop集群管理员需要经常向集群中添加节点，过程其实很简单：按照之前datanode上的过程在新的机器上安装JDK、无密码SSH登录、解压相应版本的Hadoop按照之前datanode上的过程在新的机器上配置hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml四个配置文件，将JAVA_HOME、hadoop.tmp.dir和fs.default.name、dfs.replication、mapred.job.tracker进行相应的配置配置网络地址加入到原来的集群中去修改Namenode上的dfs.hosts（在hdfs-sit 阅读全文

posted @ 2012-07-25 17:39 hanyuanbo 阅读(516) 评论(0) 推荐(0) 编辑

《Hadoop管理一》checkpoint原理和过程

摘要：理解这两个概念，对于理解Hadoop是如何管理备份，Secondary Namenode、Checkpoint Namenode和Backup Node如何工作的很重要。fsimage：文件是文件系统元数据的一个永久性检查点，包含文件系统中的所有目录和文件idnode的序列化信息。edits：文件系统的写操作首先把它记录在edit中将文件系统个元数据操作分开操作，是为了提升内存的处理效率。如果不分开处理，即所有的写操作均记录在一个文件中，比如，fsimage中，那么每个操作都会对这个文件进行修改，因为这个文件可能会很大，所以每次进行写操作的时候就会很慢，随着fsimage越来越大，速度便会越来阅读全文

posted @ 2012-07-25 17:24 hanyuanbo 阅读(3425) 评论(0) 推荐(0) 编辑

hanyuanbo

公告