2012年9月16日
摘要: 如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,Hadoop 记录了详尽的日志信息,日志文件保存在logs 文件夹内。无论是启动,还是以后会经常用到的MapReduce 中的每一个job,以及HDFS 等相关信息,Hadoop 均存有日志文件以供分析。例如:NameNode 和DataNode 的namespaceID 不一致,这个错误是很多人在安装时会遇到的,日志信息为:java .io.IOException: Incompatible namespaceIDs in /root/tmp/dfs/data: NameNodenamespac 阅读全文
posted @ 2012-09-16 23:56 Stephen_init 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 为了方便阐述,这里只搭建一个有三台主机的小集群。相信读者还没有忘记Hadoop 对主机的三种定位方式, 分别为master 和slave,JobTracker 和TaskTracker,NameNode 和DataNode。为了方便,在分配IP 地址时顺便规定一下角色。下面是为这三台机器分配的IP 地址及相应的角色:10.37.128.2-master,NamoNode,jobtracker-master(主机名)10.37.128.3-slave,DataNode,tasktracker-slave1(主机名)10.37.128.4-slave,DataNode,tasktracker-sl 阅读全文
posted @ 2012-09-16 23:54 Stephen_init 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 安装和配置Hadoop 集群1 网络拓扑通常来说,一个Hadoop 的集群体系结构由两层网络拓扑组成,如图2-1 所示。结合实际的应用来看,每个机架中会有30 ~ 40 台机器,这些机器共享一个1GB 带宽的网络交换机。在所有的机架之上还有一个核心交换机或路由器,通常来说其网络交换能力为1GB 或更高。可以很明显地看出,同一个机架中机器节点之间的带宽资源肯定要比不同机架中机器节点间丰富。这也是Hadoop 随后设计数据读写分发策略要考虑的一个重要因素。2 定义集群拓扑在实际应用中,为了使Hadoop 集群获得更高的性能,读者需要配置集群使Hadoop 能够感知其所在的网络拓扑结构。当然如果集群 阅读全文
posted @ 2012-09-16 23:52 Stephen_init 阅读(283) 评论(0) 推荐(0) 编辑
摘要: Hadoop 分别从三个角度将主机划分为两种角色。第一,划分为master 和slave,即主人与奴隶;第二,从HDFS 的角度,将主机划分为NameNode 和DataNode(在分布式文件系统中,目录的管理很重要,管理目录的就相当于主人,而NameNode 就是目录管理者);第三,从MapReduce 的角度,将主机划分为JobTracker 和TaskTracker(一个job 经常被划分为多个task,从这个角度不难理解它们之间的关系)。Hadoop 有官方发行版与cloudera 版,其中cloudera 版是Hadoop 的商用版本,这里先介绍Hadoop 官方发行版的安装方法。H 阅读全文
posted @ 2012-09-16 23:20 Stephen_init 阅读(218) 评论(0) 推荐(0) 编辑