随笔分类 -  Hadoop

Hadoop分布式文件系统(HDFS)设计
摘要:Hadoop分布式文件系统是设计初衷是可靠的存储大数据集,并且使应用程序高带宽的流式处理存储的大数据集。在一个成千个server的大集群中,每个server不仅要管理存储的这些数据,而且可以执行应用程序任务。通过分布式存储和在各个server间交叉运算,集群和存储可以按需动态经济增长。以下的设计原则... 阅读全文
posted @ 2014-10-17 03:55 Stephen_init 阅读(918) 评论(0) 推荐(0)
<转>Hadoop入门总结
摘要:转自:http://www.cnblogs.com/skyme/archive/2012/06/01/2529855.html第1章 引言1.1 编写目的对关于hadoop的文档及资料进行进一步的整理。1.2 相关网站 毋庸置疑 http://hadoop.apache.org/ 国内 http://www.hadoopor.com/ 专门研究hadoop的,《hadoop开发者》由该站创办,已发4期 中国云计算论坛hadoop专区; http://bbs.chinacloud.cn/showforum-16.aspx 中科院计算所办的hadoop:http://www.hadooper.cn 阅读全文
posted @ 2013-11-14 16:04 Stephen_init 阅读(397) 评论(0) 推荐(0)
<转>单机版搭建Hadoop环境
摘要:安装过程: 一、安装Linux操作系统 二、在Ubuntu下创建hadoop用户组和用户 三、在Ubuntu下安装JDK 四、修改机器名 五、安装ssh服务 六、建立ssh无密码登录本机 七、安装hadoop 八、在单机上运行hadoop一、安装Linux操作系统 我们是在windows中安装linux系统的,选择的是ubuntu11.10,介于有些朋友是第一次安装双系统,下面我就介绍一种简单的安装方法: 1、下载ubuntu-11.10-desktop-i386.iso镜像文件,用虚拟光驱打开,执行里面的wubi.exe程序,如图(1)2、选择在widows中安装,如图(2)3、在弹出的.. 阅读全文
posted @ 2013-07-24 00:23 Stephen_init 阅读(264) 评论(0) 推荐(0)
(转)Zookeeper原理和作用
摘要:本周末学习zookeeper,原理和安装配置本文参考: http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/http://zookeeper.apache.org/Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储,但是 Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。Zookeeper安装和配置比较简单,可以参考官网 阅读全文
posted @ 2013-06-28 09:28 Stephen_init 阅读(1660) 评论(0) 推荐(0)
Hadoopz安装与配置-日志分析(4)
摘要:如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,Hadoop 记录了详尽的日志信息,日志文件保存在logs 文件夹内。无论是启动,还是以后会经常用到的MapReduce 中的每一个job,以及HDFS 等相关信息,Hadoop 均存有日志文件以供分析。例如:NameNode 和DataNode 的namespaceID 不一致,这个错误是很多人在安装时会遇到的,日志信息为:java .io.IOException: Incompatible namespaceIDs in /root/tmp/dfs/data: NameNodenamespac 阅读全文
posted @ 2012-09-16 23:56 Stephen_init 阅读(132) 评论(0) 推荐(0)
Hadoopz安装与配置-配置实例(3)
摘要:为了方便阐述,这里只搭建一个有三台主机的小集群。相信读者还没有忘记Hadoop 对主机的三种定位方式, 分别为master 和slave,JobTracker 和TaskTracker,NameNode 和DataNode。为了方便,在分配IP 地址时顺便规定一下角色。下面是为这三台机器分配的IP 地址及相应的角色:10.37.128.2-master,NamoNode,jobtracker-master(主机名)10.37.128.3-slave,DataNode,tasktracker-slave1(主机名)10.37.128.4-slave,DataNode,tasktracker-sl 阅读全文
posted @ 2012-09-16 23:54 Stephen_init 阅读(188) 评论(0) 推荐(0)
Hadoopz安装与配置-集群(2)
摘要:安装和配置Hadoop 集群1 网络拓扑通常来说,一个Hadoop 的集群体系结构由两层网络拓扑组成,如图2-1 所示。结合实际的应用来看,每个机架中会有30 ~ 40 台机器,这些机器共享一个1GB 带宽的网络交换机。在所有的机架之上还有一个核心交换机或路由器,通常来说其网络交换能力为1GB 或更高。可以很明显地看出,同一个机架中机器节点之间的带宽资源肯定要比不同机架中机器节点间丰富。这也是Hadoop 随后设计数据读写分发策略要考虑的一个重要因素。2 定义集群拓扑在实际应用中,为了使Hadoop 集群获得更高的性能,读者需要配置集群使Hadoop 能够感知其所在的网络拓扑结构。当然如果集群 阅读全文
posted @ 2012-09-16 23:52 Stephen_init 阅读(284) 评论(0) 推荐(0)
Hadoopz安装与配置-单机(1)
摘要:Hadoop 分别从三个角度将主机划分为两种角色。第一,划分为master 和slave,即主人与奴隶;第二,从HDFS 的角度,将主机划分为NameNode 和DataNode(在分布式文件系统中,目录的管理很重要,管理目录的就相当于主人,而NameNode 就是目录管理者);第三,从MapReduce 的角度,将主机划分为JobTracker 和TaskTracker(一个job 经常被划分为多个task,从这个角度不难理解它们之间的关系)。Hadoop 有官方发行版与cloudera 版,其中cloudera 版是Hadoop 的商用版本,这里先介绍Hadoop 官方发行版的安装方法。H 阅读全文
posted @ 2012-09-16 23:20 Stephen_init 阅读(223) 评论(0) 推荐(0)