hadoop集群的部署和使用 的基础原理知识

1、Hadoop的两大核心:HDFS(对底层硬件的需求)与MapReduce(对底层硬件的需求)

2、整个Hadoop集群的主要节点类别:【属于HDFS】
NameNode(名称节点、类似目录服务器,) 和 DataNode(数据节点、存取数据)【访问规则是:先访问NameNode获得具体的数据存储的地点信息、在跑到具体的地址去取数据节点的数据的信息】

3、MapReduce的两大核心组件:JobTracker(相当于作业管家,负责对整个作业进行调度管理)和TaskTracker(负责执行和跟踪作业管家分配给自己的作业) 【工作流程:把一个用户大的作业拆分成很多小作业,JobTracker协调不同的机器去执行、不同的机器上面安装了TaskTracker,每一个TaskTracker负责执行和跟踪分配给自己的作业。】

4、Secondary NameNode是HDFS的一个组件、是NameNode的一个备份(在HDFS1.0中是冷备份、在2.0中是热备份)

5、集群硬件配置:
对于DataNode/TaskTracker的硬件规格采用以下方案:
(1). 4个磁盘驱动器(单盘1-2T)、支持JBOD
(2). 2个4核CPU、至少2-2.5FHz
(4).16-24G内存
(5).千兆以太网、完成节点之间的数据传输。

对于NameNode总管家、管理各种元数据并提供服务、NameNode里面有很多元数据、都是直接保存在内存当中,所以其方案:
(1).内存16-72GB、进行过通道优化
(2).两个4核或8核CPU
(3).网络带宽:万兆

对于冷备份Secondary NameNode的配置方案:
如果是小集群、可以把Secondary NameNode和NameNode放在一起。
如果是大集群,需要把单独设置一台服务器充当Secondary NameNode,性能配置和NameNode差不多。

由于存储日志和中间文件,需要额外增加存储空间。

NameNode(属于HDFS)和JobTracker(属于MapReduce)是可以运行在同一节点上面的、但一般分开部署到两个不同机器,原因是在一起耗能、以及分开比较方便使用。
Secondary NameNode和NameNode也是分开部署到不同机器。

机架式集群服务器内部的机器与机器之间(一台服务器与另一台服务器之间)采用千兆的1GB带宽的交换机去连接,不同机架式集群服务器之间使用万兆连起来。

6、Hadoop集群基准测试:(测试性能)
(1).用TestDFSIO基准测试来测试HDFS的IO性能。
(2).用排序测试MapReduce:Hadoop自带一个部分排序的程序,测试过程的整个数据集都会通过洗牌(shuffle)传输至Reducer,可充分测试MapReduce的性能。

7、在云计算环境使用Hadoop:
在云服务器中部署即可。全分布式部署

posted @ 2019-09-07 16:23  Tony学长  阅读(212)  评论(0编辑  收藏  举报