hadoop集群的部署和使用的基础原理知识

1、Hadoop的两大核心：HDFS(对底层硬件的需求)与MapReduce(对底层硬件的需求)

2、整个Hadoop集群的主要节点类别：【属于HDFS】
NameNode（名称节点、类似目录服务器,）和 DataNode(数据节点、存取数据)【访问规则是：先访问NameNode获得具体的数据存储的地点信息、在跑到具体的地址去取数据节点的数据的信息】

3、MapReduce的两大核心组件：JobTracker(相当于作业管家，负责对整个作业进行调度管理)和TaskTracker(负责执行和跟踪作业管家分配给自己的作业) 【工作流程：把一个用户大的作业拆分成很多小作业，JobTracker协调不同的机器去执行、不同的机器上面安装了TaskTracker,每一个TaskTracker负责执行和跟踪分配给自己的作业。】

4、Secondary NameNode是HDFS的一个组件、是NameNode的一个备份(在HDFS1.0中是冷备份、在2.0中是热备份)

5、集群硬件配置：
对于DataNode/TaskTracker的硬件规格采用以下方案：
（1）. 4个磁盘驱动器(单盘1-2T)、支持JBOD
（2）. 2个4核CPU、至少2-2.5FHz
（4）.16-24G内存
（5）.千兆以太网、完成节点之间的数据传输。

对于NameNode总管家、管理各种元数据并提供服务、NameNode里面有很多元数据、都是直接保存在内存当中，所以其方案：
（1）.内存16-72GB、进行过通道优化
（2）.两个4核或8核CPU
（3）.网络带宽：万兆

对于冷备份Secondary NameNode的配置方案：
如果是小集群、可以把Secondary NameNode和NameNode放在一起。
如果是大集群，需要把单独设置一台服务器充当Secondary NameNode，性能配置和NameNode差不多。

由于存储日志和中间文件，需要额外增加存储空间。

NameNode(属于HDFS)和JobTracker(属于MapReduce)是可以运行在同一节点上面的、但一般分开部署到两个不同机器，原因是在一起耗能、以及分开比较方便使用。
Secondary NameNode和NameNode也是分开部署到不同机器。

机架式集群服务器内部的机器与机器之间(一台服务器与另一台服务器之间)采用千兆的1GB带宽的交换机去连接，不同机架式集群服务器之间使用万兆连起来。

6、Hadoop集群基准测试：(测试性能)
（1）.用TestDFSIO基准测试来测试HDFS的IO性能。
（2）.用排序测试MapReduce：Hadoop自带一个部分排序的程序，测试过程的整个数据集都会通过洗牌(shuffle)传输至Reducer，可充分测试MapReduce的性能。

7、在云计算环境使用Hadoop：
在云服务器中部署即可。全分布式部署

posted @ 2019-09-07 16:23 Tony学长阅读(220) 评论(0) 收藏举报

刷新页面返回顶部

Tony学长

人生苦短，记录生活，天道殷勤，请多关注！

hadoop集群的部署和使用的基础原理知识

公告

Tony学长

人生苦短，记录生活，天道殷勤，请多关注！

hadoop集群的部署和使用 的基础原理知识

公告

hadoop集群的部署和使用的基础原理知识