hadoop 基础入门及操作
Hadoop 的组成
Hadoop1.x
MapReduce (计算+资源调度)
HDFS (数据存储)
Common (辅助工具)
Hadoop2.x
MapReduce (计算)
Yarn (资源调度)
HDFS (数据存储)
Common (辅助工具)
HDFS 机构概述
1、NameNode(nn):存储文件元数据,如文件名,文件目录结构,文件属性(生产时间、副本数、文件权限),以及每个文件的块列表和块所在的Datanode等
2、DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
3、Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HFDS元数据的快照。
YARN 架构概述
1、ResourceManager(RM)主要作用如下
- 处理客户的请求
- 监控NodeManager
2、NodeManager(NM)主要作用如下
- 管理单个节点上的资源
- 处理来自ResourceManager的命令
- 处理来自ApplicationMaser的命令
ApplicationMaser(AM)
- 负责数据的切分
- 为应用程序申请资源并分配给内部的任务
- 任务的监控与容错
Container
- Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、cpu、磁盘、网络等。
hadoop 伪分布模式的配置和启动
配置环境
vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk
配置HDFS
etc/hadoop/core-site.xml:
<configuration>
<property> <!-- 指定NameNode的地址 -->
<name>fs.defaultFS</name>
<value>hdfs://hadoop201:9000</value>
</property>
<property> <!-- 指定Hadoop运行时产生文件的存储目录 -->
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadooop/data/tmp</value>
</property>
</configuration>
etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
格式化启动hdfs
bin/hdfs namenode -format
后台启动
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
jps 验证启动
群起集群
1、如果集群是第一次启动,需要格式化NameNode (注意格式化之前,一定要先停止上次启动的所有namenode和datanode进程),然后再删除data和logs目录
bin/hdfs namenode -format
2、启动HDFS
sbin/start-dfs.sh
3、启动YARN
sbin/start-yarn.sh
4、web 端查看SecondaryNameNode
浏览器输入:http://hadoop20?:50090
注意:NameNode和ResourceManager如果不是同一台机器,不能在NameNode上启动YARN,应该在ResourceManager所在的机器上启动YARN。