hadoop 基础入门及操作

Hadoop 的组成

Hadoop1.x
MapReduce	(计算+资源调度)
HDFS		(数据存储)
Common		(辅助工具)
Hadoop2.x
MapReduce	(计算)
Yarn		(资源调度)
HDFS		(数据存储)
Common		(辅助工具)
HDFS 机构概述

1、NameNode(nn):存储文件元数据,如文件名,文件目录结构,文件属性(生产时间、副本数、文件权限),以及每个文件的块列表和块所在的Datanode等

2、DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

3、Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HFDS元数据的快照。

YARN 架构概述

1、ResourceManager(RM)主要作用如下

  • 处理客户的请求
  • 监控NodeManager

2、NodeManager(NM)主要作用如下

  • 管理单个节点上的资源
  • 处理来自ResourceManager的命令
  • 处理来自ApplicationMaser的命令

ApplicationMaser(AM)

  • 负责数据的切分
  • 为应用程序申请资源并分配给内部的任务
  • 任务的监控与容错

Container

  • Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、cpu、磁盘、网络等。
hadoop 伪分布模式的配置和启动

配置环境

vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk

配置HDFS

etc/hadoop/core-site.xml:

<configuration>
    <property>		<!-- 指定NameNode的地址 -->
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop201:9000</value>
    </property>
    <property>		<!-- 指定Hadoop运行时产生文件的存储目录 -->
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadooop/data/tmp</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

格式化启动hdfs

 bin/hdfs namenode -format

后台启动

sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode

jps 验证启动
群起集群

1、如果集群是第一次启动,需要格式化NameNode (注意格式化之前,一定要先停止上次启动的所有namenode和datanode进程),然后再删除data和logs目录

bin/hdfs namenode -format

2、启动HDFS

sbin/start-dfs.sh

3、启动YARN

sbin/start-yarn.sh

4、web 端查看SecondaryNameNode

浏览器输入:http://hadoop20?:50090

注意:NameNode和ResourceManager如果不是同一台机器,不能在NameNode上启动YARN,应该在ResourceManager所在的机器上启动YARN。

posted @ 2021-05-13 16:35  devops运维-小灰灰  阅读(333)  评论(0编辑  收藏  举报