Hadoop集群搭建(Yarn集群搭建)

学习大数据首先要学习Hadoop，学习之前肯定要先把软件安装好。

环境：

Cenots7(3台), JDK1.8.0_144, Hadoop3.3.0

一、先准备软件包，下载Hadoop：（三台机器都操作）

1.1进入/opt/soft/目录。

1.2 wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz

1.3 tar -zxvf hadoop-3.3.0.tar.gz

二、3台Centos7虚拟机器：

192.160.6.210 master

192.160.6.211 slaver1

192.160.6.212 slaver2

三、配置三台虚拟机的SSH免密登录(自行百度吧)

四、默认已经有jdk环境了（三台机器都操作）

我的jdk环境是: jdk1.8.0_144

五、配置Hadoop环境变量（三台机器都操作）

$ vim /etc/profile

export HADOOP_HOME=/opt/software/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

$ source /etc/profile

六、配置Hadoop集群环境(都在master机器上配置)

6.1 编辑hadoop-env.sh

vim /opt/software/hadoop-3.3.0/etc/hadoop/hadoop-env.sh

#文件最后加
export JAVA_HOME=/opt/soft/jdk1.8.0_144
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

6.2 编辑yarn-env.sh

$ vim /opt/software/hadoop-3.3.0/etc/hadoop/yarn-env.sh

#文件最后加
export JAVA_HOME=/opt/soft/jdk1.8.0_144

6.3 编辑 core-site.xml

$ vim /opt/software/hadoop-3.3.0/etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/look/hadoop-3.3.0/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <!-- 设置默认文件系统Hadoop支持file、HDFS、GFS、ALI|Amazon云等文件系统-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:8020</value>
    </property>
    <!--设置HDFS web UI 用户身份-->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>root</value>
    </property>
    <!-- 整合HIVE用户代理设置-->
    <property>
        <name>hadoop.proxyuser.root.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.root.groups</name>
        <value>*</value>
    </property>
    <!-- 文件系统垃圾桶保存时间-->
    <property>
        <name>fs.trash.interval</name>
        <value>1440</value>
    </property>
</configuration>

6.4 编辑hdfs-site.xml

$ vim /opt/software/hadoop-3.3.0/etc/hadoop/hdfs-site.xml

<configuration>

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>192.168.6.211:9868</value>
</property>
</configuration>

6.5 编辑mapred-site.xml

$ vim /opt/software/hadoop-3.3.0/etc/hadoop/mapred-site.xml

<configuration>
    <!--设置MR程序默认运行模式： yarn集群模式 local本地模式-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <!--MR程序历史服务地址-->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>192.168.6.210:19888</value>
    </property>
    
    <property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
    </property>
    <property>
        <name>mapreduce.map.env</name>
        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
    </property>
</configuration>

6.6 编辑yarn-site.xml

$ vim /opt/software/hadoop-3.3.0/etc/hadoop/yarn-site.xml

<configuration>
    <!--设置YARN集群主角色运行机器位置-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>192.168.6.210</value>
    </property>
    
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!-- 关闭yarn内存检查 -->
    <!--是否将对容器实施物理内存限制-->
    <!-- 是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认为 true -->
    <!-- 因为对于 flink 使用 yarn 模式下，很容易内存超标，这个时候 yarn 会自动杀掉 job，因此需要关掉-->
    <property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
    </property>
    <property>
       <name>yarn.nodemanager.vmem-check-enabled</name>
       <value>false</value>
    </property>
    <!--开启日志聚集-->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <!--设置yarn历史服务器地址-->
    <property>
        <name>yarn.log.server.url</name>
        <value>http://192.168.6.210:19888/jobhistory/logs</value>
    </property>
    <!-- yarn -->资源配置
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>1024</value>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>102400</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>32</value>
    </property>
   <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>51200</value>
    </property>
    <!--  一台NodeManager的总可用（逻辑）cpu核数 -->
    <property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>2</value>
    </property>
    <!--  容器的虚拟内存使用上限：与物理内存的比率 --> 
    <property>
      <name>yarn.nodemanager.vmem-pmem-ratio</name>
      <value>2.1</value>
    </property>
</configuration>

6.7 编辑 workers

$ vim /opt/software/hadoop-3.3.0/etc/hadoop/workers

192.168.6.210
192.168.6.211
192.168.6.212

七、把配置好的hadoop目录分发到其他机器

scp -r hadoop-3.3.0 root@192.168.6.211:/opt/software/
scp -r hadoop-3.3.0 root@192.168.6.212:/opt/software/

八、格式化HDFS

$ hdfs namenode -format

九、启动HDFS集群和Yarn集群

#启动HDFS
$ start-dfs.sh
#启动Yarn
$ start-yarn.sh

十、WEB界面查看启动结果

web查看hdfs http://name_node_server_ip:9870
web查看yarn http://resourcemanager_host:8088

遇到的问题：
1、启动hdfs的时候 start-hdfs.sh 报错：Permission denied

解决：执行命令： cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

参考:

https://blog.csdn.net/qq_36318271/article/details/88796706

posted @ 2023-02-15 17:52 寻找风口的猪阅读(438) 评论(0) 编辑收藏举报

刷新页面返回顶部

寻找风口的猪