hadoop 随笔2

参考：
https://www.cnblogs.com/qingyunzong/p/8634335.html
https://my.oschina.net/finchxu/blog/3077481

规划：
zookeeper*3 + namenode*2 + datanode*2
ip:
192.168.80.166 nn1.hadoop zookeeper + namenode
192.168.80.167 nn2.hadoop zookeeper + namenode
192.168.80.168 s1.hadoop   zookeeper + datenode
192.168.80.169 s2.hadoop   datenode

创建hadoop用户
关闭防火墙
关闭selinux
修改 hostname
hadoop用户 ssh-keygen -t rsa 免密相互登陆

sudo mkdir -p /data/hadoopdata/
sudo chown -R hadoop:hadoop /data

关键配置：
cd /usr/local/hadoop/etc/hadoop
vi core-site.xml

<configuration>
    
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://myha01/</value>
    </property>

    
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/hadoopdata/</value>
    </property>

    
    <property>
        <name>ha.zookeeper.quorum</name>
        <value>nn1.hadoop:2181,nn2.hadoop:2181,s1.hadoop:2181</value>
    </property>

    
    <property>
        <name>ha.zookeeper.session-timeout.ms</name>
        <value>1000</value>
        <description>ms</description>
    </property>
</configuration>

vi hdfs-site.xml

<configuration>

    
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>

    
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/data/hadoopdata/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/data/hadoopdata/dfs/data</value>
    </property>

    
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>

    
    <property>
        <name>dfs.nameservices</name>
        <value>myha01</value>
    </property>

    
    <property>
        <name>dfs.ha.namenodes.myha01</name>
        <value>nn1,nn2</value>
    </property>

    
    <property>
        <name>dfs.namenode.rpc-address.myha01.nn1</name>
        <value>nn1.hadoop:9000</value>
    </property>

    
    <property>
        <name>dfs.namenode.http-address.myha01.nn1</name>
        <value>nn1.hadoop:50070</value>
    </property>

    
    <property>
        <name>dfs.namenode.rpc-address.myha01.nn2</name>
        <value>nn2.hadoop:9000</value>
    </property>

    
    <property>
        <name>dfs.namenode.http-address.myha01.nn2</name>
        <value>nn2.hadoop:50070</value>
    </property>

    
    <property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://nn1.hadoop:8485;nn2.hadoop:8485/myha01</value>
    </property>

    
    <property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/data/journaldata</value>
    </property>

    
    <property>
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
    </property>

    
    <property>
        <name>dfs.client.failover.proxy.provider.myha01</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>

    
    <property>
        <name>dfs.ha.fencing.methods</name>
        <value>
            sshfence
            shell(/bin/true)
        </value>
    </property>

    
    <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/opt/hadoop/.ssh/authorized_keys</value>
    </property>

    
    <property>
        <name>dfs.ha.fencing.ssh.connect-timeout</name>
        <value>30000</value>
    </property>

    <property>
        <name>ha.failover-controller.cli-check.rpc-timeout.ms</name>
        <value>60000</value>
    </property>
</configuration>

vi mapred-site.xml

<configuration>
    
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

    
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>nn1.hadoop:10020</value>
    </property>

    
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>nn1.hadoop:19888</value>
    </property>
</configuration>

vi yarn.site.xml

<configuration>
    
    <property>
        <name>yarn.resourcemanager.ha.enabled</name>
        <value>true</value>
    </property>

    
    <property>
        <name>yarn.resourcemanager.cluster-id</name>
        <value>yrc</value>
    </property>

    
    <property>
        <name>yarn.resourcemanager.ha.rm-ids</name>
        <value>rm1,rm2</value>
    </property>

    
    <property>
        <name>yarn.resourcemanager.hostname.rm1</name>
        <value>s1.hadoop</value>
    </property>

    <property>
        <name>yarn.resourcemanager.hostname.rm2</name>
        <value>s2.hadoop</value>
    </property>

    
    <property>
        <name>yarn.resourcemanager.zk-address</name>
        <value>nn1.hadoop:2181,nn2.hadoop:2181,s1.hadoop:2181</value>
    </property>

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>

    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>86400</value>
    </property>

    
    <property>
        <name>yarn.resourcemanager.recovery.enabled</name>
        <value>true</value>
    </property>

    
    <property>
        <name>yarn.resourcemanager.store.class</name>
        <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
    </property>
</configuration>

HDFS命令

        创建一个文件夹    hdfs dfs -mkdir /myTask
        创建多个文件夹    hdfs dfs -mkdir -p /myTask1/input1
        上传文件 hdfs dfs -put /opt/wordcount.txt /myTask/input
        查看总目录下的文件和文件夹 hdfs dfs -ls /
        查看myTask下的文件和文件夹 hdfs dfs -ls /myTask
        查看myTask下的wordcount.txt的内容 hdfs dfs -cat /myTask/wordcount.txt
        删除总目录下的myTask2文件夹以及里面的文件和文件夹 hdfs dfs -rmr /myTask2
        删除myTask下的wordcount.txt hdfs dfs -rmr /myTask/wordcount.txt
        下载hdfs中myTask/input/wordcount.txt到本地opt文件夹中 hdfs dfs -get /myTask/input/wordcount.txt /opt

原文链接：https://blog.csdn.net/tswc_byy/article/details/90577551

posted @ 2020-04-26 18:49 walkersss 阅读(128) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 微软正式发布.NET 10 Preview 1：开启下一代开发框架新篇章
· DeepSeek “源神”启动！「GitHub 热点速览」
· C# 集成 DeepSeek 模型实现 AI 私有化（本地部署与 API 调用教程）
· DeepSeek R1 简明指南：架构、训练、本地部署及硬件要求
· NetPad：一个.NET开源、跨平台的C#编辑器

公告

昵称： walkersss
园龄： 6年7个月
粉丝： 8
关注： 3

+加关注

2025年2月

日

一

二

三

四

五

六

walkersss

hadoop 随笔2

公告

搜索

常用链接

随笔分类

随笔档案

相册

H3C 网络交换

Kubernetes引用链接

监控

阅读排行榜

评论排行榜

推荐排行榜

最新评论