数据处理笔记---Linux系统Hadoop配置准备工作

一、更改服务器名称和修改host

　　修改位于etc/hostname文件，添加自己命名主机名。

　　修改位于etc/host文件，设置主机地址并设置别名为主机名。如：192.168.75.129 master

　　修改/etc/sysconfig/network文件

1 NETWORKING=yes 
2 HOSTNAME=master

二、产生密钥, 配置 ssh master 的免密登录（学习为方便所有配置为免密）

 1 ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsa   //（可以产生/root/.ssh目录） 
 2 cd  /root/.ssh   //如果没有在root下建立 .ssh 目录 
 3 ssh-keygen -t rsa  //四次回车 
 4 cat  id_rsa.pub >> authorized_keys 
 5 cat authorized_keys
 6 cd ..
 7 chmod 700 .ssh
 8 chmod  700 .ssh/*
 9 ssh master   //检测是否正常
10 exit

三、 hadoop安装和配置

　　下载hadoop2.7.3到tmp，解压到/usr/

　　下载地址：http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/

　　改名/usr/hadoop-2.7.7 为 hadoop

　　修改/etc/profile配置Hadoop环境路径

　　以下为我自己的环境路径以供参考

1 export  B=/usr/hbase 
2 export  H=/usr/hadoop 
3 export  I=/usr/hive 
4 export  J=/usr/jdk 
5 export  M=/usr/mysql
6 export  PATH=$PATH:$B: $H:$I:$J:$M:$B/bin:$H/bin:$H/sbin:$I/bin:$J/bin:$M/bin

　　修改完成后刷新profile

1  source /etc/profile

　　检查路径

1 echo $PATH

四、hadoop配置

　　（一）、修改Hadoop-env.sh文件

　　　　将Hadoop-env.sh文件中的JAVA_HOME修改为自己的jdk地址

　　（二）、在master和slaves文件中添加主机名

　　（三）、修改core-site.xml

 1 <configuration>
 2 <property>
 3 <name>fs.default.name</name>
 4 <value>hdfs://主机名:9000</value>
 5 </property>
 6 
 7 <property>
 8 <name>fs.defaultFS</name>
 9 <value>hdfs://主机名:9000</value>
10 </property>
11 
12 <property>
13 <name>hadoop.tmp.dir</name>
14 <value>/usr/hadoop/tmp</value> //自己Hadoop地址
15 </property>
16 <property>
17 <name>dfs.permissions</name>
18 <value>false</value>
19 </property>
20 <property>
21   <name>fs.permissions.umask-mode</name>
22   <value>077</value>
23 </property>
24 </configuration>

　　（四）修改hdfs-site.xml文件

 1 <configuration>
 2 <property>
 3 <name>dfs.replication</name>
 4 <value>1</value>
 5 </property>
 6 
 7 <property>
 8 <name>dfs.name.dir</name>
 9 <value>/usr/hadoop/hdfs/name</value> //自己Hadoop路径
10 </property>
11 
12 <property>
13 <name>dfs.data.dir</name>
14 <value>/usr/hadoop/hdfs/data</value> //自己Hadoop路径
15 </property>
16 <property>
17 <name>dfs.webhdfs.enabled</name>
18 <value>true</value>
19 </property>
20 <property>
21 <name>dfs.permissions</name>
22 <value>false</value>
23 </property>
24 </configuration>

　　（五）、修改 mapred-site.xml文件（该文件原始名有tem需要手动删去）

1 <configuration>
2 <property>
3 <name>mapreduce.framework.name</name>
4 <value>yarn</value>
5 </property>
6 </configuration>

　　（六）、修改 Yarn-site.xml文件

 1 <configuration>
 2 <property>
 3 <name>yarn.resourcemanager.hostname</name>
 4 <value>主机名</value>
 5 </property>
 6 
 7 <property>
 8 <name>yarn.nodemanager.aux-services</name>
 9 <value>mapreduce_shuffle</value>
10 </property> 
11 </configuration>

五、格式化Hadoop

　　如果不执行格式化开启后会缺少datanode进程

1  hadoop  namenode  –format

六、启动Hadoop

1 start-all.sh

　　启动后用jps查看进程

七、Hadoop常用命令

 1 hadoop fs –help 
 2 hadoop fs –ls  /           显示根文件夹 
 3 hadoop fs -ls -R /   显示根下所有文件夹 
 4 hadoop fs -mkdir /w   创建w文件夹 
 5 hadoop fs –put  /opt/b.txt   /w  把/opt/b.txt 存放于hadoop的w文件夹下 
 6 hadoop fs -get  /w/b.txt  b1.txt  把hadoop的w下b1.txt取回改名为b1.txt 
 7 hadoop fs -get -f  /w/b.txt  把hadoop的w下b1.txt取回 ,-f代表替换已经存在的文件 
 8 Hadoop fs -touchz /w.txt 创建空文件 
 9 hadoop fs -cat /w.txt  显示文件内容 
10 hadoop fs -appendToFile /opt/short.txt /w.txt 把short.txt内容追加到w.txt 
11 hadoop fs -rm  /w.txt 删除w.txt文件 
12 hadoop fs –rmdir  /opt 删除/opt文件夹 
13 hadoop fs -rmr  /  删除根目录下所有文件

　　配置正确但进程缺少datanode（格式化次数太多）

　　1.停止 stop-all.sh

　　2.删除/usr/hadoop/hdfs下的data和node文件夹

　　3.重新格式化 hadoop namenode –format

　　5.再启动 start-all.sh

posted @ 2021-06-09 00:03 Fiend 阅读(94) 评论(0) 编辑收藏举报

刷新页面返回顶部