Spark环境搭建(一)-----------HDFS分布式文件系统搭建
下载的压缩文件放在~/software/ 解压安装在~/app/
一:分布式文件系统搭建HDFS
1,下载Hadoop
HDFS环境搭建 使用版本:hadoop-2.6.0-cdh5.7.0
下载:wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz
解压:tar http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/
2,安装JDK
下载:从官网下载,ftp上传到software下
安装: tar -zxvf jdk-7u51-linux-x64.tar.gz -C ~/app/
配置环境变量:vim ./bash_profile
插入 export JAVA_HOME=/root/app/jdk1.7.0_51
export PATh=$JAVA_HOME/bin:$PATH
保存 wq
生效 source ./bash_profile
3,机器参数设置:将多个Linux通过免密SSH连接
修改机器名:以便直接通过hosts 机器名与IP映射关系直接登录
vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=hadoop001
设置IP与机器名的映射:
vim /etc/hosts
192.168.1.116 hadoop001
127.0.0.1 localhost
ssh免密登录(这个可以不设置,但是重启hadoop进程时是需要手工输入密码才行)
cd ~
ssh-keygen -t rsa (不需输入密码,一直回车)
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
测试:ssh hadoop001 直接连接上另一个虚拟机
4,Hadoop文件修改
cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
1)hadoop-env.sh 配置Java环境
export JAVA_HOME=/root/app/jdk1.7.0_51
2)core-site.xml
<property>
<value>hdfs://hadoop001:8020<alue>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/app/tmp<alue>
</property>
解释:
第一个<property>:添加默认的HDFS名称:hostname 为Hadoop000 端口8020
<name>dfs.replication</name>
<value>1</value>
</property>
注意:只是在配置完Hadoop后进行的操作,格式化后数据会丢失
7,停止HDFS
命令: sbin/stop-dfs.sh