python spark环境配置

在配置Hadoop之前，应该先做以下配置

1.更改主机名

首先更改主机名，目的是为了方便管理。

输入:hostname

　　查看本机的名称

　　使用 hostname 修改当前主机名。

　　 hostname test1

　　然后输入:vim /etc/sysconfig/network

　　修改主机名称

　　将HOSTNAME 的名称更改为你想要设置的名称

注:主机名称更改之后，要重启(reboot)才会生效。

输入:vim /etc/hosts

添加主机IP 和对应的主机名称，做映射。

注:在配置文件中使用主机名的话，这个映射必须做！

2.关闭防火墙

查看状态

firewall-cmd --state

　　关闭防火墙，方便外部访问。

　　CentOS 7版本以下输入:

　　#关闭防火墙

　　service iptables stop

　　CentOS 7 以上的版本输入：

　　systemctl stop firewalld.service

3.时间设置

　　输入:date

　　查看服务器时间是否一致，若不一致则更改

　　更改时间命令

　　date -s ‘MMDDhhmmYYYY.ss’

参考：https://blog.csdn.net/muyi_amen/article/details/62423649

1.tar -zxvf jdk-8u91...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $JAVA_HOME #检查

2.tar -zxvf scala...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $SCALA_HOME #检查

3.tar -zxvf hadoop-2.6.0...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $HADOOP_HOME #检查

cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

vim hadoop-env.sh

加上

vim core-site.xml

将<configurarion></configuration>补充

fs.default.name 这是配置HDFS中节点的URL，在文件系统中，每一个节点都有自己的URL，通过URL才能在整个分布式系统中管理和查询到此节点。集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册，这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互，以取得文件的块列表。

hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在这个路径中

kvm是主机名，9000是RPC通信端口

vim hdfs-site.xml