备用Spark-Python集高可用ZK-Spark配置----公司使用，赞未测试

1.Spark安装

1安装SCALA

1) 使用命令tar -zvxf scala-2.11.7.tgz解压该压缩包, 修改环境变量.

2) 与JDK一样，使用命令vi /etc/profile 修改环境变量的配置文件,之后使用命令 source /etc/profile，使文件修改生效。

3) 使用命令scala -version检查scala是否安装成功

unset i
unset -f pathmunge
export JAVA_HOME=/usr/java/jdk1.8.0_161
export MSMTP_HOME=/usr/local/msmtp
export FREETDS_HOEM=/usr/local/freetds
export ERLANG_HOME=/usr/local/erlang
export PATH=$PATH:$JAVA_HOME/bin:${ERLANG_HOME}/bin:${FREETDS_HOEM}/bin:${MSMTP_HOME}/bin
export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar
export TOMCAT_HOME=/usr/tomcat8.5.23
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:${FREETDS_HOEM}/lib
export LD_LIBRARY_PATH=/usr/lib64:$LD_LIBRARY_PATH

export ZOOKEEPER_HOME=/home/zookeeper
export PATH=/usr/local/sbin:/usr/bin:/bin:/sbin:/usr/sbin:/mnt/sysimage/bin:/mnt/sysimage/usr/bin:/mnt/sysimage/usr/sbin:/mnt/sysimage/sbin:/sbin:/usr/sbin:/usr/java/jdk1.8.0_161/bin:/usr/local/erlang/bin:/usr/local/freetds/bin:/usr/local/msmtp/bin:/bin
export ORACLE_HOME="/usr/lib/oracle/11.2/client64"
export PATH=$PATH:$ORACLE_HOME/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$ORACLE_HOME/lib
export KAFKA_HOME=/opt/kafka
export ZOOKEEPER_HOME=/opt/zookeeper
export PATH=$PATH:$KAFKA_HOME/bin:$ZOOKEEPER_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
export SCALA_HOME=/opt/scala-2.11.7
export SPARK_HOME=/opt/spark-2.3.1

2.安装SSH服务

使用命令yum -y install openssh-server进行安装，

3配置SSH免密码登录

1) 在每台主机上生成公钥和私钥对

ssh-keygen -t rsa

连续按几次ENTER

2) 将所有公钥加载到用于认证的公钥文件authorized_key中，并查看生成的文件。

cat ~/.ssh/id_rsa.pub* >> ~/.ssh/authorized_keys

3) 最后使用SSH命令，检验是否能免密码登录。

ssh localhost

退出登录

exit

4安装Spark

1) 解压spark压缩包, tar –zvxf spark-2.3.1-bin-hadoop2.7.tgz。

2) 重命名文件夹mv spark-2.3.1-bin-hadoop2.7 spark-2.3.1

3) 配置环境变量 vi /etc/profile 配置SPARK_HOME、PATH，然后source /etc/profile

4) 使用命令cd /spark-2.3.1/conf，在该目录下，看到很多文件都是以template结尾的，这是因为spark给我们提供的是模板配置文件，我们可以先拷贝一份，然后将.template给去掉，变成真正的配置文件后再编辑

5) 配置spark-env.sh，该文件包含spark的各种运行环境

cd /spark-2.3.1/conf

cp spark-env.sh.template spark-env.sh

vim spark-env.sh

配置以下信息（最上面的原始文件有）

export SCALA_HOME=/opt/scala-2.11.7

export SPARK_LOCAL_DIRS=/opt/spark-2.3.1/tmp #缓存目录

export SPARK_MASTER_IP=172.21.1.254 #master ip

export SPARK_MASTER_WEBUI_PORT=8085 #webui端口

export SPARK_WORKER_CORES=6 #worker节点核心数

export SPARK_WORKER_MEMORY=6g # worker节点内存

6) 配置slaves文件

cp slaves.template slaves

vim slaves

配置以下信息

localhost

7) 启动spark集群

cd /spark-2.3.1/sbin

./start-all.sh

8) 查看Spark集群信息

使用jps命令查看spark进程。

Worker

Master

查看spark管理界面，在浏览器中输入： http://172...:8085

运行 spark-shell，可以进入 Spark 的 shell 控制台

./bin/spark-shell

5停止运行集群

运行sbin/stop-all.sh停止Spark集群

6、依赖包导入(这部是自己写的Spark分析程序，实际就是自己的业务包)

将我们提供的依赖包放入/ spark-2.3.1/jars 目录下

--------那么Spark的安装说明就到此结束啦

5.Python环境搭建

一前期组件安装

1.安装readline-devel

yum –y install readline-devel

2.安装python-devel

yum install python-devel

3. 安装sqlite-devel

yum install sqlite*

二 python安装

1、安装包准备Python-3.6.0.tgz放在/usr/local/

2、以root权限打开终端，进入安装包的存放路径，解压安装包：

tar -xzvf Python-3.6.0.tgz

3、进入解压好的安装包路径：

cd Python-3.6.0

4、编译安装包，指定安装路径，并执行安装命令：

注意：prefix参数用于指定将Python安装在新目录，防止覆盖系统默认安装的python

./configure --prefix=/usr/local/python36

make && make install

6、建立新的软连接，指向Python-3.6.0：

注：这里的python36是第4步指定的安装路径，python3.6是Python包里的可执行程序

ln -s /usr/local/python36/bin/python3.6 /usr/bin/python3

7、输入python3验证是否装好

退出 exit()

现在linux下有两个版本的python，输入python进入的是以前的Python2.7的版本，输入python3进入的是刚安装的python3.6版本

8、导入依赖包

将我们准备的site-packages包替换python里的site-packages

cd /usr/local/python36/lib/python3.6

mv site-packages site-packages_1

将site-packages复制到/usr/local/python36/lib/python3.6目录下

安装了以前版本的修改

mv /usr/bin/python /usr/bin/python3

cp /usr/bin/python-2.7 /usr/bin/python

posted @ 2020-03-24 20:55 胡小华阅读(191) 评论(0) 编辑收藏举报

刷新页面返回顶部

胡小华的博客

专注学习与生活