linux集群spark环境配置

第一章 linux集群spark环境配置
一 Spark下载
地址; http://spark.apache.org/downloads.html

图1 下载spark

图2 选择下载地址

Spark本身用scala写的，运行在JVM之上。
JAVA版本:java 6 /higher edition.
Jdk已经安装（版本）

Hadoop提供存储数据的持久化层
版本：hadoop-1.2.1
Spark和scala需要安装在master和slave上面，配置步骤相同
本次搭建的master为cluster，slaves为compute-0-1和compute-0-2
Master为主节点，slaves为从节点构成分布式结构
二 Spark环境搭建步骤：
1.最高权限登录master主机，解压spark，解压scala
2.修改/etc/profile文件，设置环境变量。

Source命令使其生效
进入spark文件夹，
执行以下命令复制：
cp slaves.template slaves
cp spark-env.sh.template spark-env.sh
执行以下命令修改：
vi slaves
添加节点:

vi spark-env.sh
添加master主机IP以及分配内存设置环境变量，内存大致为所有内存的75%

三检查
1.scala
命令行 scala 出现如下图所示即为正常

输入 “ :quit”退出
2.spark
命令行 spark-shell出现如下图所示即为正常

输入 “ :quit”退出
四启动与停止
进入spark文件夹，命令行 .(点)/sbin/start-all.sh即可开启
./sbin/stop-all.sh即可停止
五 webUI画面
浏览器输入：http://192.168.2.201:8080/即可打开如下画面，可查看基本配置信息

出现问题总结：
1. 权限问题，出现permission denied，命令行 chmod –r 777 folder 修改权限
2. 复制文件到远程主机，先su - 获取最高权限 scp –r path computer-0-1:path
Path即为文件夹所在目录
3. 环境变量设置过程中应细心，操作master主机时应小心谨慎防止误删错移
4. windows下XShell5安装出现不能注册程序集之类的错误提示解决办法
Regedit打开注册表编辑器，依次打开localmachine>system>currentcontrolset>control，单击control找到registry sizelimit 双击代开DWORD值对话框，选十六进制在文本框输入ffffffff（8个f）再点击十进制再在文本里面输入4294967295 点确定，重启，重启之后再打开cmd 输入 SFC/SCANNOW 回车扫描下系统需要几分钟等进度100%之后再安装。

posted @ 2015-09-24 19:20 不起泡沫的洗衣粉阅读(1385) 评论(0) 收藏举报

刷新页面返回顶部

Mr Pan

linux集群spark环境配置

公告