linux集群spark环境配置

第一章 linux集群spark环境配置
一 Spark下载
地址; http://spark.apache.org/downloads.html

图1 下载spark

图2 选择下载地址

Spark本身用scala写的,运行在JVM之上。
JAVA版本:java 6 /higher edition.
Jdk已经安装(版本)

Hadoop提供存储数据的持久化层
版本:hadoop-1.2.1
Spark和scala需要安装在master和slave上面,配置步骤相同
本次搭建的master为cluster,slaves为compute-0-1和compute-0-2
Master为主节点,slaves为从节点构成分布式结构
二 Spark环境搭建步骤:
1.最高权限登录master主机,解压spark,解压scala
2.修改/etc/profile文件,设置环境变量。

Source命令使其生效
进入spark文件夹,
    执行以下命令复制:
cp slaves.template slaves
cp spark-env.sh.template spark-env.sh
执行以下命令修改:
vi slaves
添加节点:

vi spark-env.sh
添加master主机IP以及分配内存设置环境变量,内存大致为所有内存的75%

三 检查
1.scala
命令行 scala 出现如下图所示即为正常

输入 “ :quit”退出
2.spark
命令行 spark-shell出现如下图所示即为正常

输入 “ :quit”退出
四 启动与停止
进入spark文件夹,命令行 .(点)/sbin/start-all.sh即可开启
./sbin/stop-all.sh即可停止
五 webUI画面
浏览器输入:http://192.168.2.201:8080/即可打开如下画面,可查看基本配置信息





出现问题总结:
1. 权限问题,出现permission denied,命令行 chmod –r 777 folder 修改权限
2. 复制文件到远程主机,先su -  获取最高权限 scp  –r  path computer-0-1:path
Path即为文件夹所在目录
3. 环境变量设置过程中应细心,操作master主机时应小心谨慎防止误删错移
4. windows下XShell5安装出现不能注册程序集之类的错误提示解决办法
Regedit打开注册表编辑器,依次打开localmachine>system>currentcontrolset>control,单击control找到registry sizelimit 双击代开DWORD值对话框,选十六进制 在文本框输入ffffffff(8个f) 再点击十进制 再在文本里面输入4294967295 点确定,重启,重启之后再打开cmd 输入 SFC/SCANNOW 回车 扫描下系统 需要几分钟 等进度100%之后再安装。

posted @ 2015-09-24 19:20  不起泡沫的洗衣粉  阅读(1353)  评论(0编辑  收藏  举报