原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3820979.html

一、系统环境配置

  参照http://www.cnblogs.com/tovin/p/3818908.html文章的第一、二部分配置好基本环境

  在集群所有节点下载并解压spark的安装包:

    su hdp
    cd /home/hdp
    wget http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop2.tgz
    sudo mv /home/hdp/spark-1.0.0-bin-hadoop2.tgz  /usr/local/ 
    cd /usr/local/
    sudo tar zxvf spark-1.0.0-bin-hadoop2.tgz
    sudo ln -s spark-1.0.0-bin-hadoop2 spark
    sudo chown -R hdp:hdp  spark-1.0.0-bin-hadoop2 
    sudo rm -rf spark-1.0.0-bin-hadoop2.tgz
 
二、Spark部署(spark standalone模式)
  以node01为master节点,node02、node03为slave节点安装为例说明:
  1、修改集群所有节点spark环境配置文件
       cd /usr/local/spark/conf/     
       mv spark-env.sh.template  spark-env.sh
          vim spark-env.sh 添加如下内容:      
      
    上面参数可以根据机器实际资源情况进行设置其中:
            SPARK_WORKER_CORES表示每个Worker进程使用core数目
                    SPARK_WORKER_MEMORY表示每个Worker进程使用内存
               SPARK_WORKER_INSTANCES表示每台机器Worker数目
 
  2、启动集群
     /usr/local/spark/sbin/start-all.sh
 
  3、验证集群是否启动成功
    node01节点: (出现Master进程)
      
       node02节点:(出现Worker进程)
    
       node03节点:(出现Worker进程)
    
       4、集群web ui
       访问http://node01:8080查看集群管理页面
    

  5、执行SparkPi测试程序

    /usr/local/spark/bin/spark-submit  --class org.apache.spark.examples.SparkPi --master spark://node01:7077 /usr/local/spark/lib/spark-examples-1.0.0-hadoop2.2.0.jar

    注意:红色node01必须与配置文件中配置的SPARK_MASTER_IP保持一样,否则会出现问题

    

三、Spark部署(spark on yarn模式)

  此模式部署只需要把安装包解压放到yarn集群所有机器即可

  Client Driver部署:

    1、下载spark、hadoop安装包
            参照系统环境配置部分进行设置
       2、修改配置文件        
            hadoop配置文件使用与集群一致的文件
            su hdp
            cd /usr/local/spark


            vim conf/spark-env.sh添加内容

        

 

      3、spark测试程序
          /usr/local/spark/bin/spark-submit  --class org.apache.spark.examples.SparkPi --master yarn-cluster /usr/local/spark/lib/spark-examples-1.0.0-hadoop2.2.0.jar

 

原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3820979.html

posted on 2014-07-02 18:37  tovin  阅读(3671)  评论(0编辑  收藏  举报