Yarn的作业提交

1:什么是yarn

YARN是一个框架管理器,用户可以将各种各样的计算框架移植到YARN之上,由YARN进行统一管理和资源分配、本质上是一个资源统一管理系统,将各种框架运行在YARN之上,可以实现框架的资源统一管理和分配,使他们共享一个集群,而不是“一个框架一个集群”,这可大大降低运维成本和硬件成本

比如的MapReduce、Spark、impala等主流技术

2:Spark on Yarn

yarn-client  和  yarn-cluster

yarn-client:

Spark Dirver 先在客户机上运行,然后通过Yarn申请使用exeutor以运行Spark Task

yarn-cluster:

Spark Driver作为一个ApplicationMaster在Yarn集群中先启动,然后再由ApplicationMaster向RM申请使用executor以运行Spark Task

3:环境配置情况

4:运行代码编写

在集群通信不是很好的时候,现在一个节点部署(客户机)、采用yarn-client模式

./bin/spark-submit     -----提交脚本

--master yarn-client   -----提交模式//( yarn-cluster

--class ***.main()  ----运行的Dirver

--executor-memory 3g   ----参数设置

--driver-memory 1g

****.jar  -----打包的jar包

hdfs://hadoop1:8000/user/*** -----hdfs参数

posted @ 2015-02-01 02:38  zqk  阅读(379)  评论(0编辑  收藏  举报