spark-submit使用yarn cluster模式时如何获取applicationId？

文章目录

问题描述
什么是applicationId
解决方法

问题描述

在自动化的项目中，需要将spark-submit程序包装起来，通过c语言或者shell来调用，因为需要记录日志，即需要知道每次提交的spark的程序的applicationId, 将其记录。spark程序是使用yarn cluster模式提交的，因此driver在集群中的任意机子，无法确定。

什么是applicationId

applicationId是Spark应用程序的唯一标识符。根据不同的提交模式，通常有以下两种格式

local模式下，一般以local- 开头，例如 local-1433865536131
yarn模式下，则以application_开头，例如application_1433865536131_34483

解决方法

在spark编写的程序中获得，然后可以写到对应的HDFS文件上或通过邮件通知，但这个并不是很符合我的需求。
例子如下：

Python

>>> sc._jsc.sc().applicationId()
u'application_1433865536131_34483'
>>> sc.applicationId 
u'application_1433865536131_34483'
>>> #以上两种方法都可以。

Scala

scala> sc.applicationId
res0: String = application_1433865536131_34483

在spark-submit后, 捕捉stdout/stderr，然后解析固定的pattern获取applicationId。
例如解析标准输出中的 Yarn Application id: application_~~1433865536131_34483~~

参考资料
spark-yarn-mode-how-to-get-applicationid-from-spark-submit)

posted @ 2019-03-01 20:15 LestatZ 阅读(1703) 评论(0) 编辑收藏举报

刷新页面返回顶部