spark-submit使用yarn cluster模式时如何获取applicationId?
文章目录
问题描述
在自动化的项目中,需要将spark-submit程序包装起来,通过c语言或者shell来调用,因为需要记录日志,即需要知道每次提交的spark的程序的applicationId, 将其记录。spark程序是使用yarn cluster模式提交的,因此driver在集群中的任意机子,无法确定。
什么是applicationId
applicationId是Spark应用程序的唯一标识符。根据不同的提交模式,通常有以下两种格式
- local模式下,一般以
local-
开头,例如local-1433865536131
- yarn模式下,则以
application_
开头,例如application_1433865536131_34483
解决方法
- 在spark编写的程序中获得,然后可以写到对应的HDFS文件上或通过邮件通知,但这个并不是很符合我的需求。
例子如下:
-
Python
>>> sc._jsc.sc().applicationId() u'application_1433865536131_34483' >>> sc.applicationId u'application_1433865536131_34483' >>> #以上两种方法都可以。
-
Scala
scala> sc.applicationId res0: String = application_1433865536131_34483
- 在spark-submit后, 捕捉stdout/stderr,然后解析固定的pattern获取applicationId。
例如解析标准输出中的 Yarn Application id: application_1433865536131_34483
参考资料
spark-yarn-mode-how-to-get-applicationid-from-spark-submit)