sunny123456

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  1796 随笔 :: 22 文章 :: 24 评论 :: 226万 阅读
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

flink job 提交到yarn 需要哪些配置文件 flink submit new job



文章目录

  • 前言
  • Standalone模式
  • yarn模式


前言

本文介绍flink的任务提交模式。

Standalone模式

  • Web UI提交job
    打开flink的Web UI,在Web UI的Submit New Job提交jar包。
  • flink job 提交到yarn 需要哪些配置文件 flink submit new job_大数据


  • flink job 提交到yarn 需要哪些配置文件 flink submit new job_jar_02

  • Job参数:

Entry Class:程序的入口,指定入口类(类的全限制名)
Parallelism:任务的并行度 Program
Arguments:程序启动参数,例如–host localhost --port 7777
Savepoint Path:手动备份地址

  • 提交job要注意分配的slot总数是否足够使用,如果slot总数不够,那么job执行失败。
  • 命令行提交job
    1)提交任务:flink run -c <入口类> -p <并行度> <jar包路径> <启动参数>

flink run -c wc.WordCountSocketStream -p 1 /opt/flink-1.12.2/job/flink_tutorial-1.0-SNAPSHOT.jar --host localhost --port 7777

2)查看任务:flink list

flink job 提交到yarn 需要哪些配置文件 flink submit new job_UI_03


3)取消任务:flink cancel <Job的ID>

yarn模式

以Yarn模式部署Flink任务时,要求Flink是有 Hadoop 支持的版本,Hadoop 环境需要保证版本在 2.2 以上,并且集群中安装有 HDFS 服务。

  • Sesstion Cluster模式

Session-Cluster 模式需要先启动集群,然后再提交作业,接着会向 yarn申请一块空间后,资源永远保持不变。如果资源满了,下一个作业就无法提交,只能等到 yarn中的其中一个作业执行完成后,释放了资源,下个作业才会正常提交。所有作业共享 Dispatcher 和ResourceManager;共享资源;适合规模小执行时间短的作业

flink job 提交到yarn 需要哪些配置文件 flink submit new job_UI_04

  • 启动一个一直运行的flink集群
    ./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024 [-d]
    附着到一个已存在的flink yarn session
    ./bin/yarn-session.sh -id application_1463870264508_0029
    执行任务
    flink run -c wc.WordCountSocketStream -p 1 /opt/flink-1.12.2/job/flink_tutorial-1.0-SNAPSHOT.jar --host 192.168.5.151 --port 7777
    停止任务 【web界面或者命令行执行cancel命令】
yarn-session.sh 命令分析:
用法:  
   必选  
     -n,--container <arg>            分配多少个yarn容器 (=taskmanager的数量)  
   可选  
     -D <arg>                        动态属性  
     -d,--detached                   独立运行  
     -jm,--jobManagerMemory <arg>    JobManager的内存 [in MB]  
     -nm,--name                      在YARN上为一个自定义的应用设置一个名字  
     -q,--query                      显示yarn中可用的资源 (内存, cpu核数)  
     -qu,--queue <arg>               指定YARN队列. 
     -s,--slots <arg>                每个TaskManager使用的slots数量  
     -tm,--taskManagerMemory <arg>   每个TaskManager的内存 [in MB]  
     -z,--zookeeperNamespace <arg>   针对HA模式在zookeeper上创建NameSpace 
     -id,--applicationId <yarnAppId> YARN集群上的任务id,附着到一个后台运行的yarn session中
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • Per Job Cluster 模式

一个 Job 会对应一个集群,每提交一个作业会根据自身的情况,都会单独向 yarn 申请资源,直到作业执行完成,一个作业的失败与否并不会影响下一个作业的正常提交和运行。独享 Dispatcher 和 ResourceManager,按需接受资源申请;适合规模大长时间运行的作业。
每次提交都会创建一个新的 flink 集群,任务之间互相独立,互不影响,方便管理。任务执行完成之后创建的集群也会消失。

flink job 提交到yarn 需要哪些配置文件 flink submit new job_jar_05

  • 启动集群,执行任务
    ./bin/flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 ./examples/batch/WordCount.jar
    注意:client端必须要设置YARN_CONF_DIR或者HADOOP_CONF_DIR或者HADOOP_HOME环境变量,通过这个环境变量来读取YARN和HDFS的配置信息,否则启动会失败
    ps:如果想每次提交任务都是per-job模式,可以在flink-conf.xml文件里配置:execution.target: yarn-per-job
原文链接:https://blog.51cto.com/u_16099350/6836125
posted on   sunny123456  阅读(90)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2019-11-12 基础知识
点击右上角即可分享
微信分享提示