摘要:
在yarn-site.xml中添加 <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> 阅读全文
摘要:
sh 开启一个新的bash来运行 相当于开启一个子线程,继承环境变量,不继承局部变量。 .source 在当前bash执行。 exec 结束当前进程,用第一个参数进程来代替。 阅读全文
摘要:
1.官网下载jar包: https://www.apache.org/dyn/closer.lua/flink/flink-1.10.1/flink-1.10.1-bin-scala_2.11.tgz 2.上传jar包并且解压: 3.进入/flink-1.10.1/conf/flink-conf.y 阅读全文
摘要:
首先用scala语言编辑Spark程序,通过SparkContext创建RDD 点击源码,发现地层创建了MapPartitionsRDD对象,描述信息为:通过第一个传入的函数,对这个RDD中的所有元素做运算,之后扁平结果集,返回一个新的RDD。 其中sc.clean(f)主要是做闭包检测。如果传入参 阅读全文
摘要:
要想说清楚Flink水位线(WaterMark),前提需要弄清楚几个概念。 第一个是时间概念: 在Flink中有三个时间概念,分别是事件时间,采集时间,和系统时间。 事件时间:在客观世界中产生的时间,比如用户点击网页产生了一条时间日志,这个时间就是事件时间。 采集时间:我们用Flink采集日志到达F 阅读全文
摘要:
Flink运行模式分为:集群模式、单机模式 集群模式:Flink的并行度取决于配置文件中的默认值,如下如所示: 在此配置的默认值下,全局的所有算子平行度都是1,我们也可以在程序中重写这个并行度 设置方式如下: 在本地模式下:默认的并行度为CPU核数可以执行线程数的最大值。比如:一台 8核 16线程的 阅读全文
摘要:
今天看了一下关于 job 中 stage 的关系时,发现了ResultStage 和 ShuffleMapStage 两个类。这里先介绍一下job、stage、task的关系。 首先 job 的个数取决于 active 行动算子的个数。当流程执行一个 active 行动算子,spark就会生成一个 阅读全文