摘要: 在yarn-site.xml中添加 <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> 阅读全文
posted @ 2020-08-05 09:01 迷离的老狗 阅读(772) 评论(0) 推荐(0) 编辑
摘要: sh 开启一个新的bash来运行 相当于开启一个子线程,继承环境变量,不继承局部变量。 .source 在当前bash执行。 exec 结束当前进程,用第一个参数进程来代替。 阅读全文
posted @ 2020-08-04 18:00 迷离的老狗 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 1.官网下载jar包: https://www.apache.org/dyn/closer.lua/flink/flink-1.10.1/flink-1.10.1-bin-scala_2.11.tgz 2.上传jar包并且解压: 3.进入/flink-1.10.1/conf/flink-conf.y 阅读全文
posted @ 2020-07-15 19:29 迷离的老狗 阅读(520) 评论(0) 推荐(0) 编辑
摘要: 首先用scala语言编辑Spark程序,通过SparkContext创建RDD 点击源码,发现地层创建了MapPartitionsRDD对象,描述信息为:通过第一个传入的函数,对这个RDD中的所有元素做运算,之后扁平结果集,返回一个新的RDD。 其中sc.clean(f)主要是做闭包检测。如果传入参 阅读全文
posted @ 2020-05-09 17:06 迷离的老狗 阅读(567) 评论(0) 推荐(0) 编辑
摘要: 要想说清楚Flink水位线(WaterMark),前提需要弄清楚几个概念。 第一个是时间概念: 在Flink中有三个时间概念,分别是事件时间,采集时间,和系统时间。 事件时间:在客观世界中产生的时间,比如用户点击网页产生了一条时间日志,这个时间就是事件时间。 采集时间:我们用Flink采集日志到达F 阅读全文
posted @ 2020-04-13 18:43 迷离的老狗 阅读(1716) 评论(0) 推荐(0) 编辑
摘要: Flink运行模式分为:集群模式、单机模式 集群模式:Flink的并行度取决于配置文件中的默认值,如下如所示: 在此配置的默认值下,全局的所有算子平行度都是1,我们也可以在程序中重写这个并行度 设置方式如下: 在本地模式下:默认的并行度为CPU核数可以执行线程数的最大值。比如:一台 8核 16线程的 阅读全文
posted @ 2020-04-11 17:59 迷离的老狗 阅读(897) 评论(0) 推荐(0) 编辑
摘要: 今天看了一下关于 job 中 stage 的关系时,发现了ResultStage 和 ShuffleMapStage 两个类。这里先介绍一下job、stage、task的关系。 首先 job 的个数取决于 active 行动算子的个数。当流程执行一个 active 行动算子,spark就会生成一个 阅读全文
posted @ 2020-03-13 20:28 迷离的老狗 阅读(2002) 评论(0) 推荐(0) 编辑