迷离的老狗 - 博客园

2020年8月5日

解决Flink提交任务到yarn时。yarn检测虚拟内存不够自杀问题。

摘要：在yarn-site.xml中添加 <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> 阅读全文

posted @ 2020-08-05 09:01 迷离的老狗阅读(780) 评论(0) 推荐(0)

2020年8月4日

Linux bash sh .source exec 的区别比较。

摘要： sh 开启一个新的bash来运行相当于开启一个子线程，继承环境变量，不继承局部变量。 .source 在当前bash执行。 exec 结束当前进程，用第一个参数进程来代替。阅读全文

posted @ 2020-08-04 18:00 迷离的老狗阅读(255) 评论(0) 推荐(0)

2020年7月15日

flink1.10 Linux 集群安装

摘要： 1.官网下载jar包： https://www.apache.org/dyn/closer.lua/flink/flink-1.10.1/flink-1.10.1-bin-scala_2.11.tgz 2.上传jar包并且解压： 3.进入/flink-1.10.1/conf/flink-conf.y 阅读全文

posted @ 2020-07-15 19:29 迷离的老狗阅读(560) 评论(0) 推荐(0)

2020年5月9日

有关Spark中FlatMap算子源码理解

摘要：首先用scala语言编辑Spark程序，通过SparkContext创建RDD 点击源码，发现地层创建了MapPartitionsRDD对象，描述信息为：通过第一个传入的函数，对这个RDD中的所有元素做运算，之后扁平结果集，返回一个新的RDD。其中sc.clean（f）主要是做闭包检测。如果传入参阅读全文

posted @ 2020-05-09 17:06 迷离的老狗阅读(603) 评论(0) 推荐(0)

2020年4月13日

Flink有关于水位线（WaterMark）相关问题

摘要：要想说清楚Flink水位线（WaterMark），前提需要弄清楚几个概念。第一个是时间概念：在Flink中有三个时间概念，分别是事件时间，采集时间，和系统时间。事件时间：在客观世界中产生的时间，比如用户点击网页产生了一条时间日志，这个时间就是事件时间。采集时间：我们用Flink采集日志到达F 阅读全文

posted @ 2020-04-13 18:43 迷离的老狗阅读(1800) 评论(0) 推荐(0)

2020年4月11日

Flink中并行度相关问题

摘要： Flink运行模式分为：集群模式、单机模式集群模式：Flink的并行度取决于配置文件中的默认值,如下如所示：在此配置的默认值下，全局的所有算子平行度都是1，我们也可以在程序中重写这个并行度设置方式如下：在本地模式下：默认的并行度为CPU核数可以执行线程数的最大值。比如：一台 8核 16线程的阅读全文

posted @ 2020-04-11 17:59 迷离的老狗阅读(948) 评论(0) 推荐(0)

2020年3月13日

关于spark中的ResultStage和ShuffleMapStage

摘要：今天看了一下关于 job 中 stage 的关系时，发现了ResultStage 和 ShuffleMapStage 两个类。这里先介绍一下job、stage、task的关系。首先 job 的个数取决于 active 行动算子的个数。当流程执行一个 active 行动算子，spark就会生成一个阅读全文

posted @ 2020-03-13 20:28 迷离的老狗阅读(2071) 评论(0) 推荐(0)

公告