摘要: spark累计器 因为task的执行是在多个Executor中执行,所以会出现计算总量的时候,每个Executor只会计算部分数据,不能全局计算。 累计器是可以实现在全局中进行累加计数。 注意: 累加器只能在driver端定义,driver端读取,不能在Executor端读取。 广播变量只能在dri 阅读全文
posted @ 2019-04-30 15:21 Angel_jing 阅读(2162) 评论(0) 推荐(0) 编辑
摘要: 在spark的资源调度中 1、集群启动worker向master汇报资源情况 2、Client向集群提交app,向master注册一个driver(需要多少core、memery),启动一个driver 3、Driver将当前app注册给master,(当前app需要多少资源),并请求启动对应的Ex 阅读全文
posted @ 2019-04-30 11:39 Angel_jing 阅读(719) 评论(0) 推荐(0) 编辑
摘要: Spark广播变量 使用广播变量来优化,广播变量的原理是: 在每一个Executor中保存一份全局变量,task在执行的时候需要使用和这一份变量就可以,极大的减少了Executor的内存开销。 Executor中task在执行的时候如果使用到了广播变量,会找Executor里面的BlockManag 阅读全文
posted @ 2019-04-30 11:11 Angel_jing 阅读(6832) 评论(0) 推荐(1) 编辑