十七楼的羊

2019年3月26日

摘要：关于shuffle 参数的说明: 1,参数一般成倍增加或者减少 2,可以再提交任务时,使用 -conf 来进行指定,这样比在代码之中或者spark-defaults.conf之中较好(相当于写死)一:spark.shuffle.file.buffer: 默认为 32k 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buff... 阅读全文

posted @ 2019-03-26 00:14 十七楼的羊阅读(352) 评论(0) 推荐(0) 编辑

2019年3月23日

scala 函数式编程与隐式函数

摘要： scala 函数式编程: 1,函数式编程强调的函数可以像变量一样被创建，修改，并当成变量一样传递，返回或是在函数中嵌套函数 2,Scala混合了面向对象和函数式的特性，我们通常将可以做为参数传递到方法中的表达式叫做函数 3,函数柯里化指的是将原来接受两个参数的方法变成新的接受一个参数的方法的过程 4,引用透明指的是函数的运行不依赖于外部变量或“状态”，只依赖于输入的参数，任... 阅读全文

posted @ 2019-03-23 22:35 十七楼的羊阅读(480) 评论(0) 推荐(0) 编辑

2019年3月21日

spark 计算模式与RDD(划分与依赖)

摘要： RDD 依赖: 1,RDD 宽依赖(会有shuffle过程):父EDD与子RDD partition之间关系是一对多(groupByKey) 2,RDD 窄依赖:父EDD与子RDD partition之间关系是一对一(map,union等)或者多对一(多个分区看成逻辑上的 partition,合并成一个分区)，多个父RDD也就有了shuffer过程 spark 计算模式: 1... 阅读全文

posted @ 2019-03-21 23:35 十七楼的羊阅读(578) 评论(0) 推荐(0) 编辑

2019年3月20日

shuffler 文件寻址与内存管理

摘要： shuffle 组件MapOutputTracker 磁盘管理小文件 1,主 MapOutputTrackerMaster(存在于Driver) 2,从 MapOutputTrackerWorker(存在于Executor)BlockManager 块管理者 1,BlockManagerMaster(存在于Driver) 1),DiskStore 管理磁盘数据 ... 阅读全文

posted @ 2019-03-20 23:24 十七楼的羊阅读(171) 评论(0) 推荐(0) 编辑

2019年3月17日

spark shuffle 过程分析

摘要： spark shuffle 过程分析:一普通机制: 1,首先 reduceBykey 是会将每一个 key 对应的所有value聚合成一个value,然后生成一个rdd,元素类型是形式，然后每一个k对应一个聚合起来的v 2,每一个k对应的v 不一定在一个节点之上，也不可能是在一个 partition中 3,聚合过程: 1),Shuffle Write 上一个map ... 阅读全文

posted @ 2019-03-17 11:31 十七楼的羊阅读(248) 评论(0) 推荐(0) 编辑

公告