摘要:
rdd.toDebugString 是个好东西,可以输出你的RDD的组成 阅读全文
摘要:
copy的官方programming guide的代码,只有一个要说一下,Accumulators的更新是在action做的,transformation操作中对于Accumulators的增加不会即时更新的,只有action只会更新。scala> val accum = sc.accumulato... 阅读全文
摘要:
coalesce我理解就是将多个partition合并成少量的partition。data.coalesce(2,true)第一个参数是partition数量第二个参数是合并是是否进行shuffle操作。true是进行shuffle操作。false是不进行shuffle操作 阅读全文
摘要:
def seq(a:Int, b:Int) : Int ={ math.max(a,b)}def comb(a:Int, b:Int) : Int ={ a + b}val data = sc.parallelize(List((1,3),(1,2),(1, 4),(2,3)))data.aggre... 阅读全文