rdd的创建方法

    通过并行化集合的方式(本地集合转分布式集合)
    读取数据的方式创建

8.rdd分区数查看方法

    通过个体怒骂partitions api查看,返回值int

9.transformation和action的区别

    转换算子的返回值100%是rdd,而action算子的返回值100%不是rdd
    转换算子是懒加载的,只有遇到action才会执行,action就是转换算子处理链条的开关

10.fofreach和saveastextfile直接由executor执行后输出,不会将结果发送到driver上去

11.reducebykey和groupbykey的区别

    reducebykey自带聚合逻辑,groupbykey不带
    如果做数据聚合reducebykey的效果更好,因为可以现居何后shuffle再最终聚合,传输的IO小

12.mappartition和foreach partition的区别

    mappartition带有返回值
    foreachpartition不带

13.对于分区操作尽量不要增加分区,可能破坏内训迭代的计算管道