1.RDD的创建

通过并行化集合创建(本地对象 转 分布式RDD)

读取外部数据源(读取文件): textfile api(可以读取本地数据)

2.算子是什么

算子:分布式集合对象上的api

方法/函数:本地对象的api

3.算子的分类

    Transformation:转换算子(返回值是rdd)

特性:这类算子时lazy、懒加载的,如果没有action算子,他是不工作的

Action:动作(行动)算子(返回值不是rdd的算子)

4.常用的transformation算子

    map算子:将rdd的数据一条条处理(处理的逻辑 基于map算子中接受的处理函数),返回新的rdd
    flatmap算子:对rdd限制性map操作,然后进行解除嵌套操作
    reducebykey算子:针对kv型rdd,自动按照可以分组,然后根据提供的聚合逻辑,完成组内数据的聚合操作
    mapvalues算子:针对二元元组rdd,对其内部的二元元组的value执行map操作
    group by算子:将rdd的数据进行分组(hash分组)
    filter算子:过滤想要的数据进行保留
    distinct算子:对rdd数据进行去重,返回新rdd
    union算子:2个rdd合并成一个rdd;不会去重;类型不同也是可以合并的
    join算子:对两个rdd执行join操作(可实现sql的内、外连接);按照二元元组的key来进行关联
    intersection算子:求2个rdd的交集,返回一个新rdd
    glom算子:将rdd的数据,加上嵌套,这个嵌套按照分区来进行
    groupbykey算子:针对kv型rdd,自动按照key分组
    sortby算子:对rdd数据进行排序,基于自定义的排序依据
    sortbykey算子:针对kv型rdd,按照key进行排序