spark总结5 RDD

创建RDD 有两种方式

 

1 通过hdfs支持的文件系统创建 RDD, RDD里面没有真正要计算的数据,只记录了一下元数据

2 从过scala集合或者数组以并行化的方式创建RDD

 

collect 把结果收集起来放到 scala数组里面

reduce 汇聚 方法传进去

 

count   rdd有多少元素

top(2) 取RDD 最大的前两个

take(2)取RDD前两个

first  想到与 take(1)

takeOrdered(2,(排序规则))  拍完序列 取前两个

 

posted @ 2017-09-16 16:59  toov5  阅读(161)  评论(0编辑  收藏  举报