关于RDD

1. transform操作返回的是rdd, action操作返回其它数据类型,可以以此来区分操作类型;

2. Spark懒加载,懒到直到Action操作的时候才会加载数据计算,RDD的create和Transform都不会真的加载和计算;

3. 默认情况下,每次Action操作RDD都会被重新计算,也就是说RDD默认是不保存旧的RDD在内存中的,但是通过persist()方法可以持久化RDD到内存、磁盘甚至是序列化的java对象,通过向persist()方法传递StorageLevel对象来设置。cache方法是使用默认级别StorageLevel.MEMORY_ONLY的方法。存储级别共12种,按情况选取;

4.

posted @ 2016-09-15 15:21  Jiang_Xi  阅读(151)  评论(0编辑  收藏  举报