2020 年 10月 29 日随笔档案 - skaarl

2020年10月29日

摘要：原则一：避免创建重复的RDD 通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的算子操作（比阅读全文

posted @ 2020-10-29 21:45 skaarl 阅读(916) 评论(0) 推荐(0) 编辑

skaarl

公告