摘要: spark优化: 一、代码优化: 1.避免创建重复的RDD 2.对多次使用的rdd进行缓存 缓存级别一般使用MEMORY_AND_DISK_SER 3.使用高性能的算子(reducebykey,foreachpatition[一般用于和外部数据库进行连接时],coalelce【合并小文件】) 4.避 阅读全文
posted @ 2021-07-28 23:20 小阿政 阅读(159) 评论(0) 推荐(0) 编辑
摘要: JOIN在Spark Core中的使用1. inner joininner join,只返回左右都匹配上的 // 启动spark-shell,定义两个rdd,做join操作[hadoop@hadoop01 ~]$ spark-shell --master local[2]scala> val a = 阅读全文
posted @ 2021-07-28 21:38 小阿政 阅读(498) 评论(0) 推荐(0) 编辑
摘要: 1.避免创建重复的RDD,复用同一个RDD val rdd1 = sc.textFile... val rdd2 = sc.txtFile.. val rdd3 = rdd2.map.. val rdd4 = rdd3.flatMap val rdd5 = rdd1.mapPartitions... 阅读全文
posted @ 2021-07-28 20:45 小阿政 阅读(81) 评论(0) 推荐(0) 编辑