2021 年 7月 28 日随笔档案 - 小阿政

2021年7月28日

摘要： spark优化：一、代码优化： 1.避免创建重复的RDD 2.对多次使用的rdd进行缓存缓存级别一般使用MEMORY_AND_DISK_SER 3.使用高性能的算子（reducebykey，foreachpatition[一般用于和外部数据库进行连接时]，coalelce【合并小文件】） 4.避阅读全文

posted @ 2021-07-28 23:20 小阿政阅读(159) 评论(0) 推荐(0) 编辑

spark的rdd的join

摘要： JOIN在Spark Core中的使用1. inner joininner join，只返回左右都匹配上的 // 启动spark-shell，定义两个rdd，做join操作[hadoop@hadoop01 ~]$ spark-shell --master local[2]scala> val a = 阅读全文

posted @ 2021-07-28 21:38 小阿政阅读(498) 评论(0) 推荐(0) 编辑

spark代码优化

摘要： 1.避免创建重复的RDD，复用同一个RDD val rdd1 = sc.textFile... val rdd2 = sc.txtFile.. val rdd3 = rdd2.map.. val rdd4 = rdd3.flatMap val rdd5 = rdd1.mapPartitions... 阅读全文

posted @ 2021-07-28 20:45 小阿政阅读(81) 评论(0) 推荐(0) 编辑

小阿政

公告