07 2023 档案

摘要:# Shuffle的深入理解 什么是Shuffle,本意为洗牌,在数据处理领域里面,意为将数打散。 问题:shuffle一定有网络传输吗?有网络传输的一定是Shuffle吗? ## Shuffle的概念 通过网络将数据传输到多台机器,数据被打散,但是有网络传输,不一定就有shuffle,Shuffl 阅读全文
posted @ 2023-07-05 19:32 _泡泡 阅读(136) 评论(0) 推荐(0) 编辑
摘要:# RDD特殊的算子 ## cache、persist 将数据缓存到内存,第一次触发Action,才会将数据放入内存,以后在触发Action,可以复用前面内存中缓存的数据,可以提升技术效率 cache和persist的使用场景:一个application多次触发Action,为了复用前面RDD的数据 阅读全文
posted @ 2023-07-04 19:25 _泡泡 阅读(38) 评论(0) 推荐(0) 编辑
摘要:# RDD的Action算子 Action算子会触发Job的生成,底层调用的是sparkContext.runJob方法,根据最后一个RDD,从后往前,切分Stage,生成Task ![image](https://img2023.cnblogs.com/blog/1742816/202307/17 阅读全文
posted @ 2023-07-03 21:07 _泡泡 阅读(46) 评论(0) 推荐(0) 编辑
摘要:# RDD的Transformation算子 ## map map算子的功能为做映射,即将原来的RDD中对应的每一个元素,应用外部传入的函数进行运算,返回一个新的RDD ```Scala val rdd1: RDD[Int] = sc.parallelize(List(1,2,3,4,5,6,7,8 阅读全文
posted @ 2023-07-01 19:57 _泡泡 阅读(82) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示