07 2023 档案
摘要:# Shuffle的深入理解 什么是Shuffle,本意为洗牌,在数据处理领域里面,意为将数打散。 问题:shuffle一定有网络传输吗?有网络传输的一定是Shuffle吗? ## Shuffle的概念 通过网络将数据传输到多台机器,数据被打散,但是有网络传输,不一定就有shuffle,Shuffl
阅读全文
摘要:# RDD特殊的算子 ## cache、persist 将数据缓存到内存,第一次触发Action,才会将数据放入内存,以后在触发Action,可以复用前面内存中缓存的数据,可以提升技术效率 cache和persist的使用场景:一个application多次触发Action,为了复用前面RDD的数据
阅读全文
摘要:# RDD的Action算子 Action算子会触发Job的生成,底层调用的是sparkContext.runJob方法,根据最后一个RDD,从后往前,切分Stage,生成Task ![image](https://img2023.cnblogs.com/blog/1742816/202307/17
阅读全文
摘要:# RDD的Transformation算子 ## map map算子的功能为做映射,即将原来的RDD中对应的每一个元素,应用外部传入的函数进行运算,返回一个新的RDD ```Scala val rdd1: RDD[Int] = sc.parallelize(List(1,2,3,4,5,6,7,8
阅读全文