摘要: 本文主要介绍spark的shuffle机制 shuffle的产生 Spark 作业被分解为多个 Stage,每个 Stage 包含多个任务(Task)。在需要重新分区的数据操作时因为需要进行数据的交换因此会产生 Shuffle 边界,即两个 Stage 之间需要进行 Shuffle 操作。 shuf 阅读全文
posted @ 2024-06-15 18:09 fanrucong 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 本文主要介绍SPARK RDD的checkpoinnt机制 checkpoint机制介绍 checkpoint是将RDD保存到可靠的存储中的机制,主要目的是提高应用的容错能力和持久性。Checkpointing 将数据从内存中转移到磁盘存储,使得在出现节点故障时,Spark 可以从存储中恢复数据,而 阅读全文
posted @ 2024-06-15 11:57 fanrucong 阅读(47) 评论(0) 推荐(0) 编辑