文章分类 - 大数据
摘要:
这一篇主要讲 Spark 中的 Shuffle 机制. Shuffle Write Shuffle Read 将 job 划分成多个 task 后, stage 内的一个 task 可以在一个节点上完成计算, task 内以来的数据可以直接存储在当前结点上 (内存或者磁盘中). 但是 stage 间
阅读全文

摘要:
一直以来都想了解一下 Spark 的运行原理, 但一直都浮于表面, 难以深入. 去年买了一本 《大数据处理框架 Apache Spark 设计与实现》, 但是一直没时间好好看看, 最近抽时间过了一下这本书, 在此记录一下. 这一篇主要讲 Spark 中逻辑处理流程时怎么生成的, 以及在逻辑处理流程的
阅读全文

摘要:
一直以来都想了解一下 Spark 的运行原理, 但一直都浮于表面, 难以深入. 去年买了一本 《大数据处理框架 Apache Spark 设计与实现》, 但是一直没时间好好看看, 最近抽时间过了一下这本书, 在此记录一下. 先大致了解一下 Spark. Introducion Spark Appli
阅读全文
