摘要:
RDD算子 作用于RDD上的Operation分为转换(transformantion)和动作(action)。 Spark中的所有“转换”都是惰性的,在执行“转换”操作,并不会提交Job,只有在执行“动作”操作,所有operation才会被提交到cluster中真正的被执行。这样可以大大提升系统的 阅读全文
摘要:
什么是RDD? Resilient Distributed Dataset RDD是弹性分布式数据集 一种容错的并行数据结构 RDD是一种数据抽象,只读的,分区记录集合 在此之上,提供了丰富的操作用来处理RDD RDD是Spark的基石,也是Spark的灵魂 Rdd是Spark最核心最精髓的部分,S 阅读全文