摘要: RDD提供了两种类型的操作:transformation和action1、所有的transformation都是采用的懒策略,如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。2、action操作:action是得到一个值,或者一个结果(直接将R 阅读全文
posted @ 2020-02-12 19:38 Xiaohu_BigData 阅读(332) 评论(0) 推荐(0) 编辑
摘要: Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。 先回顾一下R 阅读全文
posted @ 2020-02-12 18:36 Xiaohu_BigData 阅读(495) 评论(0) 推荐(0) 编辑