2021年7月1日

大数据学习(26)—— Spark之RDD

摘要: 做大数据一定要有一个概念,需要处理的数据量非常大,少则几十T,多则上百P,全部放内存是不可能的,会OOM,必须要用迭代器一条一条处理。 RDD叫做弹性分布式数据集,是早期Spark最核心的概念,是一种数据集合,它的核心就是迭代器。 创建方式 有两种创建RDD的方式: 在驱动程序中并行化现有集合 引用 阅读全文

posted @ 2021-07-01 19:42 别样风景天 阅读(156) 评论(0) 推荐(0) 编辑

导航