会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
fan-wang
博客园
首页
新随笔
联系
订阅
管理
2024年1月30日
Spark之RDD
摘要: 做大数据一定要有一个概念,需要处理的数据量非常大,少则几十T,多则上百P,全部放内存是不可能的,会OOM,必须要用迭代器一条一条处理。 RDD叫做弹性分布式数据集,是早期Spark最核心的概念,是一种数据集合,它的核心就是迭代器。 创建方式 有两种创建RDD的方式: 在驱动程序中并行化现有集合 引用
阅读全文
posted @ 2024-01-30 15:28 旺旺大菠萝
阅读(5)
评论(0)
推荐(0)
编辑
公告