2021-10-26 08:58阅读: 138评论: 0推荐: 0

【Spark】【RDD】从内存（集合）创建RDD


val list = List(1,2,3)
var rdd = sc.parallelize(list)
rdd.partitions.size

通过调用SparkContext的parallelize方法，在一个已经存在的Scala集合上创建的（一个Seq对象）。
集合的对象将会被拷贝，创建出一个可以被并行操作的分布式数据集。

一旦分布式数据集（distData）被创建好，它们将可以被并行操作。
例如，我们可以调用distData.reduce(lambda a, b: a + b)来将数组的元素相加。

并行集合的一个重要参数是slices，表示数据集切分的份数。
Spark将会在集群上为每一份数据起一个任务。
典型地，你可以在集群的每个CPU上分布2-4个slices.
一般来说，Spark会尝试根据集群的状况，来自动设定slices的数目

然而，你也可以通过传递给parallelize的第二个参数来进行手动设置。
（例如:sc.parallelize(data,10)).

[本段为引用，作者信息如下]
作者：追赶的程序猿
链接：https://www.jianshu.com/p/c688b8856dd8
来源：简书

上一篇【Spark】【RDD】从本地文件系统创建RDD

下一篇【Spark】【设置】关闭INFO提示

posted @ 2021-10-26 08:58 萌狼蓝天阅读(138) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

萌狼工作室

萌狼蓝天伴姬一生

【Spark】【RDD】从内存（集合）创建RDD

公告

我的标签

合集 (5)

随笔分类 (359)

随笔档案 (324)

萌狼相关站点

友情链接

最新评论

萌狼工作室

萌狼蓝天 伴姬一生

【Spark】【RDD】从内存（集合）创建RDD

公告

我的标签

合集 (5)

随笔分类 (359)

随笔档案 (324)

萌狼相关站点

友情链接

最新评论

萌狼蓝天伴姬一生