For循环中不可以嵌套RDD操作

今天犯了一个致命理解错误,Spark中的RDD Map操作只是一个计算式的传递,并不是Action,也就是在for循环中不会产生真正的计算。

 

因此,如果for循环中出现了RDD的Map类似操作,都会引起异常,例如栈溢出等等,属于相互引用错误。

 

把我的错误代码贴在下面,加深理解。

 

1
2
3
4
5
6
7
8
9
10
11
12
List<String> list = new ArrayList<>();
list.add("OK1");
 
JavaRDD<String> temp = jsc.parallelize(list);
for (int i=0; i<num; i++) {
    for (int j=i+1; j<num; j++) {
        List<String> list2 = new ArrayList<>();
        list2.add("OK2");
        temp = temp.union(jsc.parallelize(list2));
    }
}
List<String> list3 = temp.collect();

  

posted @   蓝鲸王子  阅读(4078)  评论(1编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 因为Apifox不支持离线,我果断选择了Apipost!
· 通过 API 将Deepseek响应流式内容输出到前端
点击右上角即可分享
微信分享提示