会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
afra17
博客园
首页
新随笔
联系
订阅
管理
随笔 - 18
文章 - 0
评论 - 0
阅读 -
6048
12 2023 档案
[spark] coalesce() 和 repartition()的区别
摘要:coalesce(1) 的主要作用是将数据合并到尽可能少的分区中,而 repartition(1) 则是将数据随机重分区为一个分区。这使得 coalesce(1) 相对而言更加高效,因为它减少了数据移动的次数,只需要在当前 Executor 上将所有分区的数据都收集到当前应用程序的单个 Execut
阅读全文
posted @
2023-12-13 10:03
蛇啊蛇啊
阅读(275)
评论(0)
推荐(0)
编辑
公告
昵称:
蛇啊蛇啊
园龄:
7年2个月
粉丝:
0
关注:
0
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
随笔分类
hadoop(10)
java(2)
linux(1)
pandas(3)
tools(1)
问题记录(1)
随笔档案
2025年2月(1)
2024年4月(2)
2023年12月(1)
2023年8月(1)
2023年6月(3)
2023年5月(5)
2023年4月(2)
2023年1月(1)
2022年12月(1)
2022年11月(1)
阅读排行榜
1. hadoop distcp 参数详解(1723)
2. [protobuf] 0值不显示(1375)
3. [spark] 常用参数和默认配置(571)
4. [pandas] 两个相同列的df求差集 (436)
5. distcp任务超时(Time out after 300 secs)的原因及优化方案(348)
点击右上角即可分享