Spark分区

默认采用的是Hash分区
缺点：可能导致每个分区中数据量的不均匀，极端情况下会导致某些分区拥有RDD的全部数据
Ranger分区
要求RDD中的KEY类型必须可以排序
自定义分区
根据需求，自定义分区

作者：Zhbeii

出处：https://www.cnblogs.com/zhbeii/p/15841353.html

版权：本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

posted @ 2022-01-24 23:18 Zhbeii 阅读(37) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？

公告

昵称： Zhbeii
园龄： 4年6个月
粉丝： 0
关注： 1

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类 (205)

阅读排行榜

最新评论

1. Re:Flume拦截器报错org.apache.flume.channel.ChannelProcessor.configureInterceptors(ChannelProcessor.java:115)] Builder class not found. Exception follo
@伊万诺夫具体的我也忘记了用4.0的拦截器，不用5.0的配置文件里面有一个配置是类名，要把他改为jar包的名字...
--Zhbeii
2. Re:Flume拦截器报错org.apache.flume.channel.ChannelProcessor.configureInterceptors(ChannelProcessor.java:115)] Builder class not found. Exception follo
请问这个是啥子问题
--伊万诺夫