随笔- 372 文章- 0 评论- 37 阅读- 75万

8.1.1默认的map函数、reduce函数、分区函数

1.1.1 默认的map函数和reduce函数

（1）Maper和Reuducer默认类

如果没有指定maper类和reduce类，则会用默认的Maper和Reuducer类去处理数据。也可以显示的将处理类设置为Maper和Reducer类。默认的Maper类和reduce类是将输入原封不动的输出。Map任务的数量等于输入文件分块数。

（2）默认分区类

默认的partitioner是HashPartitioner,对每条记录的键进行哈希操作，决定该记录属于哪个分区，分区值由哈希值与最大的整型值做一次按位与操作，然后进行取模操作，一个分区由一个reduce处理，所以分区数等于作业的reduce任务个数。默认只有一个分区，partitioner作用就变得无关紧要，多个分区时，散列函数足够好，会将记录均匀的分到多个reduce任务中。Reduce任务多，并行化程度高，减少时间，但是小文件会变多。Reduce任务少，处理效率低。经验是reduce任务运行5分钟左右。

自己开发了一个股票智能分析软件，功能很强大，需要的点击下面的链接获取：

https://www.cnblogs.com/bclshuai/p/11380657.html

posted @ 2020-01-30 09:56 一字千金阅读(370) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列：如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示

阅读排行：
· Manus重磅发布：全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后，我竟然真的恢复了删除的微信聊天记录！
· 没有Manus邀请码？试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix

历史上的今天：
2019-01-30 java集合

公告

昵称：一字千金
园龄： 8年3个月
粉丝： 52
关注： 11

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:libcurl长连接高并发多线程
请问博主，curl_easy_reset会不会也导致长连接断开
--zhouqi666
2. Re:Qtreewidget滚动条宽度根据内容自适应调整
@balakey 样式设置，不是绘制的，同setstytlesheet函数设置样式...
--一字千金
3. Re:Qtreewidget滚动条宽度根据内容自适应调整
滚动条是怎么重绘的
--balakey
4. Re:向QtableWidget中添加自定义widget崩溃异常: 0xC0000005
感谢分享
--dong董
5. Re:使用Qss设置QT程序界面的样式和皮肤
nice
--Dayi520