03_MapReduce框架原理_3.14. MapReduce 开发总结

1. 输入数据接口：InputFormat

　　1. 默认使用的实现类：TextInputFormat

　　一次读取一行文本,该行的起始偏移量为key,行内容为value

　　2. CombineTextInputFormat 可以将多个小文件合并成一个切片处理,提高处理效率

3. 博客连接 https://www.cnblogs.com/bajiaotai/p/15709100.html

2. 逻辑处理接口 : Mapper

　　1. 根据用户业务需求实现三个方法 : map()、setup()、cleanup()

3. 分区 : Partitioner

　　1. HashPartitioner 默认实现

　　　　根据key的哈希值和numReduces来返回一个分区编号

　　　　key.hashCode()&Integer.MAXVALUE % numReduces

　　2. 可继承 Paritioner来自定义分区器

　　3. 博客连接 https://www.cnblogs.com/bajiaotai/p/15720511.html

4. 排序 : Comparable

　　1. 当自定义对象为key时,必须实现WritableComparable接口,并重写compareTo()方法

2. 博客连接 https://www.cnblogs.com/bajiaotai/p/15734910.html

5. 逻辑处理接口 : Reducer

　　1. 根据用户业务需求实现三个方法 : reduce()、setup()、cleanup()

6. 输出数据接口 : OutputFormat

　　1. TextOutputFormat 默认实现

　　　　将每个key、value 向目标文件输出一行

　　2. 可以根据自定义OutputFormat

3. 博客连接 https://www.cnblogs.com/bajiaotai/p/15741122.html

posted @ 2022-01-05 19:26 学而不思则罔！阅读(29) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 03_MapReduce框架原理_3.13 ETL(Map端过滤数据)

· 03_MapReduce框架原理_3.12 Join 应用

· MapReduce框架原理

· MapReduce原理深入理解2----Map、Shuffle、Reduce过程详解

· MapReduce

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

公告

昵称：学而不思则罔！
园龄： 4年10个月
粉丝： 11
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

私人小院

03_MapReduce框架原理_3.14. MapReduce 开发总结

公告

搜索

常用链接

随笔分类

随笔档案

linux运维

阅读排行榜

评论排行榜

推荐排行榜

最新评论