2021 年 12月随笔档案 - 学而不思则罔！

03_MapReduce框架原理_3.11 MapReduce 内核源码解析

摘要：1. MapTask 工作机制 1. 流程图 2. 流程说明源码 2. 流程说明 1. Read阶段 2. Map阶段 3. Collect收集阶段 4. Split阶段(溢写阶段) 5. Merge阶段 MapTask 通过 InputFormat 获取 RecodeReader 并从输入的切阅读全文

posted @ 2021-12-29 12:09 学而不思则罔！阅读(57) 评论(0) 推荐(0) 编辑

03_MapReduce框架原理_3.10 OutputFormat 数据输出类

摘要：1. 说明 2. 常用实现类 3. 使用自定义 OutputFormat类步骤1 自定义 FileOutputFormat类继承 FileOutputFormat 重写 getRecordWriter方法步骤2 自定义 RecordWriter类继承 RecordWriter 1. 创建阅读全文

posted @ 2021-12-28 16:27 学而不思则罔！阅读(160) 评论(0) 推荐(0) 编辑

03_MapReduce框架原理_3.9 合并 Combiner(Map端合并)

摘要：1. 说明 2. 指定合并器 // 指定合并器 public void setCombinerClass(Class<? extends Reducer> cls ) throws IllegalStateException { ensureState(JobState.DEFINE); // 阅读全文

posted @ 2021-12-27 18:56 学而不思则罔！阅读(79) 评论(0) 推荐(0) 编辑

03_MapReduce框架原理_3.8 排序 WritableComparable

摘要：1. 说明 2. 排序时机与排序算法流程图 3. 排序分类 4. 实现 1. 说明自定义类为key 时,必须实现 WritableComparable接口,否则无法排序 2. 实现自定义类实现 WritableComparable接口, 重写 compareTo 方法 5. 代码案例阅读全文

posted @ 2021-12-27 08:44 学而不思则罔！阅读(69) 评论(0) 推荐(0) 编辑

03_MapReduce框架原理_3.7 Partition 分区个数、ReduceTask并行度、分区器

摘要：1. Partition 分区个数、ReduceTask并行度、分区器点击查看分区器源码 /* 分区器使用流程 1. Driver中指定分区个数和分区器实现类分区个数(ReduceTask个数) : job.setNumReduceTasks(n) 或 mapreduce.job.red 阅读全文

posted @ 2021-12-22 17:41 学而不思则罔！阅读(103) 评论(0) 推荐(0) 编辑

03_MapReduce框架原理_3.6 Shuffle机制(源码)

摘要：点击查看 Shuffle 流程图点击查看 Shuffle 机制说明 Hadoop 6. Shuffle 机制 - (流程) 1. 什么是Shuffle&Shuffle的作用 1. Map方法之后,Reduce方法之前的数据处理过程称之为 Shuffle 2. 流程说明 1. MapTask 通阅读全文

posted @ 2021-12-22 16:37 学而不思则罔！阅读(78) 评论(0) 推荐(0) 编辑

03_MapReduce框架原理_3.5 InputFormat 数据输入类(源码)

摘要：Hadoop 1. InputFormat(抽象类) 数据输入 1.2.1 FileInputFormat 1. 切片方法 1.1 抽象方法 1. public abstract List<InputSplit> getSplits (JobContext context) 2. public ab 阅读全文

posted @ 2021-12-19 23:10 学而不思则罔！阅读(89) 评论(0) 推荐(0) 编辑

03_MapReduce框架原理_3.4 InputSplit 切片类(源码)

摘要：Hadoop 2. InputSplit 切片类 1.0 类的作用 InputSplit 他在逻辑上包含了提供给处理这个Inputsplit的Mapper的所有的key-value 1.1 抽象方法 1. public abstract long getLength() 2. public abst 阅读全文

posted @ 2021-12-19 22:39 学而不思则罔！阅读(149) 评论(0) 推荐(0) 编辑

03_MapReduce框架原理_3.3 切片与 MapTask并行度

摘要：Hadoop 3. 切片与 MapTask并行度 1. MapTask并行度切片数 = MapTask 任务数(并行度) 0 . 术语 1. 数据块(Block) 2. 数据切片(Split) 1. Block是 HDFS物理上把数据文件分成一块一块 1. 数据切片只是在逻辑上对输入数据进行分阅读全文

posted @ 2021-12-19 17:53 学而不思则罔！阅读(42) 评论(0) 推荐(0) 编辑

03_MapReduce框架原理_3.2 Job提交流程(源码)

摘要：Hadoop 2. Job提交流程(源码) 1. 客户端执行Driver类的main方法 2. var configuration = new Configuration 读取配置文件 Configuration: core-default.xml, core-site.xml, mapred-d 阅读全文

posted @ 2021-12-16 21:43 学而不思则罔！阅读(51) 评论(0) 推荐(0) 编辑

03_MapReduce框架原理_3.1 MapReduce 框架原理示意图

摘要：阅读全文

posted @ 2021-12-16 19:50 学而不思则罔！阅读(34) 评论(0) 推荐(0) 编辑

02_Hadoop序列化_2.2 自定义Bean对象实现序列化接口(Writable)

摘要：代码示例 package GroupByPoneNumPk { import java.io.{DataInput, DataOutput} import java.lang import org.apache.hadoop.conf.Configuration import org.apache. 阅读全文

posted @ 2021-12-13 19:29 学而不思则罔！阅读(142) 评论(0) 推荐(0) 编辑

02_Hadoop序列化_2.1 序列化概述

摘要：4. Java序列化(Serializable)框架 or Hadoop序列化(Writable)框架代码示例 package twoPk { import java.io._ import java.util.Date import org.apache.hadoop.io.Writable / 阅读全文

posted @ 2021-12-13 19:28 学而不思则罔！阅读(28) 评论(0) 推荐(0) 编辑

phone_data.txt

摘要：1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 阅读全文

posted @ 2021-12-13 17:10 学而不思则罔！阅读(199) 评论(0) 推荐(0) 编辑

01_MapRedece概述_1.8 WordCount案例(Scala版本)

摘要：1. 在Mac环境搭建Hadoop MapReduce 项目 1. scala项目搭建 https://www.cnblogs.com/bajiaotai/p/15381309.html 2. 添加pom依赖 <dependencies> <dependency> <groupId>org.apac 阅读全文

posted @ 2021-12-13 14:51 学而不思则罔！阅读(41) 评论(0) 推荐(0) 编辑

01_MapRedece概述_1.7 MapReduce 编程规范

摘要：阅读全文

posted @ 2021-12-13 14:40 学而不思则罔！阅读(19) 评论(0) 推荐(0) 编辑

01_MapRedece概述_1.6 常用序列化类型

摘要：阅读全文

posted @ 2021-12-13 14:39 学而不思则罔！阅读(18) 评论(0) 推荐(0) 编辑

01_MapRedece概述_1.5 官网 WordCount源码

摘要：1 阅读全文

posted @ 2021-12-13 14:38 学而不思则罔！阅读(21) 评论(0) 推荐(0) 编辑

01_MapRedece概述_1.4 MapReduce 进程

摘要：阅读全文