每日总结

MapReduce进程

一个完整的MapReduce程序在分布式运行时有三类实例进程:

1MrAppMaster:负责整个程序的过程调度及状态协调。

2MapTask:负责Map阶段的整个数据处理流程。

3ReduceTask:负责Reduce阶段的整个数据处理流程。

1.5 官方WordCount源码

采用反编译工具反编译源码,发现WordCount案例有Map类、Reduce类和驱动类。数据的类型是Hadoop自身封装的序列化类型

1.6 常用数据序列化类型

Java类型

Hadoop Writable类型

Boolean

BooleanWritable

Byte

ByteWritable

Int

IntWritable

Float

FloatWritable

Long

LongWritable

Double

DoubleWritable

String

Text

Map

MapWritable

Array

ArrayWritable

Null

NullWritable

 

posted @ 2021-12-04 20:39  小萌新一枚lll  阅读(52)  评论(0编辑  收藏  举报