2018年12月11日

Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区

摘要: MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计算出MapTask的数量 (以一个MapTask为例) 5.Maptask调用inputFormat 阅读全文

posted @ 2018-12-11 19:42 nt杨 阅读(527) 评论(0) 推荐(0) 编辑

Hadoop(16)-MapReduce框架原理-自定义FileInputFormat

摘要: 1. 需求 将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value 三个小文件 one.txt two.t 阅读全文

posted @ 2018-12-11 14:02 nt杨 阅读(221) 评论(0) 推荐(0) 编辑

Hadoop(15)-MapReduce框架原理-FileInputFormat的实现类

摘要: 1. TextInputFormat 2.KeyValueTextInputFormat 3. NLineInputFormat 阅读全文

posted @ 2018-12-11 08:53 nt杨 阅读(151) 评论(0) 推荐(0) 编辑

导航