2018 年 12月 11 日随笔档案 - nt杨

Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区

摘要： MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计算出MapTask的数量 (以一个MapTask为例) 5.Maptask调用inputFormat 阅读全文

posted @ 2018-12-11 19:42 nt杨阅读(527) 评论(0) 推荐(0) 编辑

Hadoop(16)-MapReduce框架原理-自定义FileInputFormat

摘要： 1. 需求将多个小文件合并成一个SequenceFile文件（SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式），SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value 三个小文件 one.txt two.t 阅读全文

posted @ 2018-12-11 14:02 nt杨阅读(221) 评论(0) 推荐(0) 编辑

Hadoop(15)-MapReduce框架原理-FileInputFormat的实现类

摘要： 1. TextInputFormat 2.KeyValueTextInputFormat 3. NLineInputFormat 阅读全文

posted @ 2018-12-11 08:53 nt杨阅读(151) 评论(0) 推荐(0) 编辑

多多蘸酱

Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区

Hadoop(16)-MapReduce框架原理-自定义FileInputFormat

Hadoop(15)-MapReduce框架原理-FileInputFormat的实现类

导航

公告