2018年12月10日

Hadoop(14)-MapReduce框架原理-切片机制

摘要: 1.FileInputFormat切片机制 切片机制 比如一个文件夹下有5个小文件,切片时会切5个片,而不是一个片 案例分析 2.FileInputFormat切片大小的参数配置 源码中计算切片大小的公式 切片大小设置 获取切片大小API 3. CombineTextInputFormat切片机制 阅读全文

posted @ 2018-12-10 22:29 nt杨 阅读(418) 评论(0) 推荐(0) 编辑

Hadoop(13)-MapReduce框架原理--Job提交源码和切片源码解析

摘要: 1.MapReduce的数据流 1) Input -> Mapper阶段 这一阶段的主要分工就是将文件切片和把文件转成K,V对 输入源是一个文件,经过InputFormat之后,到了Mapper就成了K,V对,以上一章的流量案例来说,经过InputFormat之后,变成了手机号为key,这一行数据为 阅读全文

posted @ 2018-12-10 20:13 nt杨 阅读(230) 评论(0) 推荐(0) 编辑

Hadoop(12)-MapReduce框架原理-Hadoop序列化和源码追踪

摘要: 1.什么是序列化 2.为什么要序列化 3.为什么不用Java的序列化 4.自定义bean对象实现序列化接口(Writable) 在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。 具体实现bean对象序列化步骤如下7 阅读全文

posted @ 2018-12-10 18:41 nt杨 阅读(401) 评论(0) 推荐(0) 编辑

导航