04 2019 档案

摘要:本章来简单介绍下 Hadoop MapReduce 中的 Combiner。Combiner 是为了聚合数据而出现的,那为什么要聚合数据呢?因为我们知道 Shuffle 过程是消耗网络IO 和 磁盘IO 比较大的操作,如果我们能减少 Shuffle 过程的数据量,那就可以提升整个 MR 作业的性能。 阅读全文
posted @ 2019-04-23 13:10 渡码 阅读(1015) 评论(0) 推荐(0) 编辑
摘要:本章内容我们学习一下 MapReduce 中的 Shuffle 过程,Shuffle 发生在 map 输出到 reduce 输入的过程,它的中文解释是 “洗牌”,顾名思义该过程涉及数据的重新分配,主要分为两部分:1. map 任务输出的数据分组、排序,写入本地磁盘 2. reduce 任务拉取排序。 阅读全文
posted @ 2019-04-16 13:33 渡码 阅读(2858) 评论(0) 推荐(1) 编辑
摘要:前几章我们介绍了 Hadoop 的 MapReduce 和 HDFS 两大组件,内容比较基础,看完后可以写简单的 MR 应用程序,也能够用命令行或 Java API 操作 HDFS。但要对 Hadoop 做深入的了解,显然不够用。因此本章就深入了解一下 MapReduce 应用的运行机制,从而学习 阅读全文
posted @ 2019-04-09 12:59 渡码 阅读(1070) 评论(0) 推荐(0) 编辑
摘要:代理模式为另一个对象提供一个替身以控制对这个对象的访问。从定义可以看出,1. 代理模式提供了一个替身,即代理对象 2. 代理对象是为了控制对另一个对象(真实对象)的访问,控制可以理解为做权限检查、可行性判断等。举个例子,代理对象 = 经纪人,真实对象 = 明星,如果某剧组想邀请明星出演电影,先将剧本 阅读全文
posted @ 2019-04-01 13:43 渡码 阅读(824) 评论(0) 推荐(0) 编辑