2019 年 4月随笔档案 - 渡码

大数据技术 - MapReduce的Combiner介绍

摘要：本章来简单介绍下 Hadoop MapReduce 中的 Combiner。Combiner 是为了聚合数据而出现的，那为什么要聚合数据呢？因为我们知道 Shuffle 过程是消耗网络IO 和磁盘IO 比较大的操作，如果我们能减少 Shuffle 过程的数据量，那就可以提升整个 MR 作业的性能。阅读全文

posted @ 2019-04-23 13:10 渡码阅读(1015) 评论(0) 推荐(0) 编辑

大数据技术 - MapReduce的Shuffle及调优

摘要：本章内容我们学习一下 MapReduce 中的 Shuffle 过程，Shuffle 发生在 map 输出到 reduce 输入的过程，它的中文解释是 “洗牌”，顾名思义该过程涉及数据的重新分配，主要分为两部分：1. map 任务输出的数据分组、排序，写入本地磁盘 2. reduce 任务拉取排序。阅读全文

posted @ 2019-04-16 13:33 渡码阅读(2858) 评论(0) 推荐(1) 编辑

大数据技术 - MapReduce 作业的运行机制

摘要：前几章我们介绍了 Hadoop 的 MapReduce 和 HDFS 两大组件，内容比较基础，看完后可以写简单的 MR 应用程序，也能够用命令行或 Java API 操作 HDFS。但要对 Hadoop 做深入的了解，显然不够用。因此本章就深入了解一下 MapReduce 应用的运行机制，从而学习阅读全文

posted @ 2019-04-09 12:59 渡码阅读(1070) 评论(0) 推荐(0) 编辑

设计模式之代理模式

摘要：代理模式为另一个对象提供一个替身以控制对这个对象的访问。从定义可以看出，1. 代理模式提供了一个替身，即代理对象 2. 代理对象是为了控制对另一个对象（真实对象）的访问，控制可以理解为做权限检查、可行性判断等。举个例子，代理对象 = 经纪人，真实对象 = 明星，如果某剧组想邀请明星出演电影，先将剧本阅读全文

posted @ 2019-04-01 13:43 渡码阅读(824) 评论(0) 推荐(0) 编辑

04 2019 档案

公告