摘要:
22岁女孩惹何炅泪奔:当她脱下裙子,你才知道有多美 阅读全文
摘要:
MapReduce的自制Writable分组输出及组内排序 阅读全文
摘要:
MapReduce Join MapJoin和ReduceJoin区别及优化 maptask处理后写到本地,如果再到reduce,又涉及到网络的拷贝。 map端join最大优势,可以提前过滤不需要的数据。 如对于20G左右的文件,可以用2个job来处理: 一个mapreduce进行数据过滤, 另一个 阅读全文
摘要:
确定此字符串实例的开头是否与指定的字符串匹配。 阅读全文
摘要:
hadoop在节点间的内部通讯使用的是RPC,RPC协议把消息翻译成二进制字节流发送到远程节点,远程节点再通过反序列化把二进制流转成原始的信息。 namenode与datanode之间的通信,jobtracker与tasktracker之间的通信,都是通过“心跳”完成的,hadoop的心跳机制的底层 阅读全文
摘要:
Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系。。。。),不便于在网络中高效传输; 所以,hadoop自己开发了一套序列化机制(Writable),精简,高效 阅读全文
摘要:
1.1 概述: mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;(从map的输出到reduce的输入) shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); 具体来说:就是将maptask输 阅读全文
摘要:
https://www.cnblogs.com/sunxucool/p/3957407.html 阅读全文
摘要:
https://blog.csdn.net/u013904227/article/details/51168398 阅读全文