瓶子xf

2018年6月6日

摘要： RDD（Resilient Distributed Dataset）叫做弹性分布式数据集RDD，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。 RDD包含很多分区，由一系列分区构成，一个分区构成一阅读全文

posted @ 2018-06-06 18:36 瓶子xf 阅读(1623) 评论(0) 推荐(0) 编辑

2018年6月5日

CentOS6.5和7区别是什么？选择CentOS7版本怎么样？

摘要： CentOS6.5和7区别是什么？选择CentOS7版本怎么样？ centos7与centos6区别阅读全文

posted @ 2018-06-05 10:03 瓶子xf 阅读(1238) 评论(0) 推荐(0) 编辑

2018年6月4日

mapreduce压缩

摘要：这是mr的一种优化策略，通过压缩编码对mapper或者reducer的输出进行压缩，以减少磁盘io，提高mr运行速度（但也相应增加了cpu运算负担）特性： 1.mr支持将map输出的结果或者reduce输出的结果进行压缩，以减少网络IO或最终输出数据的体积。 2.压缩特性使用得当能提高性能，但运用阅读全文

posted @ 2018-06-04 08:10 瓶子xf 阅读(107) 评论(0) 推荐(0) 编辑

2018年6月3日

她真的好美

摘要： 22岁女孩惹何炅泪奔：当她脱下裙子，你才知道有多美阅读全文

posted @ 2018-06-03 23:30 瓶子xf 阅读(70) 评论(0) 推荐(0) 编辑

MapReduce的自制Writable分组输出及组内排序

摘要： MapReduce的自制Writable分组输出及组内排序阅读全文

posted @ 2018-06-03 17:50 瓶子xf 阅读(99) 评论(0) 推荐(0) 编辑

map端join和reduce端join的区别

摘要： MapReduce Join MapJoin和ReduceJoin区别及优化 maptask处理后写到本地，如果再到reduce，又涉及到网络的拷贝。 map端join最大优势，可以提前过滤不需要的数据。如对于20G左右的文件，可以用2个job来处理：一个mapreduce进行数据过滤，另一个阅读全文

posted @ 2018-06-03 13:45 瓶子xf 阅读(628) 评论(0) 推荐(0) 编辑

String.StartsWith 方法

摘要：确定此字符串实例的开头是否与指定的字符串匹配。阅读全文

posted @ 2018-06-03 12:36 瓶子xf 阅读(167) 评论(0) 推荐(0) 编辑

RPC和心跳机制

摘要： hadoop在节点间的内部通讯使用的是RPC，RPC协议把消息翻译成二进制字节流发送到远程节点，远程节点再通过反序列化把二进制流转成原始的信息。 namenode与datanode之间的通信，jobtracker与tasktracker之间的通信，都是通过“心跳”完成的，hadoop的心跳机制的底层阅读全文

posted @ 2018-06-03 11:01 瓶子xf 阅读(324) 评论(0) 推荐(0) 编辑

MAPREDUCE中的序列化

摘要： Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系。。。。），不便于在网络中高效传输；所以，hadoop自己开发了一套序列化机制（Writable），精简，高效阅读全文

posted @ 2018-06-03 10:57 瓶子xf 阅读(370) 评论(0) 推荐(0) 编辑

mapreduce的shuffle机制

摘要： 1.1 概述： mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；(从map的输出到reduce的输入) shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）；具体来说：就是将maptask输阅读全文

posted @ 2018-06-03 10:51 瓶子xf 阅读(241) 评论(0) 推荐(0) 编辑

公告