摘要:
默认分区 默认分区是根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。 自定义分区 (1)自定义类继承Partitioner, 重写getPartition() 方法 (2)在Job驱动中,设置自定义Partitioner (3)自定义Pati 阅读全文
摘要:
1.InputFormat数据输入 (1)切片与MapTask并行度决定机制. MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 MapTask并行度决定机制 数据块:Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。 数据切片:数据切 阅读全文
摘要:
1)什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 2)为什么要序列化 一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的 阅读全文
摘要:
作用: 简化匿名内部类的代码写法。 注意: Lambda表达式只能简化函数式接口的匿名类的写法形式。 什么是函数是接口: 首先必须是接口,其次接口中有且仅有一个抽象方法的形式。 通常我们会在接口上加上一个 @FunctionalInterface 注解,标记该接口必须是满足函数式接口。 1 publ 阅读全文
摘要:
Arrays类常用API 1 public class array_demo1 { 2 public static void main(String[] args) { 3 int[] arr = {7, 27 ,3 ,12 ,5}; 4 System.out.println(arr); 5 6 / 阅读全文