摘要:
设置ReduceTask并行度(个数) ReduceTask的并行度同样影响整个Job的执行并发度和执行效率,但与MapTask的并发数由切片数决定不同,ReduceTask数量的决定是可以直接手动设置: // 默认值是1,手动设置为4 job.setNumReduceTasks(4); 注意: ( 阅读全文
摘要:
1. OutputFormat接口实现类 OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutFormat接口。 默认输出格式TextOutputFormat。 2. 自定义OutputFormat 应用场景 如:输出数据到MySQL / HBase 阅读全文
摘要:
Combine合并 (1)Combiner是mr程序中Mapper和Reducer之外的一种组件。 (2)Combiner组件的父类就是Reducer。 (3)Combiner和reduce的区别在于运行的位置。 Combiner是在每一个MapTask所在的节点运行。 Reducer是接收全局所有 阅读全文
摘要:
1. 栈数据结构的执行特点 后进先出, 先进后出 2. 队列 先进先出,后进后出 入队列:数据从后端进入队列模型的过程。 出队列:数据从前段离开队列模型的过程。 3. 常见数据结构之数组 查询速度快:查询数据通过地址值和索引定位,查询任意数据耗时相同(元素在内存中是连续存储的)。 删除效率低:要将原 阅读全文