摘要:
大数据体系概述 #processon.com -- 免费在线流程图思维导图 Hive简述 Hive与传统数据库比较 Hive的存储格式 TextFile RCFile、ORCFile Parquet SEQUENCEFILE、AVRO Hive的四大常用存储格式存储效率及执行速度对比 阅读全文
摘要:
Combiner编程 reduce join map join mapreduce优化总结 通过自定义分区类避免数据倾斜 #每一个reduce任务生成一个文件 package com.shujia.MapReduce; import org.apache.hadoop.conf.Configurat 阅读全文
摘要:
MapReduce在Yarn上执行流程 Yarn核心组件功能 模拟ApplicationMaster发送Task 在MR中,MapTask、ReduceTask都是线程对象,因为需要在网络中传输,所以都实现了序列化接口 package com.shujia.MapReduce; import jav 阅读全文