摘要:
###Shuffle机制 ###WordCount原理图 ###MapReduce程序运行流程图 ###MapTask工作机制 ###数据切片及MapTask并行度决定机制 ###Job提交源码解析 ###MapReduce详细工作流程 ###ReduceTask工作机制 ###Yarn架构及工作机 阅读全文
摘要:
##一、拉链表的使用场景 在数据仓库的数据模型设计过程中,经常会遇到下面这种表的设计: 1)有一些表的数据量很大,比如一张用户表,大约10亿条记录,50个字段,这种表,即使使用ORC压缩,单张表的存储也会超过100G,在HDFS使用双备份或者三备份的话就更大一些。 2)表中的部分字段会被update 阅读全文
摘要:
##一、数据仓库之数仓分层 ####(一)为什么要分层? 大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。如下图,在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系。 因此,我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层 阅读全文