随笔分类 - 大数据平台建设
建设数仓,以及支撑它的所有应用
摘要:yarn的基本概念 yarn由两部分组成: ResourceManager 负责整个集群资源的管理和分配 NodeManager 管理很多容器,容器中运行着正真的分布式计算程序,比如flink,或者spark。NodeManager需要向ResourceManager上报自己的任务运行情况,同时向R
阅读全文
摘要:前言 前一篇《指标管理系统设计》,我讲了指标体系要解决的问题,以及指标系统宏观搭建和模型上的设计。其中对具体实施时的计算存储架构说的不是特别清楚。这一篇,我将着重介绍指标计算架构的设计。 过往的一些实现问题 指标体系跟标签体系其实有些类似,都有很多的字段,甚至在某种程度上,他们还可以成为依托关系。比
阅读全文
摘要:前言 这篇笔记的主要内容来至于The Data Warehouse Toolkit,该书可以称为数仓建模的圣经 什么是星型模型 以一个业务事实为主表。比如一笔订单就是一个业务事实。订单有商品的SKU信息,销售市场信息,日期信息 ,这些基本属性,叫做维度。 雪花 一个产品维度,本身还有分类、包装等信息
阅读全文
