摘要:
组织架构是公司的核心,组织变更频繁,对于数据统计是一个头疼的事情,尤其是业绩计算归属的时候,所以在制定数仓规范时,一定要有各方一致认可的应对方案。组织变化一般分为以下几种情况: 1.组织名称调整2.人员换部门3.部门换层级4.部门废弃 其中影响最大的就是2,3点。 第2点人员换部门,会导致业绩归属断 阅读全文
摘要:
1.背景 上层应用表目前基本采用的是大宽表的方式进行呈现,查看数据的运营人员总怀疑数据有误,所以会抽查一些数据进行手工计算核查,以便验证数据开发人员是否按照要求开发完成,这其实是很有必要的过程,很多时候测试也测了,但是在运营人员验收阶段总会发现一些问题或者说一些新的体会,进而可能对指标计算做一些调整 阅读全文
摘要:
调度是数仓数据生成的执行者,好的调度可以事半功倍,目前市面上的调度很多,比如DolphinScheduler、Oozie、Azkaban等调度工具,当然也可自行开发适合自己企业个性化的调度工具。调度工具怎么实现这里暂且不谈,核心谈一下调度除了基本的核心功能外,在实际工作中还需要具备哪些功能,可以提升 阅读全文
摘要:
调度是数仓数据生成的执行者,好的调度可以事半功倍,目前市面上的调度很多,比如DolphinScheduler、Oozie、Azkaban等调度工具,当然也可自行开发适合自己企业个性化的调度工具。调度工具怎么实现这里暂且不谈,核心谈一下调度除了基本的核心功能外,在实际工作中还需要具备哪些功能,可以提升 阅读全文
摘要:
如何评价数仓的优劣,众说纷纭,其实数仓的优劣评价可以从内部、外部两个方面来评估,也可以从业务角度和技术层面来看。评价的理论很多,实际上我们可通过osm的指标体系来衡量数仓的优劣。 O:数仓优劣判断; S:数据监控、元数据管理、业务流程的理解、预先计算好的中间表或者应用表; M:核心度量指标; 内部的 阅读全文
摘要:
一直以来主题域或者主题的划分各个公司的划分方法不一,其实适合自己企业的就是最好的,根据我对数仓的理解和经验来说,主题域或者主题的划分就是把物理建模的相关表进行分类管理,他们的划分过程可以按照下图的数据建模过程来划分,业务建模对应主题域的确定,领域建模对应主题(每一个主题基本对应一个宏观的分析领域)的 阅读全文
摘要:
1.什么是元数据 元数据是描述数据的组织、数据域及其关系的信息,简言之数据的相关信息而存在的数据,有了元数据可以帮助我们更好的理解业务,实现业务,实现数据资产化。 2.元数据的类型 元数据主要分为技术元数据,业务元数据,管理元数据三大类。 技术元数据 技术元数据是为数仓开发和数仓管理人员服务的,它描 阅读全文
摘要:
1.背景 接上次自定义Hivehook后,此次主要是把下半段yan资源使用情况统计功能实现,从而实现对SQL占用情况统计,达到提取出慢SQL,高耗资源的SQL。 2.实施 上次实现了提交的任务ID和Application_id的关联,这次主要每隔2分钟执行一次应用资源占用情况。 具体实现代码,可以关 阅读全文
摘要:
1.背景 为了加深对维度建模步骤的理解,特此记录一下,维度建模主要分为以下四个步骤: 选取业务过程 定义粒度 选定维度 确认事实 构建架构 2.实施 选取业务过程 (why) 某电商平台想了解平台运营情况,需要对每月,每天每个地区层级的订单量和销售金额进行统计,统计这些数据需要涉及到订单系统的相关数 阅读全文
摘要:
1.背景 最近有个朋友问了一个问题,如何把列值转换为列名进行展示,比如一个表有销售名称,销售日期,销售金额,他想统计这个销售每个月的销售额,然后每个月作为列字段。 2.实施 方法1使用case when: select t1.sale_name ,sum(case when t1.month_id= 阅读全文