08 2023 档案
摘要:记录一个导数的小坑,数仓里面的数据需要导出到mysql,然后报表展示,并且需要把一段文字里面的换行功能体现出来;数仓里面的原始数据采用的是$符号进行分割每一行数据,直接把$符号替换为\n然后导出到mysql,发现没有生效,反而在页面上把\n展示出来了。那么注意了,经过反复尝试写成\\\n,然后把这个
阅读全文
摘要:数仓中表类型有很多,这里罗列一下数仓中各种表的区别及使用场景。 1.拉链表 (1)记录一个实体的所有历史状态变化。 (2)每个状态都有一个起始日期,目前有效的这一条可用很大的日期表示,比如2999-01-01等。 (3)当状态发生变化时,上一条状态的结束日期字段被更新为当前日期。 (4)当需要获取某
阅读全文
摘要:事实表主要由两部分组成,一部分是主键和外键组成的键值部分,另一部分是用来描述业务过程的事实度量,也不排除部分设计人员把部分维度退化进去,从而使事实表再加一部分退化维度。在维度建模中事实表的设计一般遵循五大步骤:1.确定业务过程-》2.定义粒度-》3.确定维度-》4.确定事实-》5.冗余维度属性。通过
阅读全文
摘要:离线数仓数据源的变化对数仓的影响是巨大的,所以我们不但要做好事后监控,也要做好事前的各种流程制度规范,比如所有业务的升库语句需要DBA对其进行管控,只能由DBA进行升库处理,并且做好处理记录,同时把相关变更通知到数据部门。为了防止有导致异常的致命性错误,最好能把binlog监控的就监控起来,这样数据
阅读全文
摘要:组织架构是公司的核心,组织变更频繁,对于数据统计是一个头疼的事情,尤其是业绩计算归属的时候,所以在制定数仓规范时,一定要有各方一致认可的应对方案。组织变化一般分为以下几种情况: 1.组织名称调整2.人员换部门3.部门换层级4.部门废弃 其中影响最大的就是2,3点。 第2点人员换部门,会导致业绩归属断
阅读全文
摘要:1.背景 上层应用表目前基本采用的是大宽表的方式进行呈现,查看数据的运营人员总怀疑数据有误,所以会抽查一些数据进行手工计算核查,以便验证数据开发人员是否按照要求开发完成,这其实是很有必要的过程,很多时候测试也测了,但是在运营人员验收阶段总会发现一些问题或者说一些新的体会,进而可能对指标计算做一些调整
阅读全文
摘要:调度是数仓数据生成的执行者,好的调度可以事半功倍,目前市面上的调度很多,比如DolphinScheduler、Oozie、Azkaban等调度工具,当然也可自行开发适合自己企业个性化的调度工具。调度工具怎么实现这里暂且不谈,核心谈一下调度除了基本的核心功能外,在实际工作中还需要具备哪些功能,可以提升
阅读全文
摘要:调度是数仓数据生成的执行者,好的调度可以事半功倍,目前市面上的调度很多,比如DolphinScheduler、Oozie、Azkaban等调度工具,当然也可自行开发适合自己企业个性化的调度工具。调度工具怎么实现这里暂且不谈,核心谈一下调度除了基本的核心功能外,在实际工作中还需要具备哪些功能,可以提升
阅读全文
摘要:如何评价数仓的优劣,众说纷纭,其实数仓的优劣评价可以从内部、外部两个方面来评估,也可以从业务角度和技术层面来看。评价的理论很多,实际上我们可通过osm的指标体系来衡量数仓的优劣。 O:数仓优劣判断; S:数据监控、元数据管理、业务流程的理解、预先计算好的中间表或者应用表; M:核心度量指标; 内部的
阅读全文