得帆云学习笔记
数仓规划
数仓规划是开发人员对业务的解析、分类和提炼的过程。
数仓开发人员需要根据对整体业务的理解来划分出不同业务领域、业务领域下对应的数据域、以及数据域下的业务过程。
根据业务的类型或其他特征来划分业务领域。
根据该业务下再细分出的类别来划分数据域。
根据业务中的业务活动来确定不同业务过程。
最后,数仓开发人员需要根据具体的需求把不同业务过程中产生的数据进行分层提炼,确定出所需要的数据
例如:
工厂下设生产和制造部门和销售和市场部门。在生产和制造部门中会涉及到物料管理、产品管理、库存管理,而在销售和市场部门会涉及到订单管理和物流管理。在物料管理下,又可根据其实际的生产活动,可分物料的采购、生产消耗两个业务过程。在产品管理下,又有生产的业务过程。在库存管理下,会有物品的入库、出库等业务过程。在订单管理下,根据其具体实际的生产活动,有产品销售这一业务过程。在物流管理中,有货物运输这一业务活动。根据上述的业务场景可作如下分析:
在完成对业务的整体场景进行划分之后,数仓开发人员要对业务的生产活动产生的数据进行ETL处理,视具体情况,建立不同的分层(最少应有三层),且下层的数据不可逆向上层。可参考下图:
数据开发
数据开发是数仓开发人员将业务场景中的不同业务活动产生的数据进行ETL处理,提炼出所需要的数据的过程。在得帆云中,项目是基于数据域,对数据开发任务进行管理、开发的基本的单元,即数据的开发任务要挂载在项目上进行。
在得帆软云下,可按作业类型,分为离线作业和实时作业。
① 实时作业可以不停止的从数据源抽取数据,并进行简单过滤处理。若任务对数据的时效性要求较高(如数据大屏),可使用实时作业。
② 对数据的时效性要求不是很高,数据源更新周期长,且数据的量较大,可使用离线作业,定时处理数据。
数仓开发人员可根据具体情况下选择作业类型。
离线作业的开发逻辑要符合基于当前所挂载的数据域的数据分层结构。建立对应的分层结构,在对应的分层中实现数据表的建立和数据的ETL工作。
在数据开发过程中产生的表结构,可在表管理中对数据表的信息进行查看,对数据表中的数据进行预览。
维度建模是用于设计数据仓库的模型,用于支持数据分析和报告。这种模型通过组织数据成维度表和事实表的结构,使得用户能够以直观的方式理解和查询数据。
事实表是数据仓库中存储了业务过程中产生的事实性数据的表格。它包含了数值性能度量或事实,例如销售额、数量、利润、点击次数等,这些数据通常是可以被聚合、分析和计算的。
如下图所示销售事实表:
维度表是数据仓库中存储描述业务对象的结构化信息的表格,它包含了用于分析的各种维度的详细信息。
维度表通常包含描述业务过程中的人、地点、时间、产品或事件等的属性。这些表格通常具有清晰的层次结构,用于帮助用户理解和分析数据。
如下图所示产品维度表:
数据质量
通过得帆云的数据质量可建立模型来对指定数据域下的业务过程中的数据表中的数据进行检查。
规制的类型包括:空值检查、值域检查、规范检查、重复数据检查。
通过创建质量模型,运行质检方案可以检测指定数据表中不符合规制的数据,并对数据质量做出评分。