随笔分类 -  数据仓库

摘要:如何保证数据质量: 明确数据质量标准:首先,您需要明确数据质量的衡量标准。这包括准确性、完整性、一致性、可靠性、有效性等方面。确保所有相关人员对数据质量的标准有清晰的认识。 建立数据管理制度:制定一套完善的数据管理制度,包括数据采集、存储、处理、分析和使用的规范。确保数据在整个生命周期内都受到有效管 阅读全文
posted @ 2024-03-21 10:39 苏su 阅读(101) 评论(0) 推荐(0) 编辑
摘要:一、空值校验 空值校验通常涉及以下几个方面: 识别空值: 首先,需要识别数据集中的空值。空值可以表现为NULL、空字符串、特定的标记(如“N/A”或“缺失”)等。 分析空值原因: 在识别空值后,需要分析空值产生的原因。这有助于确定是否需要填充空值或如何处理空值。空值的原因可能包括数据录入错误、测试数 阅读全文
posted @ 2024-03-06 09:36 苏su 阅读(67) 评论(0) 推荐(0) 编辑
摘要:1.数仓主题是什么? 数仓主题(Subject)是在较高层次上将企业信息系统中某一分析对象(重点是分析的对象)的数据进行整合、归类并分析的一种范围,属于一个抽象概念,简单点说每一个主题对应一个宏观分析领域。 下面举例说明一下:对于一个erp系统而言,“销售分析”就是一个分析领域,这个“销售分析”所涉 阅读全文
posted @ 2021-09-30 13:08 苏su 阅读(1635) 评论(0) 推荐(0) 编辑
摘要:1.按照所属系统划分:业务系统有几种,就划分几种 2.按照业务(功能模块/业务线)或业务过程划分 比如一个靠销售广告位置的门户网站主题域可能会有广告域,客户域等,而广告域可能就会有广告的库存,销售分析、内部投放分析等主题; 3.按照部门划分主题域 比如公司里面的人力、财务、销售、运营等,运营域中可能 阅读全文
posted @ 2021-09-30 13:04 苏su 阅读(1009) 评论(0) 推荐(0) 编辑
摘要:什么是元数据 简单来讲就是用来描述数据的数据 为什么要元数据管理 数据的参考框架 解决数据模糊性 可视化数据流动 影响和血缘分析 推进标准化建设 规范化数据审计 普通应用系统为什么不需要元数据管理? 表的数量少 数据加工简单 数据来源单一 访问方式单一 交钥匙的应用 数据仓库为什么必须元数据管理? 阅读全文
posted @ 2021-04-09 10:39 苏su 阅读(461) 评论(0) 推荐(0) 编辑
摘要:不同点 首先最大的不同就是企业数据仓库的模式不同,inmon是采用第三范式的格式,而kimball则采用了多维模型–星型模型,并且还是最低粒度的数据存储。 其次是,维度数据仓库可以被分析系统直接访问,当然这种访问方式毕竟在分析过程中很少使用。最后就是数据集市的概念有逻辑上的区别,在kimball的架 阅读全文
posted @ 2021-04-09 09:44 苏su 阅读(4204) 评论(0) 推荐(0) 编辑
摘要:数据元 定义: 用一组属性描述定义、标识、表示和允许值的数据单元。 数据的基本单元。 每个数据元的确切含义需要通过一系列属性来说明,包括数据的定义、标识、表示方法和管理等 通过定义、标识、表示以及允许值等一系列属性(元数据)描述的数据单元,被认定为是不可再分的最小的数据单元。 数据元一般来说由三部分 阅读全文
posted @ 2021-03-15 18:22 苏su 阅读(826) 评论(0) 推荐(0) 编辑
摘要:事实表 事实表是包含大量数据值的一种结构。事实数据表可能代表某次银行交易,包含一个顾客的来访次数,并且这些数字信息可以汇总,以提供给有关单位作为历史的数据。 每个数据仓库都包含一个或者多个事实数据表。事实数据表只能包含数字度量字段和使事实表与维度表中对应项的相关索引字段.,该索引包含作为外键的所有相 阅读全文
posted @ 2020-08-18 16:22 苏su 阅读(1254) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示