上一页 1 2 3 4 5 6 ··· 20 下一页
摘要: 背景: 2017 年,阿里内部 MaxCompute 集群上游 200 多万个任务,每天存储资源、计算资源消耗都很大。如何降低计算资源的消耗,提高任务执行的性能,提升任务产出的时间,是计算平台和 ETL 开发工程师孜孜追求的目标。 一、系统优化 系统优化:通过分析计算系统的数据运行情况,判断计算系统 阅读全文
posted @ 2020-09-11 16:11 何永灿 阅读(1641) 评论(1) 推荐(0) 编辑
摘要: 一、元数据概述 1、元数据定义 元数据:按传统的定义,元数据就是关于数据的数据; 元数据的用途: 打通源数据、数据仓库、数据应用,记录数据从产生到消亡的全过程; 主要记录:数据仓库中模型的定义、各层级间的映射关系、监控数据仓库中的数据状态、监控 ETL 的任务的运行状态; 在数据仓库系统中,元数据可 阅读全文
posted @ 2020-09-09 15:20 何永灿 阅读(10873) 评论(1) 推荐(0) 编辑
摘要: 目录: 事实表基础 事实表特征 事实表设计原则 事实表设计方法 事务事实表 设计过程 单事务事实表 多事务事实表 两事实表对比 父子事实的处理方式 事实的设计原则 周期快照事实表 特性 实例阐述周期快照事实表设计过程 注意事项 累积快照事实表 设计过程 特点 特殊处理 物理处理 三种事实表的比较 无 阅读全文
posted @ 2020-09-09 00:00 何永灿 阅读(3714) 评论(0) 推荐(4) 编辑
摘要: 目录: 维度设计基础 维度的基本概念 维度的基本设计方法 维度的层次结构 规范化和反规范化 一致性维度和交叉探查 维度设计高级主题 维度整合 水平拆分 垂直拆分 历史归档 维度变化 缓慢变化维 快照维表 极限存储 微型维度 特殊维度 递归层次 行为维度 多值维度 多值属性 杂项维度 数据岗位工作:了 阅读全文
posted @ 2020-09-06 16:53 何永灿 阅读(2204) 评论(0) 推荐(0) 编辑
摘要: 面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性,一直是大数据系统建设不断追求的方向。 数据仓库模型实施过程: 首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。这是数据仓库建设的基石,业务调研和 阅读全文
posted @ 2020-09-02 16:29 何永灿 阅读(3212) 评论(2) 推荐(0) 编辑
摘要: 一、为什么需要建立数据模型 数据模型是组织和存储数据的方法; 适合业务和基础数据存储环境的模型,具有以下几点好处: 性能:快速查询所需要的数据,减少数据的 I/O 吞吐; 成本:减少不必要的数据冗余,实现计算结果复用,降低数据系统中的存储和计算成本; 效率:改善用户使用数据的体验,提高使用数据的效率 阅读全文
posted @ 2020-09-01 15:50 何永灿 阅读(2750) 评论(0) 推荐(0) 编辑
摘要: 参考:数据仓库3NF基础理论和实例 博主:张子良 参考:数据库三范式 博主:五月的仓颉 我都不知道自己在说什么 一、1NF-无重复的列 数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。 一个属性列,每条记录中不能有多个值 / 字段; 阅读全文
posted @ 2020-09-01 15:48 何永灿 阅读(919) 评论(0) 推荐(0) 编辑
摘要: 一、简介 一般业务诉求:在第一时间拿到经过加工后的数据,以便实时监控当前业务状态并作出运营决策,引导业务往好的方向发展。 按照数据的延时情况,数据时效性一般分为三种(离线、准实时、实时): 离线:在今天(T)处理 N 天前(T - N ≥ 1)的数据,延迟时间粒度为天; 准实时:在当前小时(H)处理 阅读全文
posted @ 2020-07-30 17:39 何永灿 阅读(3056) 评论(1) 推荐(0) 编辑
摘要: 从采集系统中收集了大量的原始数据后,数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的; 面对海量的数据和复杂的计算,阿里的数据计算层包括两大体系:数据存储及计算平台(离线计算凭他 MaxCompute、实时计算平台 StreamCompu 阅读全文
posted @ 2020-07-30 09:55 何永灿 阅读(2579) 评论(0) 推荐(0) 编辑
摘要: 概述 数据同步场景类型: 主数据库与备份数据库之间的数据备份; 主系统与子系统间的数据更新; 属于同类型不同集群数据库间的数据同步; 不同区域、不同数据库类型间的数据传输交换; 大数据系统:数据从业务系统同步进入数据仓库、数据从数据仓库同步进入数据服务或者数据应用。(本篇主讲数据从业务系统同步进入数 阅读全文
posted @ 2020-07-26 12:21 何永灿 阅读(3994) 评论(1) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 20 下一页