09 2020 档案
摘要:参考:MySQL中各SQL子句的逻辑执行顺序 前言 本文节选自《MySQL技术内幕:SQL编程》3.1 逻辑查询处理 本文说明的执行顺序只是一种逻辑顺序,并不是MySQL中SQL查询语句的实际执行过程。MySQL在实际执行SQL语句时,由于MySQL Optimizer优化器的存在,会将SQL子句的
阅读全文
摘要:一、CASE 表达式概述 逻辑:如果满足 WHEN 后的条件,返回 THEN 后的内容; WHEN 后的条件:可以使用 BETWEEN、LIKE、<、>、= 等谓词组合,也可以嵌套子查询的 IN 和 EXISTS 谓词; 1、两种写法:简单 CASE 表达式、搜索 CASE 表达式 -- 简单 CA
阅读全文
摘要:参考: MySQL中TEXT与BLOB类型的区别 主要差别 TEXT与BLOB的主要差别就是 BLOB 保存二进制数据 TEXT 保存字符数据 目前几乎所有博客内容里的图片都不是以二进制存储在数据库的,而是把图片上传到服务器然后正文里使用<img>标签引用,这样的博客就可以使用TEXT类型。而BLO
阅读全文
摘要:参考:MySQL中varchar与char区别 博主:叫我大头 一、char 和 varchar 区别 1、定长和变成 char:定长,长度固定;varchar:变长,长度可变; 当插入的字符串长度小于定义长度时,则会以不同的方式来处理,如char(10),表示存储的是10个字符,无论你插入的是多少
阅读全文
摘要:一、数据质量保障原则 如何评估数据质量的好坏,业界有不同的标准,阿里主要从 4 个方面进行评估:完整性、准确性、一致性、及时性; 1、完整性2 数据完整性是数据最基础的保障; 完整性:指数据的记录和信息是否完整,是否存在缺失的情况; 数据缺失:主要包括记录的缺失和记录中某个字段信息的缺失; 记录的丢
阅读全文
摘要:数据存储和成本管理: 有效的降低存储资源的消耗,节省存储成本,是存储管理孜孜追求的目标; 一般从 4 个方面优化存储:数据压缩、数据重分布、存储治理项优化、生命周期管理; 一、数据压缩 实际中的数据存储情况:在其它分布式计算系统中,为了提高数据的可用性和性能,通常会将数据存储 3 份;这就意味着存储
阅读全文
摘要:背景: 2017 年,阿里内部 MaxCompute 集群上游 200 多万个任务,每天存储资源、计算资源消耗都很大。如何降低计算资源的消耗,提高任务执行的性能,提升任务产出的时间,是计算平台和 ETL 开发工程师孜孜追求的目标。 一、系统优化 系统优化:通过分析计算系统的数据运行情况,判断计算系统
阅读全文
摘要:一、元数据概述 1、元数据定义 元数据:按传统的定义,元数据就是关于数据的数据; 元数据的用途: 打通源数据、数据仓库、数据应用,记录数据从产生到消亡的全过程; 主要记录:数据仓库中模型的定义、各层级间的映射关系、监控数据仓库中的数据状态、监控 ETL 的任务的运行状态; 在数据仓库系统中,元数据可
阅读全文
摘要:目录: 事实表基础 事实表特征 事实表设计原则 事实表设计方法 事务事实表 设计过程 单事务事实表 多事务事实表 两事实表对比 父子事实的处理方式 事实的设计原则 周期快照事实表 特性 实例阐述周期快照事实表设计过程 注意事项 累积快照事实表 设计过程 特点 特殊处理 物理处理 三种事实表的比较 无
阅读全文
摘要:目录: 维度设计基础 维度的基本概念 维度的基本设计方法 维度的层次结构 规范化和反规范化 一致性维度和交叉探查 维度设计高级主题 维度整合 水平拆分 垂直拆分 历史归档 维度变化 缓慢变化维 快照维表 极限存储 微型维度 特殊维度 递归层次 行为维度 多值维度 多值属性 杂项维度 数据岗位工作:了
阅读全文
摘要:面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性,一直是大数据系统建设不断追求的方向。 数据仓库模型实施过程: 首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。这是数据仓库建设的基石,业务调研和
阅读全文
摘要:一、为什么需要建立数据模型 数据模型是组织和存储数据的方法; 适合业务和基础数据存储环境的模型,具有以下几点好处: 性能:快速查询所需要的数据,减少数据的 I/O 吞吐; 成本:减少不必要的数据冗余,实现计算结果复用,降低数据系统中的存储和计算成本; 效率:改善用户使用数据的体验,提高使用数据的效率
阅读全文
摘要:参考:数据仓库3NF基础理论和实例 博主:张子良 参考:数据库三范式 博主:五月的仓颉 我都不知道自己在说什么 一、1NF-无重复的列 数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。 一个属性列,每条记录中不能有多个值 / 字段;
阅读全文