随笔分类 - 数仓开发建模
摘要:ETL概念 将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程 ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成, 最后加载到数据仓库或数据集市中,成为联机分析处理、 数据挖掘的基础 数据抽取 全
阅读全文
摘要:概念 定义 针对数据仓库设计中表存储数据的方式而定义的,设计表的时候添加start_date和end_date两个字段,数据更新时,通过修改end_date来设置数据的有效时间 所谓拉链,就是记录历史,记录一个事物从开始一直到当前状态的所有变化的信息 可以使用这张表拿到最新的当天的最新数据以及之前的
阅读全文
摘要:数仓建模的好处 好的数据仓库能够支持复杂数据分析和决策,能够提供高性能查询,能够做到数据的通用集成和保持数据的一致性,可以说得上是面向业务分析的数据库 数仓功能本质就是通过建模来达成对复杂业务的抽象,清晰准确完整的刻画业务场景,以便用户通过业务视角便捷的获取所需数据,完成对业务活动的度量 案例一 零
阅读全文
摘要:数据仓库概念 可以把数据仓库认为是一个国道汇总到高速的一个高速中转站,负责收集这些不同地方来源的数据,统一归纳整理好再放到高速上去用,达到高效数据中转的效果 数据仓库的目的就是为了统筹集中所有可以使用的数据,构建面向分析的集成数据环境,通过最终数据分析结果为企业提供决策导向支持 对于整个数据仓库而言
阅读全文
摘要:Impala常用函数语法 Impala是基于Hadoop的一种高性能分布式SQL查询引擎,它支持使用SQL语言对大规模数据进行分析和查询 数学函数 函数 说明 举例 ABS(x) 绝对值函数,返回一个数的绝对值 SELECT ABS(-10) AS result; CEIL(x) 向上取整函数,返回
阅读全文
摘要:聚合表 建表时可以定义聚合键并且为value列指定聚合函数,当多条数据具有相同的聚合键时,value列会进行聚合 适用场景 适用于分析统计和汇总数据,例如: 通过分析网站或APP的访问流量,统计用户的访问总时长、访问总次数 广告厂商为广告主提供的广告点击总量、展示总量、消费统计等 通过分析电商的全年
阅读全文
摘要:主键表 优势:支撑实时数据更新的同时,也能保证高效的复杂即席查询性能 主键表中的主键具有唯一非空约束,用于唯一标识数据行,如果新数据的主键值与表中原数据的主键值相同,则存在唯一约束冲突,此时新数据会替代原数据 应用场景 实时对接事务型数据至StarRocks。事务型数据库中,除了插入数据外,一般还会
阅读全文
摘要:概念 StarRocks是新一代高性能分析型数据仓库,支持实时、多维、高并发的数据分析; StarRocks支持从各种数据源进行实时和批量数据推流,它还允许您直接分析存储在数据湖中的数据,无需数据迁移 StarRocks非常适合对新数据进行实时分析。可以高速摄取数据,并实时更新和删除数据 场景 St
阅读全文
摘要:维度模型 维度建模按数据组织类型划分可分为星型模型、雪花模型、星座模型。 选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实 一、星型模型 主要是维表和事实表,以事实表为中心,所有维度直接关联在事实表上,呈星型分布。 二、雪花模型 一个事实表关联多个维度表,维度表再关联维度表。 三、星座模型
阅读全文
摘要:数据模型 在Doris中,数据以表(Table)的形式进行逻辑上的描述。一张表包括行(Row)和列(Column)。Row即用户的一行数据,Column用于描述一行数据中不同的字段。 Column可以分为两大类:Key和Value。从业务角度看,Key和 Value可以分别对应维度列和指标列。Dor
阅读全文