06 2024 档案

摘要:本文主要介绍spark的shuffle机制 shuffle的产生 Spark 作业被分解为多个 Stage,每个 Stage 包含多个任务(Task)。在需要重新分区的数据操作时因为需要进行数据的交换因此会产生 Shuffle 边界,即两个 Stage 之间需要进行 Shuffle 操作。 shuf 阅读全文
posted @ 2024-06-15 18:09 fanrucong 阅读(49) 评论(0) 推荐(0)
摘要:本文主要介绍SPARK RDD的checkpoinnt机制 checkpoint机制介绍 checkpoint是将RDD保存到可靠的存储中的机制,主要目的是提高应用的容错能力和持久性。Checkpointing 将数据从内存中转移到磁盘存储,使得在出现节点故障时,Spark 可以从存储中恢复数据,而 阅读全文
posted @ 2024-06-15 11:57 fanrucong 阅读(142) 评论(0) 推荐(0)
摘要:2.1基本概念 2.1.2维度建模研讨 维度模型应该由业务、模型设计者通过充分的讨论得到。 2.1.3四步骤维度设计过程 维度设计期间主要设计一下四个主要的决策: 选择业务过程 声明粒度 确认维度 确认事实 2.1.4业务过程 表示一次业务的行为。例如获得订单、学生课程注册, 2.1.5粒度 粒度是 阅读全文
posted @ 2024-06-05 15:13 fanrucong 阅读(68) 评论(0) 推荐(0)
摘要:维度建模的简介 维度模型通常不要求必须满足数据库的3NF,规范化的3NF对与数据仓库来说过于复杂,用户难以理解、检索。但维度模型包含的信息和3NF模型包含的信息基本一致,但为了查询性能的通常刻意不满足三范式。 1.3.1 星型模型与OLAP 关系数据库中实现的维度模型称为星型模型,其又一个事实表与多 阅读全文
posted @ 2024-06-03 15:33 fanrucong 阅读(86) 评论(0) 推荐(0)