2024 年 6月随笔档案 - fanrucong

【SPARK-CORE】shuffle机制

摘要：本文主要介绍spark的shuffle机制 shuffle的产生 Spark 作业被分解为多个 Stage，每个 Stage 包含多个任务（Task）。在需要重新分区的数据操作时因为需要进行数据的交换因此会产生 Shuffle 边界，即两个 Stage 之间需要进行 Shuffle 操作。 shuf 阅读全文

posted @ 2024-06-15 18:09 fanrucong 阅读(49) 评论(0) 推荐(0)

【SPARK-CORE】checkpoint机制

摘要：本文主要介绍SPARK RDD的checkpoinnt机制 checkpoint机制介绍 checkpoint是将RDD保存到可靠的存储中的机制，主要目的是提高应用的容错能力和持久性。Checkpointing 将数据从内存中转移到磁盘存储，使得在出现节点故障时，Spark 可以从存储中恢复数据，而阅读全文

posted @ 2024-06-15 11:57 fanrucong 阅读(142) 评论(0) 推荐(0)

【维度建模】【第二章】Kimball维度建模-事实表

摘要：2.1基本概念 2.1.2维度建模研讨维度模型应该由业务、模型设计者通过充分的讨论得到。 2.1.3四步骤维度设计过程维度设计期间主要设计一下四个主要的决策：选择业务过程声明粒度确认维度确认事实 2.1.4业务过程表示一次业务的行为。例如获得订单、学生课程注册， 2.1.5粒度粒度是阅读全文

posted @ 2024-06-05 15:13 fanrucong 阅读(68) 评论(0) 推荐(0)

【维度建模】【第一章】维度建模简介

摘要：维度建模的简介维度模型通常不要求必须满足数据库的3NF，规范化的3NF对与数据仓库来说过于复杂，用户难以理解、检索。但维度模型包含的信息和3NF模型包含的信息基本一致，但为了查询性能的通常刻意不满足三范式。 1.3.1 星型模型与OLAP 关系数据库中实现的维度模型称为星型模型，其又一个事实表与多阅读全文

posted @ 2024-06-03 15:33 fanrucong 阅读(86) 评论(0) 推荐(0)

06 2024 档案

公告