摘要: 1、RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。 通俗点来讲,可以将 RDD 理解为一个分布式对象集合,本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区,每个分区就是一个数据集片段。一 阅读全文
posted @ 2020-03-10 13:48 再见傅里叶 阅读(218) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/kangkanggegeg/article/details/79373551 数据仓库主要工作就是模型设计; 1、数仓建模方法:范式建模、维度建模、Data Vault; 各自优缺点? 2、维度建模的三种方式:星型模式、雪花模式、星座模式 3、分层架构:O 阅读全文
posted @ 2020-03-10 09:48 再见傅里叶 阅读(1343) 评论(0) 推荐(0) 编辑
摘要: 一、 数据库 1、 Oracle数据库,视图与表的区别?普通视图与物化视图的区别?物化视图的作用?materialized view 答:a:视图是虚拟表,提高了表的安全性,视图没有实际物理空间,而表有实际存储的物理空间 b:物化视图存储了实实在在的数据,而普通视图之存储了定义 c:物化视图的优点像 阅读全文
posted @ 2020-03-10 09:47 再见傅里叶 阅读(1869) 评论(0) 推荐(0) 编辑