随笔分类 -  面试

摘要:拉链表适合于表的数据量大、而且数据会发生新增和变化,但是大半部分是不变的(数据发生变化的百分比不大),且缓慢变化的,主要目的是节省存储空间 拉链表的适用场景如下: 表的数据量大 表中部分字段会被更新 表中记录变量的比例不高 需要保留历史信息 怎么使用 需要在维度行再增加三列:有效日期、截止日期、行标 阅读全文
posted @ 2022-03-09 16:43 苏su 阅读(167) 评论(0) 推荐(0) 编辑
摘要:Volume(大体量) 即可从数百TB到数十数百PB、甚至EB的规模Variety(多样性) 即大数据包括各种格式和形态的数据Velocity(时效性) 即很多大数据需要在一定的时间限度下得到及时处理Veracity(准确性) 即处理的结果要保证一定的准确性Value(大价值) 即大数据包含很多深度 阅读全文
posted @ 2021-01-18 17:20 苏su 阅读(693) 评论(0) 推荐(0) 编辑
摘要:数据仓库&面试总结 转自:https://zhuanlan.zhihu.com/p/145087259 一、数据仓库分为几层?负责什么职责?为什么要分层? 1、数据仓库分为4层: ODS层 (原始数据层) DWD层 (明细数据层) DWS层 (服务数据层) ADS层 (数据应用层) 2、主要负责职责 阅读全文
posted @ 2021-01-18 17:16 苏su 阅读(393) 评论(1) 推荐(1) 编辑
摘要:1、 on条件是在生成临时表时使用的条件,它不管and中的条件是否为真,都会返回左边表中的记录。 2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的含义(必须返回左表的记录)了,条件不为真的就全部过滤掉。 现在有表a和表b id name 1 a 2 b 阅读全文
posted @ 2020-09-17 14:52 苏su 阅读(3947) 评论(0) 推荐(0) 编辑
摘要:ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。 一.抽取 方法有三种: 1、利用工具,例如kettle,dataX,Informatica 等。。。 2、利用存储过程. 3、前两种工具结合. 抽 阅读全文
posted @ 2020-09-03 15:26 苏su 阅读(799) 评论(1) 推荐(0) 编辑
摘要:1.星形的中心是一个大的事实表,发散出来的是维度表,每一个维度表用一个PK-FK(主键-主外键)连接到事实表,维度表之间彼此并不关联。一个事实表又包括一些度量值和维度。 2.雪花模型通过规范维度表来减少冗余度,也就是说,维度表数据已经被分组成一个个的表而不是使用一个大表。例如产品表被分成了产品大类和 阅读全文
posted @ 2020-09-03 15:08 苏su 阅读(1241) 评论(0) 推荐(0) 编辑
摘要:退化维度 一般来说事实表中的外键都对应一个维表,维的信息主要存放在维表中。但是退化维仅仅是事实表中的一列,这个维的相关信息都在这一列中,没有维表与之相关联。比如:发票号,序列号等等。 那么退化维有什么作用呢? 1、退化维具有普通维的各种操作,比如:上卷,切片,切块等 (上卷汇总,下钻明细;切片,切块 阅读全文
posted @ 2020-09-03 14:38 苏su 阅读(365) 评论(0) 推荐(0) 编辑
摘要:数据倾斜: map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几 阅读全文
posted @ 2020-09-03 14:23 苏su 阅读(1253) 评论(0) 推荐(0) 编辑
摘要:第一步:选择业务过程 1、通过对业务需求以及可用数据源的综合考虑,确定对哪种业务过程开展建模工作 2、建立的第一个维度模型应该是一个最有影响的模型——它应该对最紧迫的业务问题作出回答,并且对数据的抽取来说是最容易的。 第二步:定义粒度 注:粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别, 阅读全文
posted @ 2020-08-18 14:37 苏su 阅读(1260) 评论(0) 推荐(0) 编辑
摘要:缓慢变化维:维度建模的数据仓库中,有一个概念叫Slowly Changing Dimensions,中文一般翻译成“缓慢变化维”,经常被简写为SCD。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把 阅读全文
posted @ 2020-08-18 11:14 苏su 阅读(238) 评论(0) 推荐(0) 编辑
摘要:1、行转列,列转行,图一转图二或图二转图一 图一: Nam Course Score zhangsan Chinese 85 zhangsan Maths 76 zhangsan English 80 lisi Chinese 82 lisi Maths 90 lisi English 55 图二: 阅读全文
posted @ 2018-11-14 10:33 苏su 阅读(456) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示