Loading

摘要: ODS层 是原始数据,存储总HDFS上 保持原数据不做修改,起到备份数据的作用 压缩数据,减少磁盘存储空间(lzo) 创建分区表,防止后续的全表扫描 LZO压缩: 解压速度非常快 允许在压缩部分以损失压缩速度为代价提高压缩率,解压速度不会降低。 算法无损,线程安全 DIM和DWD层 需构建维度模型, 阅读全文
posted @ 2022-01-13 23:32 Zhbeii 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 分层 为什么要分层 把复杂问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题 减少重复的开发:规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性 隔离原始数据:不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开 数仓命名规范 表命名 阅读全文
posted @ 2022-01-13 21:31 Zhbeii 阅读(470) 评论(0) 推荐(0) 编辑
摘要: Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入数据时采用--null-string和--null-non-stri 阅读全文
posted @ 2022-01-13 17:55 Zhbeii 阅读(80) 评论(0) 推荐(0) 编辑
摘要: sqoop 是“Hadoop中的各种存储系统(HDFS、HIVE、HBASE) 和关系数据库(mysql、oracle、sqlserver等)服务器之间传送数据”的工具。 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统 导出数据:从 阅读全文
posted @ 2022-01-13 17:34 Zhbeii 阅读(39) 评论(0) 推荐(0) 编辑
摘要: SPU:Xiaomi12 SKU:颜色+内存+网络 Xiaomi12 SKU = Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号 SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、 阅读全文
posted @ 2022-01-13 17:20 Zhbeii 阅读(93) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/erfucun/article/details/52275369 https://blog.csdn.net/matrix_google/article/details/80033524 阅读全文
posted @ 2022-01-13 11:25 Zhbeii 阅读(10) 评论(0) 推荐(0) 编辑