LZ名約山炮

博客园 首页 新随笔 联系 订阅 管理

2021年6月9日 #

摘要: 第3章 数仓环境搭建 3.1 Hive环境搭建 3.1.1 Hive引擎简介 Hive引擎包括:默认MR、tez、spark Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。 Spark on Hi 阅读全文
posted @ 2021-06-09 21:23 LZ名約山炮 阅读(415) 评论(0) 推荐(0) 编辑

摘要: 第1章 数仓分层 1.1 为什么要分层 1)数据仓库分层 ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理 DWD层:对ODS层数据进行清洗(去除空值、脏数据、超过极限范围的数据)、脱敏等,保存业务事实明细,一行信息代表一次业务行为,例如一次下单 DIM层:维度层,保 阅读全文
posted @ 2021-06-09 19:50 LZ名約山炮 阅读(424) 评论(0) 推荐(0) 编辑

摘要: 数据模拟 1.日志数据的生成 1)数据准备,下载地址:https://pan.baidu.com/s/1aaf2-Fuchi3v-0cJqLw4EQ 提取码:sbim 2)在/opt/module/下创建applog目录,将application.properties、application.yml 阅读全文
posted @ 2021-06-09 15:29 LZ名約山炮 阅读(951) 评论(0) 推荐(1) 编辑