千亿级数仓day01-项目的简介
项目具体技术简介
- Kettle
- 缓慢变化维(拉链表):时间维度,脚本生成,时间维度生成之后不会变化,SCD问题我们使用拉链表来解决;
- Hive
- kettle:导出数据的工具
- Spark SQL:计算引擎
- Kylin:计算引擎,进行预计算之后的多维统计分析可以达到亚秒级别。
项目环境介绍
-
业务数据量
- 用户数:300W
- 每日订单量:10W
- 每日交易额:700W
- 商家数:5W
- 商品数:45W
- PV:500W
- UV:50W
-
数据在hdfs中平均每天 40G左右的速度增长,存储3份,每天增长大概120G,存储hive表时
会说过parquet格式+snappy压缩
-
硬件资源
-
数量:30台
-
CPU资源:24核
-
内存:128G
-
硬盘:8T
-