阿里云电商数仓的项目描述

1.简介:基于当今的购物狂潮,针对不同用户,进行相关数据统计。
2.主要技术:Flume,DataHub,MaxCompute,DataWorks,RDS,QuickBi
3.实现功能:
通过Flume运行日志程序,将采集到的用户行为数据推送到Data Hub中,使用DataHub Connector将DataHub中的数据推送到MaxCompute中,搭建数据仓库分层,执行业务调度,将渠道日活的用户使用QuickBi进行展示。
通过运行SQL文件得到业务数据,将RDS中的数据同步到MaxCompute中,搭建数据仓库分层,执行业务调度,最后将表同步到RDS中,使用QuickBi展示不同年龄段的消费情况、地区销售额及热门商品消费情况。

阿里云项目
用户行为日志:
ODS--->DWD--->DWS--->ADS
ODS:字符串,包含了所有的字段
DWD:设备id,访问来源,用户id,email,地区
DWS:按照设备id分区,按访问时间排序,设备id为一个用户的标志,获取第一条数据,即用户第一次访问时的来源
ADS:按来源分组,将每个用户的来源进行汇总,得到用户来源的数据分析指标。

业务数据
ODS:将数据全部导入,不做处理
订单表:订单编号,订单金额,订单状态,用户 id,支付方式,支付流水号,创建时间,操作时间,省份
订单明细:明细 id,订单 id,商品 id,商品名称,购买价格,购物数量,创建时间
商品信息:skuid,spuid,价格,商品名称,商品描述,重量(千克),品牌 id,品类 id,创建时间
用户信息:用户 id,姓名,生日,性别,邮箱,用户等级,创建时间
三级品类信息:
品牌信息:
一级品类信息:
二级品类信息:
支付流水表:编号,对外业务编号,订单编号,用户编号,支付宝交易流水编号,支付金额,交易内容,支付类型,支付时间
地区:地区id,地区名称
省份:品牌id,名称,地区id

DWD:进行数据清洗,去除离群值和空/脏数据
订单表:订单id,订单总额,支付状态,用户id,付款方式,订单流失号,省市id,创建时间,修改时间
订单明细:明细id,订单id,用户id,商品id,商品名称,购买价格,购物数量,省市id,创建时间
商品信息表(维度表):商品id,spuid,商品价格,商品名称,商品描述,重量,品牌id,品牌名称,三级分类id,二级分类id,一级分类 id,三级分类名称,二级分类名称,一级分类名称,创建时间
用户信息表(维度表):id,用户名称,生日,性别,邮箱,等级,注册时间
地区省市表(维度表):id,省市名称,地区 id,地区名称

DWS:(将所有的数据汇总成宽表)
用户单日交易行为宽表:
用户 id,商品 Id,用户性别,用户年龄,用户等级,商品当日价格,商品名称,商品三级品类 id,商品二级品类 id,商品一级品类 id,商品三级品类名称,商品二级品类名称,商品一级品类名称,商品 spu,品牌 id,品牌名称,省市 id,省市名称,地区 id,地区名称,购买个数,当日下单单数,当日下单金额

ADS:将不同年龄段的消费情况,不同地区的消费情况,热门商品消费情况
年龄销售统计:
年龄,购买商品个数,订单个数,销售额,平均客单价
地区销售统计:
省份 id,省市名称,地区 ID,地区名称,购买商品个数,订单个数,销售额,平均客单价
商品销售统计:
商品 id,商品名称,购买商品个数,三级分类 id,二级分类 id,一级分类 id,三级分类名称,二级分类名称,一级分类名称,订单个数,销售额,平均客单价
posted @ 2022-07-13 11:06  jsqup  阅读(248)  评论(0编辑  收藏  举报