……

2020年9月22日
摘要: 一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命名为dwt_购物车 ADS层命名为ads_表名 临时表命名为xxx_tmp 用户行为表 阅读全文
posted @ 2020-09-22 17:37 大码王 阅读(1135) 评论(0) 推荐(0) 编辑
摘要: 一、电商业务简介1.1 电商业务流程1.2 电商常识(SKU、SPU)SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的 SKU 号SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易 阅读全文
posted @ 2020-09-22 16:22 大码王 阅读(1064) 评论(0) 推荐(0) 编辑
摘要: 总结1)数仓概念总结【1】数据仓库的输入数据源和输出系统分别是什么?输入系统:埋点产生的用户行为数据、JavaEE 后台产生的业务数据输出系统:报表系统、用户画像系统、推荐系统2)项目需求及架构总结【1】集群规模计算【2】框架版本选型1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使 阅读全文
posted @ 2020-09-22 15:33 大码王 阅读(655) 评论(0) 推荐(0) 编辑
摘要: 5)Flume安装 一、Flume概述 【1】Flume简介 1)Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统 2)Flume可以采集文件,例如:socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、HBase、h 阅读全文
posted @ 2020-09-22 15:30 大码王 阅读(602) 评论(0) 推荐(0) 编辑
摘要: 一、数据采集模块 Linux基本配置 【1】Linux环境搭建 1).修改MAC地址 方法1:vim /etc/udev/rules.d/70-persistent-net.rules 删除eth0,将eth1修改为eth0 方法2:rm -rf /etc/udev/rules.d/70-persi 阅读全文
posted @ 2020-09-22 11:37 大码王 阅读(703) 评论(1) 推荐(0) 编辑
摘要: 一、数据生成模块1)埋点数据基本格式 公共字段:基本所有安卓手机都包含的字段 业务(事件)字段:埋点上报的字段,有具体的业务类型 示例如下<ignore_js_op>2)示例日志(服务器时间戳 | 日志)如下注意:事件字段包含多个用户行为数据3)事件日志数据【3.1】商品列表页(loading)事件 阅读全文
posted @ 2020-09-22 11:06 大码王 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 一、数据仓库 数据仓库(Data Warehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本、提高产品质量等数据仓库,并不是数据的最终目 的地,而是为数据最终的目的地做好准备。这些准备包括对数据的:清洗,转义,分类, 阅读全文
posted @ 2020-09-22 10:56 大码王 阅读(805) 评论(0) 推荐(1) 编辑
复制代码