关闭页面特效
01 2021 档案
项目实战从0到1之hive(47)大数据项目之电商数仓(用户行为数据)(十五)
摘要:第26章 总结 26.1 用户行为数仓业务总结 26.1.1 数仓分几层?每层做什么的? 1)ODS层(原始数据层) 存储原始数据,直接加载原始日志、数据,数据保持原貌不做处理。 2)DWD层(明细层) 对ODS层数据进行清洗(去除空值、脏数据,超过极限范围的数据) 3)DWS层(服务数据层) 以D
阅读全文
项目实战从0到1之hive(46)大数据项目之电商数仓(用户行为数据)(十四)
摘要:第23章 需求十二:统计每日各类别下点击次数top10的商品 23.1 DWS层 使用点击日志表作为DWS层数据源 23.2 ADS层 23.2.1 建表语句 drop table if exists ads_goods_display_top10;create external table ads
阅读全文
项目实战从0到1之hive(45)大数据项目之电商数仓(用户行为数据)(十三)
摘要:第20章 需求九:每个用户累计访问次数 结果如下 用户 日期 小计 总计mid1 2019-12-14 10 10mid1 2019-02-11 12 22mid2 2019-12-14 15 15mid2 2019-02-11 12 27 20.1 DWS层 20.1.1 建表语句 drop ta
阅读全文
项目实战从0到1之hive(44)大数据项目之电商数仓(用户行为数据)(十二)
摘要:第17章 需求六:流失用户数 流失用户:最近7天未登录我们称之为流失用户 17.1 DWS层 使用日活明细表dws_uv_detail_day作为DWS层数据 17.2 ADS层 1)建表语句 drop table if exists ads_wastage_count;create externa
阅读全文
项目实战从0到1之hive(43)大数据项目之电商数仓(用户行为数据)(十一)
摘要:第14章 新数据准备 为了分析沉默用户、本周回流用户数、流失用户、最近连续3周活跃用户、最近七天内连续三天活跃用户数,需要准备2019-02-12、2019-02-20日的数据。 1)2019-02-12数据准备 (1)修改日志时间 dt.sh 2019-02-12 (2)启动集群 cluster.
阅读全文
项目实战从0到1之hive(42)大数据项目之电商数仓(用户行为数据)(十)
摘要:第12章 需求二:用户新增主题 首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。 12.1 DWS层(每日新增设备明细表) 1)建表语句 drop table if exists d
阅读全文
项目实战从0到1之hive(41)大数据项目之电商数仓(用户行为数据)(九)
摘要:第11章 需求一:用户活跃主题 11.1 DWS层 目标:统计当日(dau)、当周、当月活动的每个设备明细 11.1.1 每日活跃设备明细 1)建表语句 drop table if exists dws_uv_detail_day;create external table dws_uv_detai
阅读全文
项目实战从0到1之hive(40)大数据项目之电商数仓(用户行为数据)(八)
摘要:第10章 业务知识准备 10.1 业务术语 用户 用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。 新增用户 首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义
阅读全文
项目实战从0到1之hive(39)大数据项目之电商数仓(用户行为数据)(七)
摘要:第9章 数仓搭建之DWD层 对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式)。 9.1 DWD层启动表数据解析 9.1.1 创建启动表 1)建表语句 drop table if exists dwd_start_log;CREATE EXTERNAL T
阅读全文
项目实战从0到1之hive(38)大数据项目之电商数仓(用户行为数据)(六)
摘要:第6章 数仓分层概念 6.1 为什么要分层 6.2 数仓分层 6.3 数据集市与数据仓库概念 6.4 数仓命名规范 ODS层命名为ods DWD层命名为dwd DWS层命名为dws ADS层命名为ads 临时表数据库命名为xxx_tmp 备份数据数据库命名为xxx_bak 第7章 数仓搭建环境准备
阅读全文
项目实战从0到1之hive(37)大数据项目之电商数仓(用户行为数据采集)(五)
摘要:第5章 总结 5.1 数仓概念总结 1)数据仓库的输入数据源和输出系统分别是什么? 输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据。 输出系统:报表系统、用户画像系统、推荐系统 5.2 项目需求及架构总结 5.2.1 集群规模计算 5.2.2 框架版本选型 1)Apache:运维麻
阅读全文
项目实战从0到1之hive(36)大数据项目之电商数仓(用户行为数据采集)(四)
摘要:4.5 Kafka安装 4.5.1 Kafka集群安装 集群规划: 4.5.2 Kafka集群启动停止脚本 1)在/home/kgg/bin目录下创建脚本kf.sh [kgg@hadoop101 bin]1 in"s
阅读全文
项目实战从0到1之hive(35)大数据项目之电商数仓(用户行为数据采集)(三)
摘要:4.4 采集日志Flume 4.4.1 日志采集Flume安装 集群规划: 4.4.2 项目经验之Flume组件 1)Source (1)Taildir Source相比Exec Source、Spooling Directory Source的优势 TailDir Source:断点续传、多目录。
阅读全文
项目实战从0到1之hive(34)大数据项目之电商数仓(用户行为数据采集)(二)
摘要:第4章 数据采集模块 4.1 Hadoop安装 1)集群规划: 注意:尽量使用离线方式安装 4.1.1 项目经验之HDFS存储多目录 若HDFS存储空间紧张,需要对DataNode进行磁盘扩展。 1)在DataNode节点增加磁盘并进行挂载。 2)在hdfs-site.xml文件中配置多目录,注意新
阅读全文
项目实战从0到1之hive(33)大数据项目之电商数仓(用户行为数据采集)(一)
摘要:第1章 数据仓库概念 第2章 项目需求及架构设计 2.1 项目需求分析 2.2 项目框架 2.2.1 技术选型 2.2.2 系统数据流程设计 2.2.3 框架版本选型 2.2.4 服务器选型 2.2.5 集群资源规划设计 2)测试集群服务器规划 第3章 数据生成模块 3.1 埋点数据基本格式 公共字
阅读全文
项目实战从0到1之spark(32)大数据项目之电商数仓(总结)(二):系统业务数据仓库
摘要:2.4 关系建模与维度建模关系模型关系模型主要应用与OLTP系统中,为了保证数据的一致性以及避免冗余,所以大部分业务系统的表都是遵循第三范式的。维度模型维度模型主要应用于OLAP系统中,因为关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。所以把相关
阅读全文
项目实战从0到1之spark(31)大数据项目之电商数仓(总结)(一):系统业务数据仓库
摘要:第1章 电商业务与数据结构简介1.1 电商业务流程 1.2 电商常识(SKU、SPU) SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。 SPU(Standard Product Unit):是商品信息聚合的最小单位
阅读全文