这位怪蜀黍 快来逗我玩吧!

关闭页面特效

随笔分类 -  离线数据仓库

hive+spark+flink离线数仓
项目实战从0到1之hive(41)大数据项目之电商数仓(用户行为数据)(九)
摘要:第11章 需求一:用户活跃主题 11.1 DWS层 目标:统计当日(dau)、当周、当月活动的每个设备明细 11.1.1 每日活跃设备明细 1)建表语句 drop table if exists dws_uv_detail_day;create external table dws_uv_detai 阅读全文
posted @ 2021-01-20 16:13 大码王 阅读(325) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(40)大数据项目之电商数仓(用户行为数据)(八)
摘要:第10章 业务知识准备 10.1 业务术语 用户 用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。 新增用户 首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义 阅读全文
posted @ 2021-01-20 15:47 大码王 阅读(309) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(39)大数据项目之电商数仓(用户行为数据)(七)
摘要:第9章 数仓搭建之DWD层 对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式)。 9.1 DWD层启动表数据解析 9.1.1 创建启动表 1)建表语句 drop table if exists dwd_start_log;CREATE EXTERNAL T 阅读全文
posted @ 2021-01-19 18:16 大码王 阅读(215) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(38)大数据项目之电商数仓(用户行为数据)(六)
摘要:第6章 数仓分层概念 6.1 为什么要分层 6.2 数仓分层 6.3 数据集市与数据仓库概念 6.4 数仓命名规范 ODS层命名为ods DWD层命名为dwd DWS层命名为dws ADS层命名为ads 临时表数据库命名为xxx_tmp 备份数据数据库命名为xxx_bak 第7章 数仓搭建环境准备 阅读全文
posted @ 2021-01-19 09:11 大码王 阅读(332) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(37)大数据项目之电商数仓(用户行为数据采集)(五)
摘要:第5章 总结 5.1 数仓概念总结 1)数据仓库的输入数据源和输出系统分别是什么? 输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据。 输出系统:报表系统、用户画像系统、推荐系统 5.2 项目需求及架构总结 5.2.1 集群规模计算 5.2.2 框架版本选型 1)Apache:运维麻 阅读全文
posted @ 2021-01-15 17:22 大码王 阅读(282) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(36)大数据项目之电商数仓(用户行为数据采集)(四)
摘要:4.5 Kafka安装 4.5.1 Kafka集群安装 集群规划: 4.5.2 Kafka集群启动停止脚本 1)在/home/kgg/bin目录下创建脚本kf.sh [kgg@hadoop101 bin]vim kf.sh 在脚本中填写如下内容 #! /bin/bash​case1 in"s 阅读全文
posted @ 2021-01-14 12:02 大码王 阅读(278) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(35)大数据项目之电商数仓(用户行为数据采集)(三)
摘要:4.4 采集日志Flume 4.4.1 日志采集Flume安装 集群规划: 4.4.2 项目经验之Flume组件 1)Source (1)Taildir Source相比Exec Source、Spooling Directory Source的优势 TailDir Source:断点续传、多目录。 阅读全文
posted @ 2021-01-13 16:29 大码王 阅读(346) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(34)大数据项目之电商数仓(用户行为数据采集)(二)
摘要:第4章 数据采集模块 4.1 Hadoop安装 1)集群规划: 注意:尽量使用离线方式安装 4.1.1 项目经验之HDFS存储多目录 若HDFS存储空间紧张,需要对DataNode进行磁盘扩展。 1)在DataNode节点增加磁盘并进行挂载。 2)在hdfs-site.xml文件中配置多目录,注意新 阅读全文
posted @ 2021-01-13 16:18 大码王 阅读(336) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(33)大数据项目之电商数仓(用户行为数据采集)(一)
摘要:第1章 数据仓库概念 第2章 项目需求及架构设计 2.1 项目需求分析 2.2 项目框架 2.2.1 技术选型 2.2.2 系统数据流程设计 2.2.3 框架版本选型 2.2.4 服务器选型 2.2.5 集群资源规划设计 2)测试集群服务器规划 第3章 数据生成模块 3.1 埋点数据基本格式 公共字 阅读全文
posted @ 2021-01-13 15:58 大码王 阅读(281) 评论(0) 推荐(0) 编辑
项目实战从0到1之spark(32)大数据项目之电商数仓(总结)(二):系统业务数据仓库
摘要:2.4 关系建模与维度建模关系模型关系模型主要应用与OLTP系统中,为了保证数据的一致性以及避免冗余,所以大部分业务系统的表都是遵循第三范式的。维度模型维度模型主要应用于OLAP系统中,因为关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。所以把相关 阅读全文
posted @ 2021-01-13 15:04 大码王 阅读(388) 评论(0) 推荐(0) 编辑
项目实战从0到1之spark(31)大数据项目之电商数仓(总结)(一):系统业务数据仓库
摘要:第1章 电商业务与数据结构简介1.1 电商业务流程 1.2 电商常识(SKU、SPU) SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。 SPU(Standard Product Unit):是商品信息聚合的最小单位 阅读全文
posted @ 2021-01-13 14:46 大码王 阅读(444) 评论(0) 推荐(0) 编辑
项目实战从0到1之离线和实时数仓体系(30)
摘要:一 什么是数据仓库 1.1 数据仓库概念 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 1.2 数据仓库特点 1.2.1面向主题 普通的操作型数据库主要面向事务 阅读全文
posted @ 2020-12-09 11:03 大码王 阅读(1544) 评论(2) 推荐(0) 编辑
项目实战从0到1之hive(29)企业级数据仓库构建(十):搭建 ADS 层
摘要:一、数仓搭建 - ADS 层1.1 设备主题1.1.1 活跃设备数(日、周、月)需求定义:日活:当日活跃的设备数周活:当周活跃的设备数月活:当月活跃的设备数1)建表语句 drop table if exists ads_uv_count; create external table ads_uv_c 阅读全文
posted @ 2020-09-27 14:37 大码王 阅读(462) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(28)数仓项目(九)数仓搭建-DWT 层
摘要:2.1 设备主题宽表 1)建表语句 drop table if exists dwt_uv_topic; create external table dwt_uv_topic ( `mid_id` string COMMENT '设备唯一标识', `user_id` string COMMENT ' 阅读全文
posted @ 2020-09-27 13:40 大码王 阅读(634) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(27)数仓项目(九)数仓搭建 - DWS 层
摘要:一、数仓搭建 - DWS 层1.1 业务术语1)用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据 IMEI 号,IOS 系统根据 OpenUDID 来标识一个独立用户,每部手机一个用户2)新增用户首次联网使用应用的用户。如果一个用户首次打开某 APP,那 阅读全文
posted @ 2020-09-27 13:35 大码王 阅读(852) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(26)企业级数据仓库构建(八):搭建DWD 层-业务数据
摘要:1.1 DWD 层(业务数据)1.1.1 商品维度表(全量表)1)建表语句 DROP TABLE IF EXISTS `dwd_dim_sku_info`; CREATE EXTERNAL TABLE `dwd_dim_sku_info` ( `id` string COMMENT '商品 id', 阅读全文
posted @ 2020-09-23 14:13 大码王 阅读(800) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(25)企业级数据仓库构建(七):搭建DWD 层
摘要:一、数仓搭建 - DWD 层 1)对用户行为数据解析 2)对核心数据进行判空过滤 3)对业务数据采用维度模型重新建模,即维度退化 1.1 DWD 层(用户行为启动表数据解析) 1.1.1 创建启动表 1)建表语句 drop table if exists dwd_start_log; CREATE 阅读全文
posted @ 2020-09-23 14:07 大码王 阅读(831) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(24)企业级数据仓库构建(六):数仓理论及数仓搭建
摘要:一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命名为dwt_购物车 ADS层命名为ads_表名 临时表命名为xxx_tmp 用户行为表 阅读全文
posted @ 2020-09-22 17:37 大码王 阅读(1154) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(23)企业级数据仓库构建(五):数据仓库项目实战
摘要:一、电商业务简介1.1 电商业务流程1.2 电商常识(SKU、SPU)SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的 SKU 号SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易 阅读全文
posted @ 2020-09-22 16:22 大码王 阅读(1082) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(22)企业级数据仓库构建(四):数据仓库项目实战
摘要:总结1)数仓概念总结【1】数据仓库的输入数据源和输出系统分别是什么?输入系统:埋点产生的用户行为数据、JavaEE 后台产生的业务数据输出系统:报表系统、用户画像系统、推荐系统2)项目需求及架构总结【1】集群规模计算【2】框架版本选型1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使 阅读全文
posted @ 2020-09-22 15:33 大码王 阅读(660) 评论(0) 推荐(0) 编辑

成都

复制代码

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示