随笔分类 -  bdv014-PB离线数仓

上一页 1 2 3 4 下一页

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|广告分析|漏斗分析|
摘要:一、漏斗分析(点击率购买率) ### 需求分析 ~~~ # 分时统计: ~~~ 点击率 = 点击次数 / 曝光次数 ~~~ 购买率 = 购买次数 / 点击次数 二、创建ADS层表 ### 创建ADS层表 ~~~ # 语法:创建ADS层表 drop table if exists ads.ads_ad 阅读全文

posted @ 2022-04-10 14:44 yanqi_vip 阅读(17) 评论(0) 推荐(0) 编辑

|NO.Z.00039|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|广告分析|脚本调用顺序|
摘要:一、广告效果分析 ### 需求分析 ~~~ 活动曝光效果评估: ~~~ 行为(曝光、点击、购买)、时间段、广告位、商品,统计对应的次数 ~~~ 时间段、广告位、商品,曝光次数最多的前100个 ### 实验说明 ~~~ 小结:分析简单,没有DWS层 ~~~ Flume、json解析在会员分析讲解 二、 阅读全文

posted @ 2022-04-10 14:44 yanqi_vip 阅读(18) 评论(0) 推荐(0) 编辑

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|广告分析|点击次数计算|
摘要:一、广告点击次数分析 ### 需求分析 ~~~ # 广告:ad ~~~ action: 用户行为;0 曝光;1 曝光后点击;2 购买 ~~~ duration: 停留时长 ~~~ shop_id: 商家id ~~~ event_type: "ad" ~~~ ad_type: 格式类型;1 JPG;2 阅读全文

posted @ 2022-04-10 14:43 yanqi_vip 阅读(9) 评论(0) 推荐(0) 编辑

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|广告分析|DWD层数据处理|
摘要:一、DWD层建表和数据加载 ### DWD层建表和数据加载 ~~~ ODS:分区;事件的主要信息在json串中(json数组),公共信息在另外一个json串中; ~~~ ODS => 解析json,从json串中,提取jsonArray数据;将公共信息从json串中解析出来 => ### 所有事件的 阅读全文

posted @ 2022-04-10 14:43 yanqi_vip 阅读(24) 评论(0) 推荐(0) 编辑

|NO.Z.00034|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|广告分析|需求分析&事件日志数据样例|
摘要:一、电商分析之——广告业务 ### 电商分析之——广告业务 ~~~ 互联网平台通行的商业模式是利用免费的基础服务吸引凝聚大量用户, ~~~ 并利用这些用户资源开展广告或其他增值业务实现盈利从而反哺支撑免费服务的生存和发展。 ~~~ 广告收入不仅成为互联网平台的重要收入之一,更决定了互联网平台的发展程 阅读全文

posted @ 2022-04-10 14:42 yanqi_vip 阅读(27) 评论(0) 推荐(0) 编辑

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|广告分析|事件日志采集&ODS层数据处理|
摘要:一、广告分析——事件日志采集 ### 启动Flume Agent(适当的修改参数,128M滚动一次) ~~~ # 启动flume [root@hadoop02 ~]# flume-ng agent --conf /opt/yanqi/servers/flume-1.9.0/conf \ --conf 阅读全文

posted @ 2022-04-10 14:42 yanqi_vip 阅读(12) 评论(0) 推荐(0) 编辑

|NO.Z.00033|——————————|BigDataEnd|——————————————————————————————————————
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:41 yanqi_vip 阅读(5) 评论(0) 推荐(0) 编辑

|NO.Z.00031|——————————|BigDataEnd|——|Hadoop&PB级数仓.V15|——|PB数仓.v15|会员活跃度分析|Hive on Tez&活跃&新增&留存|
摘要:一、计算2020-07-22这一天的会员活跃度 ### 计算2020-07-22这一天的会员活跃度 ~~~ Hive on Tez测试数据说明:07-22(新增5000条) / 0723(新增4000条):18999条左右,执行脚本 ### Hive on Tez语法 SCRIPT_HOME=/da 阅读全文

posted @ 2022-04-10 14:40 yanqi_vip 阅读(16) 评论(0) 推荐(0) 编辑

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&PB级数仓.V16|——|PB数仓.v16|会员活跃度分析|Hive on Tez&会员留存率计算|
摘要:一、会员留存率的计算:会员留存率计算概述 ### 修改后的代码(计算留存率): select t1.*, t2.* from ads.ads_member_retention_count t1 join ads.ads_new_member_cnt t2 on t1.add_date=t2.dt w 阅读全文

posted @ 2022-04-10 14:40 yanqi_vip 阅读(22) 评论(0) 推荐(0) 编辑

|NO.Z.00030|——————————|^^ 部署 ^^|——|Hadoop&PB级数仓.V14|——|PB数仓.v14|会员活跃度分析|Hive on Tez安装|
摘要:一、Hive on Tez概述 ### Hive on Tez ~~~ Hortonworks在2014年左右发布了Stinger Initiative, ~~~ 并进行社区分享,为的是让Hive支持更多SQL,并实现更好的性能。 ~~~ 让Hive的查询功能更强大。增加类似OVER子句的分析功能, 阅读全文

posted @ 2022-04-10 14:39 yanqi_vip 阅读(55) 评论(0) 推荐(0) 编辑

|NO.Z.00029|——————————|^^ 重要 ^^|——|Hadoop&PB级数仓.V13|——|PB数仓.v13|会员活跃度分析|Hive on MR&活跃&新增&留存会员|数据加载|内存分配调整map&reduce数量|
摘要:一、高仿日启动数据测试: ### 高防日启动数据测试 ~~~ 数据采集 => ODS => DWD => DWS => ADS> MySQL ~~~ 活跃会员、新增会员、会员留存 ~~~ DAU: Daily Active User(日活跃用户) ~~~ MAU: monthly active us 阅读全文

posted @ 2022-04-10 14:38 yanqi_vip 阅读(33) 评论(0) 推荐(0) 编辑

|NO.Z.00028|——————————|^^ 导出 ^^|——|Hadoop&PB级数仓.V12|——|PB数仓.v12|会员活跃度分析|Datax数据导出&hdfsreader => mysqlwriter|
摘要:一、Datax 数据导出 ### DataX数据导出 ~~~ 官方配置地址:https://github.com/alibaba/DataX/blob/master/introduction.md) 二、DataX从Hive下导入表到mysql下 ### 在mysql下建表,准备导出数据的数据库 ~ 阅读全文

posted @ 2022-04-10 14:37 yanqi_vip 阅读(28) 评论(0) 推荐(0) 编辑

|NO.Z.00027|——————————|^^ 部署 ^^|——|Hadoop&PB级数仓.V11|——|PB数仓.v11|会员活跃度分析|Datax概念安装|入门案例|
摘要:一、DataX概述及安装 ### DataX概述 ~~~ DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台, ~~~ 实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、 ~~~ MaxComp 阅读全文

posted @ 2022-04-10 14:36 yanqi_vip 阅读(33) 评论(0) 推荐(0) 编辑

|NO.Z.00026|——————————|BigDataEnd|——|Hadoop&PB级数仓.V10|——|PB数仓.v10|会员活跃度分析|留存会员&DWS层计算&加载&ADS层计算&加载&近三天留存会员计算|
摘要:一、留存会员 ### 留存会员 ~~~ 留存会员与留存率:某段时间的新增会员,经过一段时间后,仍继续使用应用认为是 ~~~ 留存会员;这部分会员占当时新增会员的比例为留存率。 ~~~ 需求:1日、2日、3日的会员留存数和会员留存率 ~~~ 10W新会员:dws_member_add_day(dt=0 阅读全文

posted @ 2022-04-10 14:36 yanqi_vip 阅读(47) 评论(0) 推荐(0) 编辑

|NO.Z.00025|——————————|BigDataEnd|——|Hadoop&PB级数仓.V09|——|PB数仓.v09|会员活跃度分析|新增会员&DWS层计算&ADS层计算|
摘要:一、新增会员DWS层计算 ### 创建DWS层表 ~~~ # 语法 use dws; drop table if exists dws.dws_member_add_day; create table dws.dws_member_add_day ( `device_id` string, `uid 阅读全文

posted @ 2022-04-10 14:34 yanqi_vip 阅读(26) 评论(0) 推荐(0) 编辑

|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&PB级数仓.V07|——|PB数仓.v07|会员活跃度分析|活跃会员&ADS建表&ADS加载数据|ODS_DWS_DWS_ADS脚本执行顺序|
摘要:一、创建ADS层表 ### 计算当天、当周、当月活跃会员数量 ~~~ # 语法 use ads; drop table if exists ads.ads_member_active_count; create table ads.ads_member_active_count( `day_coun 阅读全文

posted @ 2022-04-10 14:33 yanqi_vip 阅读(22) 评论(0) 推荐(0) 编辑

|NO.Z.00024|——————————|BigDataEnd|——|Hadoop&PB级数仓.V08|——|PB数仓.v08|会员活跃度分析|新增会员&新增会员计算思路|
摘要:一、新增会员 ### 新增会员 ~~~ 留存会员:某段时间的新增会员,经过一段时间后,仍继续使用应用认为是留存会员; ~~~ 新增会员:第一次使用应用的用户,定义为新增会员;卸载再次安装的设备,不会被算作一次新增。 ~~~ 新增会员先计算 => 计算会员留存 ### 案例分析: ~~~ # 需求:每 阅读全文

posted @ 2022-04-10 14:33 yanqi_vip 阅读(37) 评论(0) 推荐(0) 编辑

|NO.Z.00021|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|会员活跃度分析|DWD建表&加载数据|
摘要:一、DWD层建表和数据加载 ### DWD层建表和数据加载 ~~~ 主要任务:ODS(包含json串) => DWD ~~~ json数据解析,丢弃无用数据(数据清洗),保留有效信息,并将数据展开,形成每日启动明细表。 2021-09-28 18:19:32.966 [main] INFO com. 阅读全文

posted @ 2022-04-10 14:32 yanqi_vip 阅读(39) 评论(0) 推荐(0) 编辑

|NO.Z.00022|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|会员活跃度分析|活跃会员&DWS建表&DWS加载数据|
摘要:一、活跃会员 ### 活跃会员 ~~~ 活跃会员:打开应用的会员即为活跃会员; ~~~ 新增会员:第一次使用应用的用户,定义为新增会员; ~~~ 留存会员:某段时间的新增会员,经过一段时间后,仍继续使用应用认为是留存会员; ~~~ 活跃会员指标需求:每日、每周、每月的活跃会员数 ~~~ DWD:会员 阅读全文

posted @ 2022-04-10 14:32 yanqi_vip 阅读(46) 评论(0) 推荐(0) 编辑

|NO.Z.00020|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|会员活跃度分析|json数据处理&SerDe处理json数据|
摘要:一、使用SerDe处理 ### 使用SerDe处理 ~~~ 序列化是对象转换为字节序列的过程;反序列化是字节序列恢复为对象的过程; ~~~ # 对象的序列化主要有两种用途: ~~~ 对象的持久化,即把对象转换成字节序列后保存到文件中 ~~~ 对象数据的网络传送 ~~~ SerDe 是Serializ 阅读全文

posted @ 2022-04-10 14:31 yanqi_vip 阅读(19) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示