……

上一页 1 2 3 4 5 6 7 8 9 ··· 36 下一页
2021年5月20日
摘要: 1. 数据采集传输 这个一般对应于公司的日志平台,任务是将数据采集后缓存在某个地方,供后续的计算流程进行消费使用。针对不同的数据来源有各自的采集方式,从 APP/服务器 日志,到业务表,还有各种 API 接口及数据文件等等。其中因为日志数据有数据量多,数据结构多样,产生环境复杂等特点,属于「重点关照 阅读全文
posted @ 2021-05-20 10:07 大码王 阅读(861) 评论(0) 推荐(0) 编辑
摘要: 一、大数据演进,从数据仓库到数据中台 第一阶段 21 世纪的第一个 10 年,企业级数据仓库(EDW)从萌芽到蓬勃发展,“IOT”( IBM、Oracle、Teradata) 占领了大部分市场,提供数据仓库建设从硬件、软件到实施的整体方案。 这个时代的数据仓库实施不仅需要购买大(中、小)型机,配套商 阅读全文
posted @ 2021-05-20 10:05 大码王 阅读(844) 评论(0) 推荐(0) 编辑
2021年5月18日
该文被密码保护。 阅读全文
posted @ 2021-05-18 15:25 大码王 阅读(4) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-05-18 15:07 大码王 阅读(3) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-05-18 14:49 大码王 阅读(9) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-05-18 14:48 大码王 阅读(4) 评论(0) 推荐(0) 编辑
2021年5月17日
该文被密码保护。 阅读全文
posted @ 2021-05-17 09:11 大码王 阅读(17) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-05-17 08:05 大码王 阅读(90) 评论(0) 推荐(0) 编辑
2021年5月16日
该文被密码保护。 阅读全文
posted @ 2021-05-16 12:11 大码王 阅读(97) 评论(0) 推荐(0) 编辑
2021年5月14日
该文被密码保护。 阅读全文
posted @ 2021-05-14 17:58 大码王 阅读(34) 评论(0) 推荐(0) 编辑
2021年5月13日
该文被密码保护。 阅读全文
posted @ 2021-05-13 17:56 大码王 阅读(209) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-05-13 17:47 大码王 阅读(25) 评论(0) 推荐(0) 编辑
2021年2月1日
摘要: 1.自定义UDF 1、依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-in 阅读全文
posted @ 2021-02-01 18:26 大码王 阅读(482) 评论(0) 推荐(0) 编辑
2021年1月21日
摘要: 第26章 总结 26.1 用户行为数仓业务总结 26.1.1 数仓分几层?每层做什么的? 1)ODS层(原始数据层) 存储原始数据,直接加载原始日志、数据,数据保持原貌不做处理。 2)DWD层(明细层) 对ODS层数据进行清洗(去除空值、脏数据,超过极限范围的数据) 3)DWS层(服务数据层) 以D 阅读全文
posted @ 2021-01-21 16:46 大码王 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 第23章 需求十二:统计每日各类别下点击次数top10的商品 23.1 DWS层 使用点击日志表作为DWS层数据源 23.2 ADS层 23.2.1 建表语句 drop table if exists ads_goods_display_top10;create external table ads 阅读全文
posted @ 2021-01-21 16:40 大码王 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 第20章 需求九:每个用户累计访问次数 结果如下 用户 日期 小计 总计mid1 2019-12-14 10 10mid1 2019-02-11 12 22mid2 2019-12-14 15 15mid2 2019-02-11 12 27 20.1 DWS层 20.1.1 建表语句 drop ta 阅读全文
posted @ 2021-01-21 16:26 大码王 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 第17章 需求六:流失用户数 流失用户:最近7天未登录我们称之为流失用户 17.1 DWS层 使用日活明细表dws_uv_detail_day作为DWS层数据 17.2 ADS层 1)建表语句 drop table if exists ads_wastage_count;create externa 阅读全文
posted @ 2021-01-21 09:32 大码王 阅读(276) 评论(0) 推荐(0) 编辑
2021年1月20日
摘要: 第14章 新数据准备 为了分析沉默用户、本周回流用户数、流失用户、最近连续3周活跃用户、最近七天内连续三天活跃用户数,需要准备2019-02-12、2019-02-20日的数据。 1)2019-02-12数据准备 (1)修改日志时间 dt.sh 2019-02-12 (2)启动集群 cluster. 阅读全文
posted @ 2021-01-20 18:18 大码王 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 第12章 需求二:用户新增主题 首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。 12.1 DWS层(每日新增设备明细表) 1)建表语句 drop table if exists d 阅读全文
posted @ 2021-01-20 16:41 大码王 阅读(378) 评论(0) 推荐(0) 编辑
摘要: 第11章 需求一:用户活跃主题 11.1 DWS层 目标:统计当日(dau)、当周、当月活动的每个设备明细 11.1.1 每日活跃设备明细 1)建表语句 drop table if exists dws_uv_detail_day;create external table dws_uv_detai 阅读全文
posted @ 2021-01-20 16:13 大码王 阅读(324) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 36 下一页
复制代码