这位怪蜀黍 你是夜猫子呀?还不睡觉,明天起的来么你?

关闭页面特效

随笔分类 -  离线数据仓库

hive+spark+flink离线数仓
java开发规范
摘要:(一)java命名规范 1、变量、成员、方法名统一采用驼峰命名(lowerCamelCase),做到见语知其义 例子:变量——用户数据(userList)、方法——getUserData(int type)等。 说明:正常变量定义使用驼峰命名,特殊的如DTO\VO\DO等除外。 2、类名的定义 (1 阅读全文
posted @ 2023-03-29 09:57 大码王 阅读(285) 评论(0) 推荐(0) 编辑
数据开发【配置文件】和【传参】规范
摘要:概述 配置文件 概念:一种计算机文件,可给 计算机程序 配置 参数和初始设置 场景:软件开发时,生产环境数据库账号密码 应写到配置文件,不应明文写到代码中 常见的配置文件后缀示例 .properties Kafka的server.properties用于Java的日志配置文件log4j.proper 阅读全文
posted @ 2023-03-29 09:24 大码王 阅读(105) 评论(0) 推荐(0) 编辑
数据开发的代码规范以及代码评审脚本
摘要:1、概述 场景 在数据开发中,由于各程序员风格不一、部分程序员代码太烂、代码注释过少等原因,导致代码维护时困难重重 同事A请假去生娃,此时Ta的代码出了问题需要同事B去修改,但由于代码太烂,同事B改不动 代码评审:通过 阅读代码 来 检查代码质量 目的:降低代码维护成本 使用代码评审自动化脚本(Py 阅读全文
posted @ 2023-03-29 09:15 大码王 阅读(133) 评论(0) 推荐(0) 编辑
美团外卖离线数仓建设实践
摘要:导读:美团外卖数据仓库主要是收集各种用户终端业务、行为数据,通过统一口径加工处理,通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门,支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程,在发展过程中碰到的痛点问题,以及针对 阅读全文
posted @ 2023-03-24 13:48 大码王 阅读(801) 评论(0) 推荐(3) 编辑
离线数仓脚本封装dwd_stat_sdk_log_inc_h_common.sh
该文被密码保护。
posted @ 2021-06-15 10:46 大码王 阅读(0) 评论(0) 推荐(0) 编辑
离线数仓脚本封装push_service_alarm.py
该文被密码保护。
posted @ 2021-06-15 10:44 大码王 阅读(0) 评论(0) 推荐(0) 编辑
离线数仓脚本封装mail_long_content.py
该文被密码保护。
posted @ 2021-06-15 10:43 大码王 阅读(0) 评论(0) 推荐(0) 编辑
离线数仓脚本封装mail.py
该文被密码保护。
posted @ 2021-06-15 10:41 大码王 阅读(0) 评论(0) 推荐(0) 编辑
离线数仓脚本封装location.ini
该文被密码保护。
posted @ 2021-06-15 10:23 大码王 阅读(0) 评论(0) 推荐(0) 编辑
离线数仓脚本封装export.ini
该文被密码保护。
posted @ 2021-06-15 10:22 大码王 阅读(0) 评论(0) 推荐(0) 编辑
离线数仓脚本封装dc_export.ini
该文被密码保护。
posted @ 2021-06-15 10:18 大码王 阅读(0) 评论(0) 推荐(0) 编辑
离线数仓脚本封装DayGen.ini
该文被密码保护。
posted @ 2021-06-15 10:17 大码王 阅读(0) 评论(0) 推荐(0) 编辑
离线数仓脚本封装common.sh
该文被密码保护。
posted @ 2021-06-15 10:13 大码王 阅读(0) 评论(0) 推荐(0) 编辑
hive批量数据导入kafka(hive版udf函数实现)
该文被密码保护。
posted @ 2021-05-20 18:04 大码王 阅读(0) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(47)大数据项目之电商数仓(用户行为数据)(十五)
摘要:第26章 总结 26.1 用户行为数仓业务总结 26.1.1 数仓分几层?每层做什么的? 1)ODS层(原始数据层) 存储原始数据,直接加载原始日志、数据,数据保持原貌不做处理。 2)DWD层(明细层) 对ODS层数据进行清洗(去除空值、脏数据,超过极限范围的数据) 3)DWS层(服务数据层) 以D 阅读全文
posted @ 2021-01-21 16:46 大码王 阅读(368) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(46)大数据项目之电商数仓(用户行为数据)(十四)
摘要:第23章 需求十二:统计每日各类别下点击次数top10的商品 23.1 DWS层 使用点击日志表作为DWS层数据源 23.2 ADS层 23.2.1 建表语句 drop table if exists ads_goods_display_top10;create external table ads 阅读全文
posted @ 2021-01-21 16:40 大码王 阅读(188) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(45)大数据项目之电商数仓(用户行为数据)(十三)
摘要:第20章 需求九:每个用户累计访问次数 结果如下 用户 日期 小计 总计mid1 2019-12-14 10 10mid1 2019-02-11 12 22mid2 2019-12-14 15 15mid2 2019-02-11 12 27 20.1 DWS层 20.1.1 建表语句 drop ta 阅读全文
posted @ 2021-01-21 16:26 大码王 阅读(228) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(44)大数据项目之电商数仓(用户行为数据)(十二)
摘要:第17章 需求六:流失用户数 流失用户:最近7天未登录我们称之为流失用户 17.1 DWS层 使用日活明细表dws_uv_detail_day作为DWS层数据 17.2 ADS层 1)建表语句 drop table if exists ads_wastage_count;create externa 阅读全文
posted @ 2021-01-21 09:32 大码王 阅读(285) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(43)大数据项目之电商数仓(用户行为数据)(十一)
摘要:第14章 新数据准备 为了分析沉默用户、本周回流用户数、流失用户、最近连续3周活跃用户、最近七天内连续三天活跃用户数,需要准备2019-02-12、2019-02-20日的数据。 1)2019-02-12数据准备 (1)修改日志时间 dt.sh 2019-02-12 (2)启动集群 cluster. 阅读全文
posted @ 2021-01-20 18:18 大码王 阅读(386) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(42)大数据项目之电商数仓(用户行为数据)(十)
摘要:第12章 需求二:用户新增主题 首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。 12.1 DWS层(每日新增设备明细表) 1)建表语句 drop table if exists d 阅读全文
posted @ 2021-01-20 16:41 大码王 阅读(381) 评论(0) 推荐(0) 编辑

成都

13°

复制代码

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示