随笔分类 -  数仓工具+数仓实践

数仓工具+数仓实践
摘要:最近使用云服务器的时候,总是需要安装环境,在此记录一些常用的命令 常用命令 查看系统版本:getconf LONG_BIT断开连接:vim /etc/ssh/sshd_configClientAliveInterval 60ClientAliveCountMax 600systemctl resta 阅读全文
posted @ 2022-08-03 22:15 Kotlin 阅读(111) 评论(0) 推荐(0) 编辑
摘要:经常会有这样的需求:在现有数仓表的基础上,写一些sql,然后生成hive表并同步到mysql。 次数多了,就像写一个工具完成这个工作 一:背景、功能、流程介绍 1.背景: 1.数仓使用hive存储,datax导数据、airflow调度 2.不知道怎么利用hive解析sql,拿到对应的schema,但 阅读全文
posted @ 2022-07-10 00:11 Kotlin 阅读(469) 评论(0) 推荐(0) 编辑
摘要:经常会接到产品的需求:同步***表到hive,做分析。(做多了感觉很烦,就写一个工具) 一:背景、功能、流程介绍 1.背景: 1.数仓使用hive存储,datax导数据、airflow调度 2.虽然数据产品同学对datax进行了封装,可以点点点完成mysql表的同步,但是过程太复杂了 还需要自己手动 阅读全文
posted @ 2022-07-09 23:04 Kotlin 阅读(691) 评论(0) 推荐(0) 编辑
摘要:本文章持续记录工作中遇到的SQL的问题,持续更新中…… SQL常见问题 一、full join导致数据量翻倍 原因:空值会导致数据重复 错误SQL: select coalesce(a.user_id,b.user_id,c.user_id,d.user_id,e.user_id,f.user_id 阅读全文
posted @ 2022-06-30 11:27 Kotlin 阅读(151) 评论(0) 推荐(0) 编辑
摘要:一:di表、ds表 di表多用于事实表,例如:从数据库抽取的交易记录表,购买详单表等 实现逻辑较为简单,一般直接ETL即可。 ds表一般就是简单汇聚,例如:用户每天使用的pkg的数量表,一般直接group by 就行。 二:dd表,全量表 dd表多用于记录每日的全量状态表例如:用户账号密码表、用户通 阅读全文
posted @ 2022-05-05 13:15 Kotlin 阅读(694) 评论(0) 推荐(0) 编辑

Live2D
点击右上角即可分享
微信分享提示