随笔分类 - 数仓工具+数仓实践
数仓工具+数仓实践
摘要:最近使用云服务器的时候,总是需要安装环境,在此记录一些常用的命令 常用命令 查看系统版本:getconf LONG_BIT断开连接:vim /etc/ssh/sshd_configClientAliveInterval 60ClientAliveCountMax 600systemctl resta
阅读全文
摘要:经常会有这样的需求:在现有数仓表的基础上,写一些sql,然后生成hive表并同步到mysql。 次数多了,就像写一个工具完成这个工作 一:背景、功能、流程介绍 1.背景: 1.数仓使用hive存储,datax导数据、airflow调度 2.不知道怎么利用hive解析sql,拿到对应的schema,但
阅读全文
摘要:经常会接到产品的需求:同步***表到hive,做分析。(做多了感觉很烦,就写一个工具) 一:背景、功能、流程介绍 1.背景: 1.数仓使用hive存储,datax导数据、airflow调度 2.虽然数据产品同学对datax进行了封装,可以点点点完成mysql表的同步,但是过程太复杂了 还需要自己手动
阅读全文
摘要:本文章持续记录工作中遇到的SQL的问题,持续更新中…… SQL常见问题 一、full join导致数据量翻倍 原因:空值会导致数据重复 错误SQL: select coalesce(a.user_id,b.user_id,c.user_id,d.user_id,e.user_id,f.user_id
阅读全文
摘要:一:di表、ds表 di表多用于事实表,例如:从数据库抽取的交易记录表,购买详单表等 实现逻辑较为简单,一般直接ETL即可。 ds表一般就是简单汇聚,例如:用户每天使用的pkg的数量表,一般直接group by 就行。 二:dd表,全量表 dd表多用于记录每日的全量状态表例如:用户账号密码表、用户通
阅读全文