【面试真题】2022年2月21日-瓜子二手车-数据仓库开发
一、部门介绍
1、工作内容
部门规模,20多人,纯数据部门,不涉及后端
部门,两条业务线
离线和实时
主要是,集团内部策略优化,产品优化,对于领导的一些数据的展现
其次,业务系统上的一些排行榜,推荐数据
2、上班时间
10:00-20:00/20:30,中午休息两小时
每周上五天
二、面试题复盘
1、分层是否了解
ODS/DWD/DWS/ADS
2、每一层的作用
3、数仓是否遇到什么问题,如何进行解决
数据倾斜,union字段不一致
4、binlog导入导出时如何保证消息不重复不丢失
5、DWD用什么做的数据清洗ETL☆
(1)ETL选型
hive的hql
spark 的spark SQL
MR
Python
kettle(数据清洗框架)
(2)ETL作用
清洗掉无用数据和重复数据
去重、去空
(3)清理掉多少
万分之一
6、怎么根据数据判断估计系统规模,内容及分层
业务类型/数据类型
三、操作题
1、判断朋友的个数
id 用户1 用户2
1 01 03
朋友圈关系表 friend_relation_table,一条数据记录下用户B是用户A的朋友,字段如下
id 用户A 用户B
1 001 002
2 001 003
3 002 003
4 003 005
5 003 002
6 003 001
第3条和第5条两条记录,说明002和003互相是朋友,
请问有几对朋友
select count(*) from (
select a.用户1, a.用户2 from friend_relation_table a
join
select b.用户1, b.用户2 from friend_relation_table b
on
a.用户1 != b.用户2 and a.用户2 != b.用户1
)
解答:https://zhuanlan.zhihu.com/p/25648654
合并,构成唯一索引
或者
join操作:连接两张表
union:堆积,并集
2、解答
两种思路,join on和union的区别,字段拼接构建新字段
四、自己不足
都知道但细节不太好
SQL需要提升
五、下次问
部门名称
本文来自博客园,作者:哥们要飞,转载请注明原文链接:https://www.cnblogs.com/liujinhui/p/15920604.html