【面试真题】2022年2月21日-瓜子二手车-数据仓库开发

一、部门介绍
1、工作内容
部门规模，20多人，纯数据部门，不涉及后端
部门，两条业务线
离线和实时
主要是，集团内部策略优化，产品优化，对于领导的一些数据的展现
其次，业务系统上的一些排行榜，推荐数据
2、上班时间
10:00-20:00/20:30，中午休息两小时
每周上五天
二、面试题复盘
1、分层是否了解

ODS/DWD/DWS/ADS

2、每一层的作用

3、数仓是否遇到什么问题，如何进行解决
数据倾斜，union字段不一致

4、binlog导入导出时如何保证消息不重复不丢失

5、DWD用什么做的数据清洗ETL☆

（1）ETL选型

hive的hql

spark 的spark SQL

Python

kettle（数据清洗框架）

（2）ETL作用

清洗掉无用数据和重复数据

去重、去空

（3）清理掉多少

万分之一
6、怎么根据数据判断估计系统规模，内容及分层

业务类型/数据类型
三、操作题
1、判断朋友的个数
id 用户1 用户2
1 01 03

朋友圈关系表 friend_relation_table，一条数据记录下用户B是用户A的朋友，字段如下

id 用户A 用户B
1 001 002
2 001 003
3 002 003
4 003 005
5 003 002
6 003 001

第3条和第5条两条记录，说明002和003互相是朋友，
请问有几对朋友
select count(*) from (
select a.用户1, a.用户2 from friend_relation_table a
join
select b.用户1, b.用户2 from friend_relation_table b
on
a.用户1 != b.用户2 and a.用户2 != b.用户1
)

解答：https://zhuanlan.zhihu.com/p/25648654

合并，构成唯一索引

或者

join操作：连接两张表

union：堆积，并集
2、解答
两种思路，join on和union的区别，字段拼接构建新字段
四、自己不足
都知道但细节不太好
SQL需要提升
五、下次问
部门名称

posted @ 2022-02-21 20:50 哥们要飞阅读(139) 评论(3) 编辑收藏举报

刷新页面返回顶部

哥们要飞的blog

Nice to meet you!

【面试真题】2022年2月21日-瓜子二手车-数据仓库开发

公告