【面试真题】2022年2月21日-瓜子二手车-数据仓库开发

一、部门介绍
1、工作内容
部门规模,20多人,纯数据部门,不涉及后端
部门,两条业务线
离线和实时
主要是,集团内部策略优化,产品优化,对于领导的一些数据的展现
其次,业务系统上的一些排行榜,推荐数据
2、上班时间
10:00-20:00/20:30,中午休息两小时
每周上五天
二、面试题复盘
1、分层是否了解

ODS/DWD/DWS/ADS

2、每一层的作用


3、数仓是否遇到什么问题,如何进行解决
数据倾斜,union字段不一致


4、binlog导入导出时如何保证消息不重复不丢失


5、DWD用什么做的数据清洗ETL☆

(1)ETL选型

hive的hql

spark 的spark SQL

MR

Python

kettle(数据清洗框架)

(2)ETL作用

清洗掉无用数据和重复数据

去重、去空

(3)清理掉多少

万分之一
6、怎么根据数据判断估计系统规模,内容及分层

业务类型/数据类型
三、操作题
1、判断朋友的个数
id 用户1 用户2
1 01 03

朋友圈关系表 friend_relation_table,一条数据记录下用户B是用户A的朋友,字段如下

id 用户A 用户B
1 001 002
2 001 003
3 002 003
4 003 005
5 003 002
6 003 001

第3条和第5条两条记录,说明002和003互相是朋友,
请问有几对朋友
select count(*) from (
select a.用户1, a.用户2 from friend_relation_table a
join
select b.用户1, b.用户2 from friend_relation_table b
on
a.用户1 != b.用户2 and a.用户2 != b.用户1
)

解答:https://zhuanlan.zhihu.com/p/25648654

合并,构成唯一索引

或者

join操作:连接两张表

union:堆积,并集
2、解答
两种思路,join on和union的区别,字段拼接构建新字段
四、自己不足
都知道但细节不太好
SQL需要提升
五、下次问
部门名称

posted @ 2022-02-21 20:50  哥们要飞  阅读(139)  评论(3编辑  收藏  举报