某团一面凉经
1.开场来个自我介绍吧.
我是...
2.你项目中数仓分层依据是什么?
一般的分词有ods、dwd、dws,这里我加入dwm,是因为项目中关于地点、时间、信源维度的操作需要其他数据,无法从dwd拿到。
3.数据倾斜你是怎么处理的?
针对数据倾斜的原因是因为MR的倾斜,造成MR的原因有很多,比如大表join小表,where空字段,本身数据特征.
4.Flink中的ProcessTime与EventTime
解释了一下英语名词,其实我不会...,反正就没说啥了
5.我看你介绍里面有国网的竞赛经历,可以说一下是干什么的吗?
运用深度学习的方式将自然语言转换成为SQL,英语名词text2SQL...
6.你SQL比较溜还是代码比较溜?
我心里五味杂陈,我想以一会儿,憋出俩字,都...行吧.
7.出个题目吧,topK问题
我当时想的是衔接前面的问题,我到底是用SQL还是用代码呢?其实此时我感觉已经进入了他的圈套.因为我面试的是大数据岗,他很可能在考察设计能力.
我当时就没考虑那么多:topK问题的话,如果我用代码写的话,我会用小根堆实现,如果用代码的话可以这么实现.我直接写一下吧...(使用了row_number窗口函数)
其实这里,我已经被自己蠢哭了,首先,如果考察设计能力,我应该先问面试官,这里有什么资源限制,有多少机器,数据量规模有多大,离线数据还是实时数据,name这个时候代码已经不那么重要了.另外,如果真的考察代码/SQL,我肯定也要问如果重复数据怎么算,这就涉及到三种方式解决了.因为我啥也不问,因此默认啥也不知道,合情合理.
8.写一个SQL吧,name,project,score三个字段,按照语数外,要用case/if来完成,讲道理,到现在我都没搞懂题目到底什么意思,应该不难才对.可是我写了很久,写了个大体眸子,最终还是放弃了.
9.写个算法题吧,twoSum,我当时笑了一下,这可能是在给我找台阶下吧,在ACM模式下,迅速写出答案.写完之后,他还问,你讲一下你的思路,然后我就介绍了一下,两种方案,首先双重遍历,复杂度为O(n^2),优化一下,将值放到hash中,因为对于HashMap来说,增删改查复杂度都是O(1),虽然常数不小,但是已经非常优秀了.然后在放元素进入map之前,先查询结果,如果存在就直接返回,否则,put元素
10.HashMap了解吗?
我:了解,1.8之前,数组和链表,1.8之后是数组链表/红黑树,红黑树的结构比较复杂,目的就是为了方便hash冲突的时候索引,如果实现的话,就会使用SizeBalancedTree,1.8之后大改,之前的Segment改成了Node,然后就是超过默认8就变成红黑树,低于6就退化成为链表,这里采用的是尾插法...
面完之后想了一下:其实人家这么宽泛的问,就是想让我把知道的都说出来,而不是默认为底层代码结构;比如线程安全吗?和hashTable的区别,多线程下怎么处理,用ConcurrentHashMap或者Collections的synchronizedMap包装...
11.讲讲链表和数组的区别?
数组是定长的,内存地址也是连续的,查询可以做到随机索引,因为内存的大小在定义的时候也是确定的,但是删除和插入的时候比较麻烦,复杂度为O(n);链表,内存地址可以连续,查询O(n),删除和插入比较方便,找到字段删除插入就可以了,不用移动元素.这里的数组不是ArrayList,ArrayList做了优化,有自己的加载因子,扩容机制.
回头一想:其实谈到链表在Java中能说的太多了,LinkedList实现了List/Deque,它既可以是栈,也可以事双端队列...
12.我看你论文中有BERT,你对Transform了解咋样?
我一看,这都53分钟了,而且这个NLP和我的岗位需求不怎么匹配吧.我就是我就在应用层搞搞,底层都是数学推导,比较复杂,我不怎么会.
13.确定实习超过5个月可以接收吗?一周4天以上,要来北京?
嗯嗯,可以保证.
14.反问,转正几率大吗?
优先转正本部实习的,但是不能保证.然后介绍一下我们团队,我们团队主要用FlinkSQL,编程代码相对少一点,然后主要有NLP...
听到这里我肠子都悔青了,原来他就想找个大数据,NLP的实习生,而且我简历非常匹配!!!可是我不了解行情,错过了表现的机会,哎,再接再厉吧.