唯品会2018校招数据岗笔试题
首先,有几道计算机基础的题,网络、线程、数据库、操作系统;题量不多
其次,数据结构和算法、机器学习、深度学习是大头
陌生概念:
- 四分位数极差
它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。计算公式为:Q = Q3-Q1
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。
- 前缀表达式、中缀表达式、后缀表达式(注意括号的处理)
后缀形式如ab+c,中缀表达式 (a+b)c
中缀表达式为 a-(b+c/d)e,其后缀形式为( abcd/+e-)
对某条关联规则而言,如 A -> B (support=30%, confidence= 60%)
其中的support=30%是说,在所有的事务中同时出现A和B的概率,即P(AB)。
而,confidence=60%是说,所有事务中,在A出现的情况下B出现的概率,即P(B|A)。
关联规则、支持度(support)、置信度(confidence)、并运用Spark RDD计算
面包 | 牛奶 | 尿布 | 啤酒 | 鸡蛋 | 可乐 | |
---|---|---|---|---|---|---|
1 | 1 | 1 | 0 | 0 | 0 | 0 |
2 | 1 | 0 | 1 | 1 | 1 | 0 |
3 | 0 | 1 | 1 | 1 | 1 | 0 |
4 | 1 | 1 | 1 | 1 | 0 | 0 |
5 | 1 | 1 | 1 | 0 | 0 | 1 |
规则{牛奶,尿布}->{啤酒}d的支持度为2/5,置信度为:2/3
基本概念解释: (考察自己有没有掌握一个知识点,就看能不能流畅地、有逻辑地复述它)
- 什么是卷积神经网络?请说明卷积的意义