最近遇到的问题,待整理
- 介绍在PE的产筛算法针对自己的项目,上采样,下采样如果适用?
- 自己项目中,Pandas处理样本数据量(百万级)
- 是否熟练适用sql,我回答说大部分是用的mongodb
- 是否适用过分布式图计算,大数据平台
- t test 如何解释
- 显著性检验,P value 如何解释
- 回归算法的假设条件
- 用过哪些基础算法?(逻辑回归,树模型,模型调参gird_search是默认都会的)
- 线性回归(广义的线性回归了解过吗?)(可以参考https://blog.csdn.net/piaodexin/article/details/77477663为)
- PCA降维的原理(线性代数的本质角度去理解或者按照知乎的文章去理解,此处需要整理)
- 随机森林中的feature importance是如何计算出来的(第一条链接解释的最为详细,可以参考 https://stats.stackexchange.com/questions/162162/relative-variable-importance-for-boosting,https://stackoverflow.com/questions/34218245/how-is-the-feature-score-importance-in-the-xgboost-package-calculated, https://www.cnblogs.com/xxiaolige/p/9234188.html )(https://www.cnblogs.com/wj-1314/p/9628303.html, https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#giniimp)
- GBDT 中的feature importance (https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/gradient_boosting.py)
- 有没有了解过相应的计算方法?(我回答的按照gini系数或者信息增益,其实是分支的时候的特征选择)
- 随机森林中的随机体现在哪些方面?Bootstrap 取样的方式?
- 甲乙两人掷硬币,谁先掷硬币的正面谁赢,问甲先掷硬币赢得概率?
- 论文中算法的复现能力,主要是code能力
- 特征工程(http://www.cnblogs.com/jasonfreak/p/5448385.html)
- 什么逻辑回归模型要使用 sigmoid 函数?
- 广义模型推导所得
- 满足统计的最大熵模型
- 性质优秀,方便使用(Sigmoid函数是平滑的,而且任意阶可导,一阶二阶导数可以直接由函数值得到不用进行求导,这在实现中很实用)
- 逻辑斯蒂回归常见的问题
\[\begin{array} { l } { \log i t ( \mathrm { x } ) = \ln \left( \frac { P ( \mathrm { y } = 1 | \mathrm { x } ) } { P ( \mathrm { y } = 0 | \mathrm { x } ) } \right) } \\ { = \ln \left( \frac { P ( \mathrm { y } = 1 | \mathrm { x } ) } { 1 - P ( \mathrm { y } = 1 | \mathrm { x } ) } \right) = \theta _ { 0 } + \theta _ { 1 } x _ { 1 } + \theta _ { 2 } x _ { 2 } + \ldots + \theta _ { m } x _ { m } } \end{array}
\]
- feature importance sklearn GBDT(gradient boosting decision tree 中feature importance 源码理解)
- 先计算出每棵decision tree中的特征重要性
- 然后特征在所有树中的重要性的平均值
- 计算每个特征的相对重要性(归一化)