最近遇到的问题,待整理

  1. 介绍在PE的产筛算法针对自己的项目,上采样,下采样如果适用?
  2. 自己项目中,Pandas处理样本数据量(百万级)
  3. 是否熟练适用sql,我回答说大部分是用的mongodb
  4. 是否适用过分布式图计算,大数据平台
  5. t test 如何解释
  6. 显著性检验,P value 如何解释
  7. 回归算法的假设条件
  8. 用过哪些基础算法?(逻辑回归,树模型,模型调参gird_search是默认都会的)
  9. 线性回归(广义的线性回归了解过吗?)(可以参考https://blog.csdn.net/piaodexin/article/details/77477663为)
  10. PCA降维的原理(线性代数的本质角度去理解或者按照知乎的文章去理解,此处需要整理)
  11. 随机森林中的feature importance是如何计算出来的(第一条链接解释的最为详细,可以参考 https://stats.stackexchange.com/questions/162162/relative-variable-importance-for-boostinghttps://stackoverflow.com/questions/34218245/how-is-the-feature-score-importance-in-the-xgboost-package-calculated, https://www.cnblogs.com/xxiaolige/p/9234188.html )(https://www.cnblogs.com/wj-1314/p/9628303.html, https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#giniimp)
  12. 有没有了解过相应的计算方法?(我回答的按照gini系数或者信息增益,其实是分支的时候的特征选择)
  13. 随机森林中的随机体现在哪些方面?Bootstrap 取样的方式?
  14. 甲乙两人掷硬币,谁先掷硬币的正面谁赢,问甲先掷硬币赢得概率?
  15. 论文中算法的复现能力,主要是code能力
  16. 特征工程(http://www.cnblogs.com/jasonfreak/p/5448385.html)
  17. 什么逻辑回归模型要使用 sigmoid 函数?
    • 广义模型推导所得
    • 满足统计的最大熵模型
    • 性质优秀,方便使用(Sigmoid函数是平滑的,而且任意阶可导,一阶二阶导数可以直接由函数值得到不用进行求导,这在实现中很实用)
  18. 逻辑斯蒂回归常见的问题

\[\begin{array} { l } { \log i t ( \mathrm { x } ) = \ln \left( \frac { P ( \mathrm { y } = 1 | \mathrm { x } ) } { P ( \mathrm { y } = 0 | \mathrm { x } ) } \right) } \\ { = \ln \left( \frac { P ( \mathrm { y } = 1 | \mathrm { x } ) } { 1 - P ( \mathrm { y } = 1 | \mathrm { x } ) } \right) = \theta _ { 0 } + \theta _ { 1 } x _ { 1 } + \theta _ { 2 } x _ { 2 } + \ldots + \theta _ { m } x _ { m } } \end{array} \]

  1. feature importance sklearn GBDT(gradient boosting decision tree 中feature importance 源码理解)
  • 先计算出每棵decision tree中的特征重要性
  • 然后特征在所有树中的重要性的平均值
  • 计算每个特征的相对重要性(归一化)

feature_importance

posted on 2019-01-30 15:54  多一点  阅读(410)  评论(0编辑  收藏  举报

导航