一些建模中的问题

1.是否需要降维?

Dimensionality reduction we normally use it to visualize our data and to find hidden information

we don't normally see. Also, it is use for optimizing of course this is under the assumption that

when implementing dimensionality reduction to your dataset it is representative of the actual

dataset. You can find this out through the explained variance.

引自

2.t-SNE算法的用处

t-SNE的一个用处是:通过视觉直观验证算法有效性,或者说是算法评估。

 

引自

 3.为什么高维稀疏特征时,lr比GBDT的效果好?

声明:这只是一个思路和看法,不一定对

引自

4.聚类和降维有什么区别和联系?

引自中的第三个答案

5.如何确定异常值以及对其处理的一些方法

6.逻辑回归

概率分类模型

选取样本:对逻辑回归这种概率分类模型来说维持原来样本真实的分布还是有必要的,但是对一些树模型来说可以通过采样来平衡样本。

原来评分卡建模还有个拒绝推断,就是为了还原人群真实的坏账率。

如果样本量充足,基本就不用进行样本均衡。(本分的项目坏账1.5%没有进行处理)

充足与否主要看坏样本数,不同公司标准不一样,一般定1000,或者2000条。

Train/Test/OOT样本

样本均衡这块,如果欠采样减少了总体样本数,不如对坏样本过采样。欠采样容易丢失信息。

“训练数据只是为了找到数据背后的真实模型”这个其实就是传统统计学模型(参数模型)做的假设,模型就是为了还原生成X Y这个联合概率分布。现在很多的机器学习模型(非参模型)并不对原始分布做假设,所以很多条件很宽松。

我比较倾向于机器学习这套方法,模型不要做太多假设,衡量模型性能我们就看几个指标的高低,能抓住耗子就是好猫。

对于判断模型是否过拟合:
看train和test,如果差别不大那还好。

看train、test是否同分布,如果过拟合那差别还蛮大的。

logit就是log it, 概率,几率odds,几率比

7.数据划分

train、validation、test

out of sample、in sample

数据划分

8.评分卡做好之后,出现双峰?

这种就是某几个特征贡献的太多了。

解决:1.直接挑选有效变量做成规则 2.把分箱分的粗一些 3.如果还有变量可筛选,重新筛选变量,但一般这种情况下变量都比较少。

变量iv高就需要先选出来,具体还要看召回和准备的情况。总体上就是一个流量和坏账的博弈,就是在一个变量上cutoff。

但是如果你一个变量iv太高,模型就没法做了。模型是区分你手动分不出来的。

9.一般要求val和oot最后几箱是单调的,但也不一定完全单调,如果有小的震荡,也是可以接受的。

10.最不重要超参放在最外层,最里面放最重要超参。

11.一个数据源最好单变量iv至少要在0.03以上,单数据源ks要在15以上。

12.xgb中scale_pos_weight对结果的排序无影响,但如果人为指定后,会影响该样本真是的发生概率。但如果不指定,对于正负样本

差别较大的情况,打分容易聚在一起。

13.建模时,未查得样本是否要放进train/val/oot数据中?

如果未查得样本量较小时可以放进去,如果量比较大,需要删掉,因为量大时会影响到整体得分布,放在里面会影响建模过程。

14.当xgb其它参数相同,而eta(学习率)不同得时候,结果也会不同。

15.同样一批数据,选择不同的参数,最终选入模型的特征会不一样。

当你的模型越保守(过拟合小,即lambda/alpha较大时),最终得分容易聚到一起,只在中间的几个区间有值。越激进,最终得分越分的比较散,在0-1之间都分布。

posted on 2020-12-31 17:31  静静的白桦林_andy  阅读(293)  评论(0编辑  收藏  举报

导航