建模流程

模型建模与问题解决流程

数据处理

特征工程

模型选择

寻找最佳超参数:交叉验证

模型分析与融合

 

模型融合:

过拟合:bagging

不使用全部数据集,每次选取一个子集训练模型。这样就得到了多个模型(例如 有一个1:10的正负样本 分成10个1:1的正负样本)

分类:用这些模型的结果做vote

回归:对所有结果做平均

stacking:用多种predictor结果作为特征训练

例如:神经网络,上一级的结果作为下一级的输入

boosting: adaboost:调样本的权重

 

数据处理:

log--平滑数据处理器: log()方法返回x的自然对数,对于x>0。如果这里进行了log,那么最后计算结果的时候,需要把预测的数据给变回去

输出值进行一个平滑化(正态化)处理,输出值不至于太偏向某一边

变量转化:

1 将格式错了数据变成正确的格式。int->str  --->get_dummies方法,可以帮助把str one-hot化

2 数据缺失:使用0 ,平均值,最大值,最小值.....  isnull().sum() 可以看有没有null了

3 (x-x')/s  将输入数据进行一个平滑处理,归一化

 

建立模型:

选取两个模型进行训练

选取参数--》网格搜索

stacking的思维来汲取两个模型的有点 y=(y1+y2)/2

 

word2vec

 

posted @ 2020-05-07 22:40  ZECDLLG  阅读(322)  评论(0编辑  收藏  举报