建模流程

模型建模与问题解决流程：

数据处理

特征工程

模型选择

寻找最佳超参数：交叉验证

模型分析与融合

模型融合：

过拟合：bagging

不使用全部数据集，每次选取一个子集训练模型。这样就得到了多个模型（例如有一个1:10的正负样本分成10个1:1的正负样本）

分类：用这些模型的结果做vote

回归：对所有结果做平均

stacking:用多种predictor结果作为特征训练

例如：神经网络，上一级的结果作为下一级的输入

boosting: adaboost：调样本的权重

数据处理：

log--平滑数据处理器： log()方法返回x的自然对数，对于x>0。如果这里进行了log，那么最后计算结果的时候，需要把预测的数据给变回去

输出值进行一个平滑化（正态化）处理,输出值不至于太偏向某一边

变量转化：

1 将格式错了数据变成正确的格式。int->str --->get_dummies方法，可以帮助把str one-hot化

2 数据缺失：使用0 ，平均值，最大值，最小值..... isnull().sum() 可以看有没有null了

3 (x-x')/s 将输入数据进行一个平滑处理，归一化

建立模型：

选取两个模型进行训练

选取参数--》网格搜索

stacking的思维来汲取两个模型的有点 y=(y1+y2)/2

word2vec

posted @ 2020-05-07 22:40 ZECDLLG 阅读(369) 评论(0) 收藏举报

刷新页面返回顶部

ZECDLLG