建模流程
模型建模与问题解决流程:
数据处理
特征工程
模型选择
寻找最佳超参数:交叉验证
模型分析与融合
模型融合:
过拟合:bagging
不使用全部数据集,每次选取一个子集训练模型。这样就得到了多个模型(例如 有一个1:10的正负样本 分成10个1:1的正负样本)
分类:用这些模型的结果做vote
回归:对所有结果做平均
stacking:用多种predictor结果作为特征训练
例如:神经网络,上一级的结果作为下一级的输入
boosting: adaboost:调样本的权重
数据处理:
log--平滑数据处理器: log()方法返回x的自然对数,对于x>0。如果这里进行了log,那么最后计算结果的时候,需要把预测的数据给变回去
输出值进行一个平滑化(正态化)处理,输出值不至于太偏向某一边
变量转化:
1 将格式错了数据变成正确的格式。int->str --->get_dummies方法,可以帮助把str one-hot化
2 数据缺失:使用0 ,平均值,最大值,最小值..... isnull().sum() 可以看有没有null了
3 (x-x')/s 将输入数据进行一个平滑处理,归一化
建立模型:
选取两个模型进行训练
选取参数--》网格搜索
stacking的思维来汲取两个模型的有点 y=(y1+y2)/2
word2vec