百面机器学习--跟课Task整理

涉及书中内容：特征工程&&模型评估

不同的特征如何进行特征工程？

特征是原始数据作为输入，特征工程的结果，作为输入供算法和模型使用。

对于数值型特征，为消除特征间的量纲影响，应对特征进行归一化处理，使得不同指标之间具有可比性。常用归一化方法：线性函数归一化（Max-min Scaling）、零均值归一化。在实际应用中，通过梯度下降求解的模型通常是需要归一化的，但对于决策树，归一化并不改变样本在某个特征上的信息增益，因此，对于决策树模型，特征归一化与否并不影响结果。

对于类别型特征，除决策树模型可以接受字符串作为输入，逻辑回归、支持向量机等模型都需要将类别型特征进行编码，转换为数值型特征。常用的编码方式有：序号编码、独热编码、二进制编码等。

为了提高复杂关系的拟合能力，在特征工程中经常把一阶离散特征两两组合，构成高阶特征，若特征x1的数量为m、特征x2的数量为n，则组合特征相关的参数为m*n，当m和n均很大时，学习变得困难。一种行之有效的方法是将两个特征均用k维的低维向量表示，即通过降维来减少两个高维特征组合后需要学习的参数。上述采用两个特征两两组合得到高维特征，并不是很有效，可以通过决策树实现更加有效的特征组合，每一条从根节点到叶节点的路径都可以看成是一种特征组合的方式。

模型评估中不同的指标用在什么场景中？

对于分类模型，常用的评估指标有：错误率（error）和精度（accuracy）、查准率（Precision）和查全率（Recall）、ROC和AUC等。

精度（Accuracy）指的是分类正确的样本占样本总数的比例，错误率指的是分类错误的样本占样本总数的比例；

查准率指的是预测为正的样本中真正正样本的占比，查全率指的是预测为正且确实为正的样本占所有正样本的比例，即数据集中正样本的召回率；

ROC曲线的横坐标为假阳率（False Positive Rate，FPR）、纵坐标为真阳率（True Positive Rate，TPR），FPR计算的是预测为正的负样本占真实负样本的比例，TPR计算的是预测为正的正样本占真实正样本的比例；AUC计算的是ROC曲线下的面积，一般取值在0.5~1之间，AUC值越大说明模型分类性能越好。

精度和错误率既适用于二分类任务，也适用于多分类任务。PR曲线和ROC/AUC主要针对二分类问题提出的，对于多分类问题，可以将其转换为多个二分类问题，然后求均值得到最终的PR曲线或ROC曲线。ROC曲线相对PR曲线，对样本分布变化更加鲁棒，即增加测试集中负样本的数量不会造成ROC曲线的变换，但是严重干扰PR曲线。

对于回归模型，常用的评估指标有：MAE、MSE、RMSE等。

MAE指的是平均绝对值误差、MSE指的是均方差、RMSE指的是平方根误差。

一般情况下，平方根误差能够很好地反应回归模型预测与真实值的偏离程度，但是离群点（Outlier）对RMSE的干扰很大，容易噪声RMSE指标的失效。相应的解决方案，可以是判断离群点是否为噪声，如果是噪声可以将其过滤掉；也可以进一步提高模型的预测能力；或者改进评估指标，新指标可以通过归一化的方式消除离群点的影响，书中采用差值/真实值，即计算百分比误差来达到目的。

posted @ 2019-06-25 15:42 iSherryZhang 阅读(200) 评论(0) 编辑收藏举报

刷新页面返回顶部

iSherryZhang

百面机器学习--跟课Task整理

公告