《美团机器实践》略看

本书PDF版链接：https://pan.baidu.com/s/1_Fblc4AfKgOMc-jd9flI8A 提取码：obwe

第一章：问题建模

ps:注意精准率与准确率是有区别的，PR曲线越靠右上角越好，ROC曲线越靠坐标的左上角越好，AUC的值越大（接近1）越好。

第二章：特征工程

　　特征工程与模型二者有时候是此消彼长的，复杂模型在一定程度上减少特征工程需要做的工作。例如：对于线性模型，需要将类别变量进行独热编码等处理。但是对于复杂一些的模型，比如树模型，可以直接处理类别变量。对更复杂的深度学习，模型可以自动进行特征表示；再例如：数值特征，对于线性回归、逻辑回归等，其对输入特征的大小很敏感，对于这种光滑函数建模，需要数值特征归一化处理。而对于随机森林、梯度提升树就没必要归一化了。因此，以上讲的特征工程处理有时候要依据模型而言。

　　特征选择中的过滤方法不需要结合机器学习算法（模型），封装方法直接使用机器学习算法评估特征子集的效果。过滤方法不需要机器学习算法验证，效率高简单；封装方法使用预先定义的机器学习算法评估特征选取的质量，效率低；嵌入方法说白了感觉就是在模型中进行特征选择，也就是将特征选择、机器学习算法、模型效果全融合一起。使用工具包，书中有介绍。

第三章：常用模型

　　第二部分，好像不是SVM，场感知因子分解机（没怎么看）。第三部分，梯度提升树（GBDT），详细一点看这。书中有GBDT与XGBOOST的简单公式推导。

第四章：模型融合

　　其实我感觉集成学习算法就是模型的融合。集成学习中主要分为：Bagging（并行）和 Boosting (串行)。模型融合肯定要求模型不同，相同则没有意义，这里的不同要么是用不同的算法，要么是相同算法，但是输入不同。粗浅的感觉，stacking与Bagging类似，Bagging是并行，将不同分类（回归）器的结果进行融合后输出。stacking比它多一步，不是将不同分类器的结果融合，而是再经过一个分类器后输出。