机器学习面试问题整理(4) — Emsenble learning集成学习
概述
基本推导和理论还是以看李航老师的《统计学习方法》为主。
各种算法的原理,推荐理解到可以手撕的程度。
以下为通过网络资源搜集整理的一些问题及答案,准备的有些仓促,没能记录所有资料的来源(侵删)
集成学习
- 优点:具有较高的准去率
- 缺点:模型的训练过程比较复杂,效率不是很高。
- 类别:
- Boosting (提高弱分类), 易受噪声干扰
- Adaboost, GBDT, XGBOOST
- Bagging (bootstrap aggregating, 随机有放回) 简单理解,就是分段函数的概念:用不同的模型拟合不同部分的训练集
- 随机森林
- Boosting (提高弱分类), 易受噪声干扰
树集成模型有哪几种形式?
Boosting和bagging
Boosting和bagging的区别
https://www.cnblogs.com/liuwu265/p/4690486.html
Bagging为什么能减小方差
对回归问题,计算上述模型的均值作为最后的结果
Var(X/N) = 1/N Var(X)