摘要: 一、集成学习的思路 共 3 种思路: 共 3 种思路: 二、增强集成学习(Boosting) 1)基础理解 Boosting 类的集成学习,主要有:Ada Boosting 和 Gradient Boosting 两类; 由于每个子模型要使用全部的数据集进行训练,因此 Ada Boosting 算法 阅读全文
posted @ 2018-08-16 22:55 何永灿 阅读(4574) 评论(0) 推荐(0) 编辑
摘要: 一、基础理解 随机森林(Random-Trees) 1)定义 定义:使用决策树算法进行集成学习时所得到的集成学习的模型,称为随机森林; 只要集成学习的底层算法是 决策树算法,最终得到的模型都可以称为随机森林; 2)scikit-learn 中:随机森林分类器及回归器 RandomForestClas 阅读全文
posted @ 2018-08-16 17:44 何永灿 阅读(1128) 评论(0) 推荐(0) 编辑
摘要: 一、oob(Out - of - Bag) 定义:放回取样导致一部分样本很有可能没有取到,这部分样本平均大约有 37% ,把这部分没有取到的样本称为 oob 数据集; 根据这种情况,不对数据集进行 train_test_split,也就是不适用 测试数据集,而使用这部分没有取到的样本做测试 / 验证 阅读全文
posted @ 2018-08-16 16:28 何永灿 阅读(1888) 评论(0) 推荐(0) 编辑
摘要: 一、集成学习算法的问题 可参考:模型集成(Enxemble) 博主:独孤呆博 思路:集成多个算法,让不同的算法对同一组数据进行分析,得到结果,最终投票决定各个算法公认的最好的结果; 弊端:虽然有很多机器学习的算法,但是从投票的角度看,仍然不够多;如果想要有效果更好的投票结果,最好有更多的算法参与;( 阅读全文
posted @ 2018-08-16 11:48 何永灿 阅读(2562) 评论(2) 推荐(2) 编辑