上一页 1 2 3 4 5 6 7 8 9 10 ··· 20 下一页
摘要: 一、集成学习的思路 共 3 种思路: 共 3 种思路: 二、增强集成学习(Boosting) 1)基础理解 Boosting 类的集成学习,主要有:Ada Boosting 和 Gradient Boosting 两类; 由于每个子模型要使用全部的数据集进行训练,因此 Ada Boosting 算法 阅读全文
posted @ 2018-08-16 22:55 何永灿 阅读(4574) 评论(0) 推荐(0) 编辑
摘要: 一、基础理解 随机森林(Random-Trees) 1)定义 定义:使用决策树算法进行集成学习时所得到的集成学习的模型,称为随机森林; 只要集成学习的底层算法是 决策树算法,最终得到的模型都可以称为随机森林; 2)scikit-learn 中:随机森林分类器及回归器 RandomForestClas 阅读全文
posted @ 2018-08-16 17:44 何永灿 阅读(1128) 评论(0) 推荐(0) 编辑
摘要: 一、oob(Out - of - Bag) 定义:放回取样导致一部分样本很有可能没有取到,这部分样本平均大约有 37% ,把这部分没有取到的样本称为 oob 数据集; 根据这种情况,不对数据集进行 train_test_split,也就是不适用 测试数据集,而使用这部分没有取到的样本做测试 / 验证 阅读全文
posted @ 2018-08-16 16:28 何永灿 阅读(1888) 评论(0) 推荐(0) 编辑
摘要: 一、集成学习算法的问题 可参考:模型集成(Enxemble) 博主:独孤呆博 思路:集成多个算法,让不同的算法对同一组数据进行分析,得到结果,最终投票决定各个算法公认的最好的结果; 弊端:虽然有很多机器学习的算法,但是从投票的角度看,仍然不够多;如果想要有效果更好的投票结果,最好有更多的算法参与;( 阅读全文
posted @ 2018-08-16 11:48 何永灿 阅读(2562) 评论(2) 推荐(2) 编辑
摘要: 一、Hard Voting 与 Soft Voting 的对比 1)使用方式 voting = 'hard':表示最终决策方式为 Hard Voting Classifier; voting = 'soft':表示最终决策方式为 Soft Voting Classifier; 2)思想 Hard V 阅读全文
posted @ 2018-08-15 18:02 何永灿 阅读(17112) 评论(0) 推荐(2) 编辑
摘要: 一、集成学习的思想 集成学习的思路:一个问题(如分类问题),让多种算法参与预测(如下图中的算法都可以解决分类问题),在多个预测结果中,选择出现最多的预测类别做为该样本的最终预测类别; 生活中的集成思维: 二、scikit-learn 中的集成分类器 scikit-learn 中封装的集成分类器:Vo 阅读全文
posted @ 2018-08-15 16:33 何永灿 阅读(1094) 评论(0) 推荐(0) 编辑
摘要: 一、解决回归问题的思路 1)思路对比 解决分类问题:根据模型参数训练结束后,对每个“叶子”节点的样本数据进行投票,规定数量最多的样本的类型为该“叶子”的预测类型; 解决回归问题:根据模型参数划分结束后,对每个“叶子”节点处 的相应的数据输出值的平均值,作为该“叶子”的预测值;(也就是训练结束后,每个 阅读全文
posted @ 2018-08-15 15:21 何永灿 阅读(1399) 评论(0) 推荐(0) 编辑
摘要: 老师:非参数学习的算法都容易产生过拟合; 一、决策树模型的创建方式、时间复杂度 1)创建方式 决策树算法 2)二叉树的实际复杂度 预测样本时的时间复杂度:O(logm) 训练决策树模型时的时间复杂度:O(n*m*logm) 二、scikit-learn 中决策树算法的参数 1)决策树算法的问题 方案 阅读全文
posted @ 2018-08-15 11:29 何永灿 阅读(2343) 评论(0) 推荐(1) 编辑
摘要: 一、基础理解 1)公式 2)实例计算基尼系数 3 种情况计算基尼系数: 基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小; 3)只有两种类别的数据集 二、使用基尼系数划分节点数据集 1)格式 from sklearn.tree import DecisionTreeClassifier dt 阅读全文
posted @ 2018-08-14 22:14 何永灿 阅读(2504) 评论(0) 推荐(0) 编辑
摘要: 一、信息熵 百科:信息熵 衡量信息的不确定度; 1)理论提出 信息论之父 C. E. Shannon 指出:任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。 信息论之父 C. E. Shannon 指出:任何信息都存在冗余,冗余大小与信息中每个符号(数字 阅读全文
posted @ 2018-08-14 22:00 何永灿 阅读(4097) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 20 下一页