何永灿 - 博客园

2018年8月16日

机器学习：集成学习（Ada Boosting 和 Gradient Boosting）

摘要：一、集成学习的思路共 3 种思路：共 3 种思路：二、增强集成学习（Boosting） 1）基础理解 Boosting 类的集成学习，主要有：Ada Boosting 和 Gradient Boosting 两类；由于每个子模型要使用全部的数据集进行训练，因此 Ada Boosting 算法阅读全文

posted @ 2018-08-16 22:55 何永灿阅读(4574) 评论(0) 推荐(0) 编辑

机器学习：集成学习（随机森林、集成学习参数）

摘要：一、基础理解随机森林（Random-Trees） 1）定义定义：使用决策树算法进行集成学习时所得到的集成学习的模型，称为随机森林；只要集成学习的底层算法是决策树算法，最终得到的模型都可以称为随机森林； 2）scikit-learn 中：随机森林分类器及回归器 RandomForestClas 阅读全文

posted @ 2018-08-16 17:44 何永灿阅读(1128) 评论(0) 推荐(0) 编辑

机器学习：集成学习（OOB 和关于 Bagging 的更多讨论）

摘要：一、oob（Out - of - Bag）定义：放回取样导致一部分样本很有可能没有取到，这部分样本平均大约有 37% ，把这部分没有取到的样本称为 oob 数据集；根据这种情况，不对数据集进行 train_test_split，也就是不适用测试数据集，而使用这部分没有取到的样本做测试 / 验证阅读全文

posted @ 2018-08-16 16:28 何永灿阅读(1888) 评论(0) 推荐(0) 编辑

机器学习：集成学习（Bagging、Pasting）

摘要：一、集成学习算法的问题可参考：模型集成（Enxemble）博主：独孤呆博思路：集成多个算法，让不同的算法对同一组数据进行分析，得到结果，最终投票决定各个算法公认的最好的结果；弊端：虽然有很多机器学习的算法，但是从投票的角度看，仍然不够多；如果想要有效果更好的投票结果，最好有更多的算法参与；（阅读全文

posted @ 2018-08-16 11:48 何永灿阅读(2562) 评论(2) 推荐(2) 编辑

2018年8月15日

机器学习：集成学习（Soft Voting Classifier）

摘要：一、Hard Voting 与 Soft Voting 的对比 1）使用方式 voting = 'hard'：表示最终决策方式为 Hard Voting Classifier； voting = 'soft'：表示最终决策方式为 Soft Voting Classifier； 2）思想 Hard V 阅读全文

posted @ 2018-08-15 18:02 何永灿阅读(17112) 评论(0) 推荐(2) 编辑

机器学习：集成学习（集成学习思想、scikit-learn 中的集成分类器）

摘要：一、集成学习的思想集成学习的思路：一个问题（如分类问题），让多种算法参与预测（如下图中的算法都可以解决分类问题），在多个预测结果中，选择出现最多的预测类别做为该样本的最终预测类别；生活中的集成思维：二、scikit-learn 中的集成分类器 scikit-learn 中封装的集成分类器：Vo 阅读全文

posted @ 2018-08-15 16:33 何永灿阅读(1094) 评论(0) 推荐(0) 编辑

机器学习：决策树（决策树解决回归问题、决策树算法的局限性）

摘要：一、解决回归问题的思路 1）思路对比解决分类问题：根据模型参数训练结束后，对每个“叶子”节点的样本数据进行投票，规定数量最多的样本的类型为该“叶子”的预测类型；解决回归问题：根据模型参数划分结束后，对每个“叶子”节点处的相应的数据输出值的平均值，作为该“叶子”的预测值；（也就是训练结束后，每个阅读全文

posted @ 2018-08-15 15:21 何永灿阅读(1399) 评论(0) 推荐(0) 编辑

机器学习：决策树（CART 、决策树中的超参数）

摘要：老师：非参数学习的算法都容易产生过拟合；一、决策树模型的创建方式、时间复杂度 1）创建方式决策树算法 2）二叉树的实际复杂度预测样本时的时间复杂度：O(logm) 训练决策树模型时的时间复杂度：O(n*m*logm) 二、scikit-learn 中决策树算法的参数 1）决策树算法的问题方案阅读全文

posted @ 2018-08-15 11:29 何永灿阅读(2343) 评论(0) 推荐(1) 编辑

2018年8月14日

机器学习：决策树（使用基尼系数划分节点数据集）

摘要：一、基础理解 1）公式 2）实例计算基尼系数 3 种情况计算基尼系数：基尼系数的性质与信息熵一样：度量随机变量的不确定度的大小； 3）只有两种类别的数据集二、使用基尼系数划分节点数据集 1）格式 from sklearn.tree import DecisionTreeClassifier dt 阅读全文

posted @ 2018-08-14 22:14 何永灿阅读(2504) 评论(0) 推荐(0) 编辑

统计学基础（二）：信息熵、基尼系数

摘要：一、信息熵百科：信息熵衡量信息的不确定度； 1）理论提出信息论之父 C. E. Shannon 指出：任何信息都存在冗余，冗余大小与信息中每个符号（数字、字母或单词）的出现概率或者说不确定性有关。信息论之父 C. E. Shannon 指出：任何信息都存在冗余，冗余大小与信息中每个符号（数字阅读全文

posted @ 2018-08-14 22:00 何永灿阅读(4097) 评论(0) 推荐(0) 编辑

公告