2020 年 3月随笔档案 - ZacksTang

集成学习与随机森林（四）Boosting与Stacking

摘要：Boosting Boosting（原先称为hypothesis boosting），指的是能够将多个弱学习器结合在一起的任何集成方法。对于大部分boosting方法来说，它们常规的做法是：按顺序训练模型，每个模型都会尝试修正它的前一个模型。Booting 方法有很多种，不过到现在为止最热门的是Ad 阅读全文

posted @ 2020-03-24 20:40 ZacksTang 阅读(1573) 评论(0) 推荐(0) 编辑

集成学习与随机森林（三）随机森林与随机子空间

摘要：随机森林与随机子空间 BaggingClassifier类也支持对特征采样，这种采样由两个超参数控制：max_features 与 bootstrap_features，他们的工作方式与max_samples 与 bootstrap一样，只是他们采样的是特征。这样，每个模型将会在一个随机的输入特征子阅读全文

posted @ 2020-03-20 21:13 ZacksTang 阅读(1517) 评论(0) 推荐(0) 编辑

Kaggle 题目 nu-cs6220-assignment-1

摘要：Kaggle题目 nu-cs6220-assignment-1 题目地址如下： https://www.kaggle.com/c/nu-cs6220-assignment-1/overview 这是个二分类任务，需要预测一个人的收入，分为两类：收入大于50K，或是小于50K。 1. 查看数据结构下阅读全文

posted @ 2020-03-16 17:31 ZacksTang 阅读(748) 评论(0) 推荐(0) 编辑

airflow（二）集成EMR使用

摘要：1. 准备工作 1.1. 安装并初始化airflow，参考以下文档： https://www.cnblogs.com/zackstang/p/11082322.html 其中还要额外安装的是： sudo pip-3.6 install -i https://pypi.tuna.tsinghua.ed 阅读全文

posted @ 2020-03-12 21:34 ZacksTang 阅读(948) 评论(0) 推荐(0) 编辑

集成学习与随机森林（二）Bagging与Pasting

摘要：Bagging 与Pasting 我们之前提到过，其中一个获取一组不同分类器的方法是使用完全不同的训练算法。另一个方法是为每个预测器使用同样的训练算法，但是在训练集的不同的随机子集上进行训练。在数据抽样时，如果是从数据中重复抽样（有放回），这种方法就叫bagging（bootstrap aggreg 阅读全文

posted @ 2020-03-08 20:51 ZacksTang 阅读(1410) 评论(0) 推荐(0) 编辑

集成学习与随机森林（一）投票分类器

摘要：集成学习与随机森林假设我们现在提出了一个复杂的问题，并抛给几千个随机的人，然后汇总他们的回答。在很多情况下，我们可以看到这种汇总后的答案会比一个专家的答案要更好。这个称为“群众的智慧”。同理，如果我们汇总一组的预测器（例如分类器与回归器）的预测结果，我们可以经常获取到比最优的单个预测器要更好的预测阅读全文

posted @ 2020-03-04 19:10 ZacksTang 阅读(5221) 评论(0) 推荐(0) 编辑

决策树（二）决策树回归

摘要：回归决策树也可以用于执行回归任务。我们首先用sk-learn的DecisionTreeRegressor类构造一颗回归决策树，并在一个带噪声的二次方数据集上进行训练，指定max_depth=2： import numpy as np # Quadratic training set + noise 阅读全文

posted @ 2020-03-02 12:09 ZacksTang 阅读(3820) 评论(0) 推荐(0) 编辑

ZacksTang

03 2020 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜