一文搞懂:Adaboost及手推算法案例
boosting
Boosting 算法的特点在于:将表现一般的弱分类器通过组合变成更好的模型。代表自然就是我们的随即森林了。
GBDT和Adaboost是boost算法中比较常见的两种,这里主要讲解Adaboost。
Adaboost
Adaboost算法的核心就是两个权重。对于数据有一个权重,权重大的数据计算的损失就大;然后对于每一个弱分类器有一个权重,这个权重就是每一个弱分类器最终投票的比重。
【先给出Adaboost关键的公式】:
α1=12ln(1−ϵ1ϵ1) 分类器的投票权重
W_i=W_ie^{-\alpha_i y_i \hat{h}(x_i)} 更新样本的权重
【随即森林中最终投票每一个弱分类器的比重相同】
大概流程就是,现在有一个数据集,然后每个数据的比重都相同,然后训练了好几个不同的弱分类器。
- 挑选错误率最低的弱分类器,然后通过【某种算法】得到这个弱分类器最终投票的比重,然后通过【某种算法】更新每一个数据的比重;
- 因为每一个数据的比重更新了,所以再选择一个错误率最低的弱分类器,然后通过【某种算法】得到这个弱分类器最终投票的比重,然后通过【某种算法】更新每一个数据的比重;
- 重复这个过程。
这里给一个具体计算的例子:
假设这里有10个数据:
加号和减号分别代表不同的类别。然后每个类别有5个样本。
这三个分类器分别是h_1(x),h_2(x),h_3(x)
图中画圈的数据就是分类错误的数据。可以发现每个弱分类器都分错了3个。下面开始Adaboost的算法。
先计算三个弱分类器的错误率,因为一开始每个样本的权重都是0.1,每个分类器又都错了3个样本,所以错误率都是0.3。这里就随机选取第一个分类器作为错误率最低的那个好了。
我们这里通过第一个【某种算法】计算第一个弱分类器在最终的投票权重:
\alpha_1=\frac{1}{2}ln(\frac{1-\epsilon_1}{\epsilon_1})=0.5*ln(\frac{0.7}{0.3})=0.4236
然后通过这个\alpha_1=0.4236来更新每一个样本的权重。这也就是上面提到的第二个【某种算法】:
W(i)=W(i)*e^{-\alpha y_i \hat {h}(x_i)}
这啥意思的,现在假设第一个样本+1,这个样本的权重是0.1(更新前),然后这个样本在第一个分类器中是非类正确的,所以y_i \hat{h}(x_i)=1,所以这个样本更新后的权重就是0.1e^{-0.4236}=0.0655
当然,对于+3这个样本,第一个分类器就分类错误,所以y_i \hat{h}(x_i)=-1,所以呢这个样本更新后的权重就是:0.1e^{0.4236}=0.1527
这一次选的是第二个分类器,然后计算它的\alpha_2,然后再更新每一个样本的权重值:
到这一步的时候,我们已经有了\alpha_1,\alpha_2,\alpha_3,所以我们的adaboost已经得到了所有分类器的投票权重,所以最终的模型投票公式就是:
喜欢的话加个微信公众号支持一下吧~目前主要再整理针对机器学习算法岗位的面试可能遇到的知识点。
公众号回复【下载】有精选的免费机器学习学习资料。 公众号每天会更新一个机器学习、深度学习的小知识,都是面试官会问的知识点哦~
- 【机器学习的基础数学(PDF)】
- 【竞赛中的大数据处理流程(PDF)】
- 【如何做大数据的基础特征工程(PDF)】
- 【自然语言处理NLP的应用实践大合集(PDF)】
- 【python入门级教材(400页PDF)】
公众号每天会更新一个机器学习、深度学习的小知识,都是面试官会问的知识点哦~
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】凌霞软件回馈社区,携手博客园推出1Panel与Halo联合会员
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 长文讲解 MCP 和案例实战
· Hangfire Redis 实现秒级定时任务,使用 CQRS 实现动态执行代码
· Android编译时动态插入代码原理与实践
· 解锁.NET 9性能优化黑科技:从内存管理到Web性能的最全指南
· 通过一个DEMO理解MCP(模型上下文协议)的生命周期
· 工良出品 | 长文讲解 MCP 和案例实战
· 多年后再做Web开发,AI帮大忙
· 记一次 .NET某旅行社酒店管理系统 卡死分析
· centos停服,迁移centos7.3系统到新搭建的openEuler
· 上周热点回顾(4.14-4.20)