摘要:
一、流程 基函数线性加权和得到最终的强分类器。每轮迭代得到一个弱分类器,这个分类器是在上一轮的残差基础上得到的。本轮就是要找一个cart树,使得本轮的损失函数值更加的小。 二、如何选择特征(就是如何生成cart树) 回归树:平方误差和最小化,对于特征A=a时,集合D的误差最小时,就选择这个特征值最为 阅读全文
摘要:
1、权值更新方法 (1)初始化权值分布; (2)找分类误差最小的弱分类器; (3)计算出该弱分类器的权值; (4)更新权值分布; (5)集合所有弱分类器得到最终的强分类器。 2、adaboost快速收敛为什么? 因为当前轮分错的样本的权重会在下一轮训练中得的提高,下一轮弱分类器为了达到较低的分类误差 阅读全文
摘要:
损失函数用来估量预测值和真实值的不一致程度。损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子: 前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的ΦΦ是正则化项(regul 阅读全文
摘要:
什么是决策树? 定义在特征空间与类空间上的条件概率分布,决策树实际上是将特征空间划分成了互不相交的单元,每个从根到叶的路径对应着一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。实际中,哪个类别有较高的条件概率,就把该单元中的实例强行划分为该类别。 if-then的集合, 阅读全文
摘要:
一、简介 在GBDT的迭代中,假设我们前一轮迭代得到的强学习器是ft-1(x)损失函数是L(y,ft-1(x)) 我们本轮迭代的目标是学习到弱学习器ht(x),让本轮的损失L(t,ft-1(x)+ht(x))最小。 假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下 阅读全文
摘要:
机器学习算法推导当中,有的时候能看到一个函数 ,这个函数代表什么意思? 代表的是指示函数(indicator function)。 它的含义是:当输入为True的时候,输出为1,输入为False的时候,输出为0。 例如: ,表示当 不等于 的时候输出为1,否则输出为0。 阅读全文
摘要:
利用临近信息来标注类别的。是聚类算法中最简单的、搞笑的。 核心思想:指定k个初始质心作为聚类的类别,重复迭代值算法收敛。对于欧式空间的样本,误差平方和作为目标函数。 一、优缺点 优点:简单、快速,效果好,适用于高维; 缺点:很容易受到初始质心的影响,而且初始质心也很难选择。 二、k如何选取? 1、手 阅读全文