摘要:
PCA(主成分分析)是一种常见的数据降维算法,其核心思想是找到一个维数更低的仿射集,然后将所有的数据点在其上做投影,以得到新的在更低维空间中的点作为新的数据。那么问题来了,如何选择这样的仿射集,以降维的同时不至于损失过多的信息呢?一般来说有两种思路: 最近重构性:样本点到该仿射集的距离要尽量小; 最 阅读全文
摘要:
我们现在考虑一类具有隐变量的统计推断问题,用数学的语言就是说: 1) 我们的总体样本空间$\mathcal{S}\in\mathbb{R}^{M}\times\mathbb{R}^{L}$, 其分布的概率密度函数是$P(x,y\mid \theta)$,其中$x\in\mathbb{R}^{M},y 阅读全文
摘要:
GBDT算法: 所谓的GBDT(Gradient Boost Desicison Tree)就是值在每一步迭代时我们难以真正求得一个新的模型使得其加上原有模型得到的损失最小,但是我们可以用所谓的梯度下降法使得损失减小。 输入:训练数据集$D+\lbrace(x_{1},y_{1}),...,(x_{ 阅读全文
摘要:
在集成学习(一)中介绍过,Bagging(bootstrap aggregation)是一种增强模型多样性,降低方差的有效手段,特别适用于高方差,低偏差的模型,例如决策树,注意到Bagging也是一种可并行模型,而Boosting是一种顺序模型,是一类由弱学习器提升到强学习器的算法。注意到,对于绝大 阅读全文
摘要:
总结两种具体的提升算法: AdaBoost算法: AdaBoost的基本想法是不断调整训练数据中样本的权值来训练新的学习器,对于当前误分类的点在下一步中就提高权重“重点关照一下”,最后再将所有的弱分类器做加权和,对于分类正确率高的权重给得大大(更可靠),分类正确率低的给的权重低乃至是负的权重。其具体 阅读全文
摘要:
集成学习通过构建多个学习器然后进行某种方式的组合来达到学习的任务,通过集成学习可以增强模型的学习和泛化能力。下面总结以下集成学习的最基本概念。 1.常用集成学习方法: 1.1 Bagging Bagging( Bootstrap Aggregation)是一种最著名的并行式集成学习算法,其基本思想是 阅读全文
摘要:
1. 平方损失函数 Square Error: $$L(f(x),y)=(f(x)-y)^{2}$$ 这时经验风险函数是MSE,例如在线性回归中出现 2. 绝对值损失函数: $$L(f(x),y)=\vert f(x)-y\vert$$ 这时经验风险函数就是MAE 3. 0-1损失函数: $$L(f 阅读全文
摘要:
所谓类别不平衡问题就是分类任务中不同类别的训练案例数目差别极其大的情况。不是一般性,我们在这里讨论二分类问题中正例个数远远少于反例的情形。常见的处理非平衡数据集的办法主要有: 1.阈值移动(Threshold Moving): 通常我们预测类别的方法是学习得到正例概率$P$,如果:\begin{eq 阅读全文
摘要:
本文总结支撑向量机的基础知识,加入一点个人的直观理解。个人比较不太喜欢照搬书里的东西,而是喜欢自己推导然后时不时闭上研究回忆,想方设法用自己的方式简单理解。 1. 分类支撑向量机 1.1 可分SVM与间隔最大化: 对于二分类SVM,一种直观的理解就是要寻找一条有宽度的带子来分开两类数据,而不是一条线 阅读全文
摘要:
最近重温了一下XGBoost,现在总结一下XGBoost的基本常识,公式是自己在草稿纸上推导然后码出来的,和原始论文不太相同。在推导过程中也不断多问自己几个为什么。 1. XGBoost 的数学推导: 1.1 目标与惩罚函数 设$\lbrace(x_{i},y_{i})\mid x_{i}\in\m 阅读全文