随笔分类 -  统计学习

摘要:贝叶斯机器学习:最大熵及高斯分布高斯分布,也被称为正态分布,广泛应用于连续型随机变量分布的模型中。高斯分布可以从多个不同的角度来理解。例如,对于一个一元实值向量,使得熵取得最大值的是高斯分布。这个性质对于多元高斯分布也成立。当我们考虑多个随机变量之和的时候,也会产生高斯分布。观察式多元高斯分布的形式,考虑其中在指数位置上出现的二次型(x - mu)^T∑^{-1}(x - mu)。由于协方差矩阵∑是对称矩阵,那么∑^{-1}也是对称矩阵。我们假定∑是正定的,那么∑^{-1}也是正定的。于是,该二次型为x到mu的马⽒距离(Mahalanobis distance)Delta的平方。当∑是单位阵时,就变成了欧氏距离。 阅读全文
posted @ 2025-01-23 23:12 orion-orion 阅读(464) 评论(0) 推荐(2) 编辑
摘要:贝叶斯机器学习:共轭先验离散随机变量的二项分布和多项式分布,以及连续随机变量的高斯分布,这些都是参数分布(parmetric distribution)的具体例子。之所以被称为参数分布,是因为少量可调节的参数控制了整个概率分布。在频率派的观点中,我们通过最优化某些准则(例如似然函数)来确定参数的具体值。而在贝叶斯派的观点中,给定观测数据,我们引入参数的先验分布,然后使用贝叶斯定理来计算对应后验概率分布。我们会看到,对于贝叶斯参数估计而言,共轭先验(conjugate prior)有着很重要的作用。它使得后验概率分布的函数形式与先验概率相同,因此使得贝叶斯分析得到了极大的简化。例如,二项分布的参数的共轭分布为Beta分布,多项式分布的参数的共轭分布为狄利克雷分布(Dirichlet distribution),而高斯分布的均值的共轭先验是另一个高斯分布。所有这些分布都是指数族(exponential family)分布的特例。在本篇博客中我们将会介绍二项分布与多项式分布的共轭先验,高斯分布的共轭先验留在下一篇博客中进行介绍。 阅读全文
posted @ 2025-01-08 18:55 orion-orion 阅读(222) 评论(0) 推荐(1) 编辑
摘要:统计学习:EM算法及其在高斯混合模型(GMM)中的应用我们在应用中所面对的数据有时是缺损的/观测不完全的。我们将数据分为:可观测数据,用Y表示;缺失数据,用Z表示; 完全数据,用X=(Y, Z)表示。EM算法的基本思想是通过P(Y,Z)和P(Z |Y)这两个容易进行估计的分布来估计P(Y)。事实上,在应用中缺失数据Z常常并不是真实存在,而是人为造出来的(为了方便概率分布的估计)。我们此时将缺失数据Z称为隐含数据(latent data)。 阅读全文
posted @ 2022-03-09 11:03 orion-orion 阅读(856) 评论(0) 推荐(0) 编辑
摘要:统计学习:逻辑回归与交叉熵损失(Pytorch实现)在Logistic 回归模型中,一个事件的几率(odds)是指该事件发生的概率与不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率是p/(1-p),该事件的对数几率(log odds,简称对率)或 logit 函数是log(p/1-p)。这玩意在统计学里面称之为“对率回归”,其实就是“Logistic regression 名称”的由来。这里的 Logistic 和“逻辑”没有任何关系,和对率才是有关系的。 可以看出,输出Y=1的对数几率是由输入x的线性函数表示的模型,即 Logistic回归模型。 阅读全文
posted @ 2022-02-14 11:34 orion-orion 阅读(1238) 评论(0) 推荐(0) 编辑
摘要:统计学习:线性支持向量机(Pytorch实现)上一章我们所定义的“线性可分支持向量机”要求训练数据是线性可分的。然而在实际中,训练数据往往包括异常值(outlier),故而常是线性不可分的。这就要求我们要对上一章的算法做出一定的修改,即放宽条件,将原始的硬间隔最大化转换为软间隔最大化。该问题最终可以写成无约束优化的形式,目标函数由合页损失函数和正则项构成。合页损失函数处处连续,此时可以采用基于梯度的数值优化算法求解(梯度下降法、牛顿法等)不过,此时的目标函数非凸,不一定保证收敛到最优解。 阅读全文
posted @ 2021-10-12 21:08 orion-orion 阅读(2224) 评论(0) 推荐(0) 编辑
摘要:统计学习:线性可分支持向量机(Cvxpy实现)个人复习统计学习中线性可分支持向量机(SVM)所做的笔记,重点关注从统计学和凸优化的角度给出严谨的公式推导,包括模型、学习策略和算法三个部分。参考资料包括李航的《统计学习方法》和Stephen Boyd的《凸优化》。 阅读全文
posted @ 2021-08-28 19:00 orion-orion 阅读(1144) 评论(0) 推荐(1) 编辑
摘要:统计学习:朴素贝叶斯模型(Numpy实现)个人复习统计学习中朴素贝叶斯模型所做的笔记,包括原理讲解及其Python语言实现。原理方面重点关注从统计学和概率论的角度给出严谨的公式推导,包括模型构建、参数估计和算法三个部分。参考资料包括李航的《统计学习方法》和George Casella的《统计推断》。 阅读全文
posted @ 2021-08-17 20:16 orion-orion 阅读(799) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示