机器学习笔记--概率论基础
一、概率分布
首先说一下概率论的重要性。机器学习往往需要处理不确定量,而概率论则是用于声明不确定性的数学工具,提供了量化不确定性的方法和导出新不确定性的公理,因此概率论是机器学习很重要的基础。概率论中最主要的便是概率分布的研究,下面给出几种常用的概率分布。
1、Bernoulli 分布(伯努利分布)
伯努利分布是单个二值随机变量的分布,由参数 \(\phi\in\left[0,1\right]\) 控制, \(\phi\) 表示随机变量为1的概率:
可以合并为:
2、Multinoulli 分布(范畴分布)
范畴分布指 k 个不同状态的单个离散型随机变量的分布, k 为有限值。该分布由向量 \(p\in\left[0,1\right]^{k-1}\) 参数化,每个分量 \(p_{i}\) 表示第 i 个状态的概率,最后第 k 个状态的概率由1减去前 (k-1) 个状态的概率和得到。
3、高斯分布(正态分布)
因为中心极限定理及高斯分布的最大不确定性等原因,高斯分布是实数上最常用的分布。
其中 \(\mu\) 是分布的均值, \(\sigma^{2}\) 是分布的方差。
当高斯分布推广到 \(R^{n}\) 空间时,被称为多维正态分布:
其中向量 \(\overline{\mu}\) 是分布的均值, \(\Sigma\) 是正定对称矩阵,表示分布的协方差。
4、指数分布
指数分布是可以在 x=0 点处取得边界点的分布,通常深度学习中需要用到该分布。
其中指数函数 \(1_{x\geq 0}\) 表示当 x<0 时的概率为 0。
5、Laplace 分布
Laplace 分布允许我们在任意一点 \(\mu\) 处设置概率质量的峰值。
6、Dirac 分布
Dirac 分布的所有质量都集中在一点,可以通过Dirac delta 函数(即脉冲函数)来定义概率密度函数来实现:
7、经验分布
经验分布将概率密度 \(\dfrac{1}{m}\) 赋给 m 个点中的每一个。
二、处理概率分布的常用函数
1、logistic sigmoid 函数
通常用来产生伯努利分布中的参数 \(\phi\) ,范围是 (0,1)。
2、softplus 函数
可以用来产生高斯分布的参数 \(\sigma\) ,范围是 \(\left(0,\infty\right)\)。