概率论在人工领域的两种用途:
(1)设计算法使AI具有推理能力。
(2)从理论上分析我们提出AI系统的行为。
频率学派和贝叶斯学派的区别:
总的来说,频率学派认为世界运行的规律是一定的,描述分布模型的参数也是固定的,具体体现在参数固定。 而贝叶斯学派认为世界的运行是随机的,就连运行规律本身也是随机性的,具体体现在参数是随机的,是有分布的。另一方面,简单来说,频率学派平等的对待所有的样本,信奉少数服从多数,而贝叶斯学派相信有时候真理掌握在少数人手里。比如,给100个人两篇有关于计算机视觉文章,99个人赞同文章1,1个人赞同文章2,那频率学派就认为文章1写的更好,但贝叶斯学派会观察这100个人的经历学识等先验概率,发现赞同文章2的是从事计算机视觉研究的大佬,而赞同文章1的都是非计算机视觉领域的人,那么他会认为文章2写的更好。
概率度量 :
离散型随机变量——概率质量函数/分布律(probability mass function, PMF)将随机变量能够取得的每个状态映射到随机变量取得该状态的概率上。
连续型随机变量——概率密度函数(probability density function, PDF)
单个随机变量的概率分布——分布函数(probability distribution):
多个随机变量的概率分布——联合概率分布(joint probability distribution)
边缘概率分布(marginal probability distribution)
从联合概率分布中了解其中一个随机变量的概率分布。可以通过求和(sum rule)来计算。
条件概率(conditional probability):
不能把条件概率和当采用某个动作后发生什么相混淆。假如某个人说德语,那他是德国人的条件概率非常高。但是如果随机选择一个会说德语的人,他的国籍是不会因此改变的。计算一个行动的后果被称为intervention query,属于因果模型(casual modeling)范畴。
条件概率的链式法则(chain rule)/乘法法则(product rule):
任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式:
独立性(independent):
条件独立性(conditionally independent):
期望(expectation/expected value):
方差(variance)、协方差(covariance)
常用的概率分布:
离散型:
Bernoulli分布是指单二值随机变量分布。Multinoulli分布/范畴分布(categorical distribution)指在具有k个不同状态的单个离散型随机变量上的分布,其中k是有有限值。Bernoulli分布和Multinoulli分布可以对那些能够将所有状态枚举的离散型随机变量进行建模。
连续型:
1. 高斯分布(Gaussian distribution)/正态分布(normal distribution)
当缺乏关于某个实数上分布的先验知识时而不知道该选择怎样的形式时,正态分布是一个比较好的选择,其中有两个原因:第一,我们想要建模的很多分布真实情况是比较接近正态分布的。中心极限定理(central limit theorem)说明很多独立随机变量近似服从正态分布。 第二,在具有相同方差的所有分布中,正态分布在实数上具有最大的不确定性。
中心极限定理(Central Limit Theorem):设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布。(原来的分布不一定要符合正态分布,可以是任何的分布,可以是离散也可以是连续,即无要求。)
2. 指数分布(exponential distribution)和Laplace分布
在深度学习中,经常会需要一个在x=0点处取得边界点(sharp point)的分布。为了实现这一目的,可以使用指数分布。
Laplace分布是指数函数的一般化,它允许我们在任意一点设置峰值。
3.Dirac分布
Dirac delta函数被定义成在除零之外的所有点的值都为0,但是积分为1。Dirac delta函数不像普通函数一样,对x的每个值都有一个实数值输出,它是一种不同类型的数学对象,被称为广义函数(generalized function),广义函数是依据积分性质定义的数学对象。
Dirac分布为:
Dirac经常作为连续型随机变量的经验分布(empirical distribution):
对于离散的随机变量,经验分布可以被定义成一个Mulyinoulli分布:
经验分布函数是一个随机变量,而经验分布函数的观测值是普通意义上的分布函数,具有分布函数的一切性质。