一、概率论基础
-
ML中的概率论基础概念
-
概率: 概率再机器学习中是处理不确定性。
不确定性产生的三种来源:
(1)建模系统存在随机性
(2)不完全观测: 确定的系统,但是观测值不完全,因为有些值时不可能完全观测到的。
(3)不完全建模:可以理解建模时候,舍弃的部分值导致了模型预测时出现的不确定性
-
随机变量:随机抽取不同值的变量,例如随机变量X, 其含有不同值x1,x2,..., xn
随机变量可以使离散的和连续的。例如:
离散随机变量:观测天气状态x, x可以是(多云、晴天,雷暴天气)定量数据
连续随机变量:统计抽烟人群年龄x, x可以是 [15, 65] 区间的任一值
-
概率分布
(1)离散型随机变量 + 概率质量函数
离散型随机变量的概率分布使用概率质量函数(PMF)来表示,用字母P来表示,则有P(x)
函数P是x的概率质量函数必须满足以下条件:
A、P定义域是x的所有可能状态: 如x的可能状态为(x1,x2,x3),恰好 (x1,x2,x3)是P的整个定义域
B、任意x,有 0 ≤ P(x)≤ 1 : P(x) = 0, 表示不会发生;P(x) = 1表示一定发生。P的值域必须处于[0,1] 之间
C、x的所有状态的概率和为1 (归一化). P(X=x1) +P(X=x1) + ... + P(X=xn) = 1
(2)连续型随机变量 + 概率密度函数
连续型随机变量用概率密度函数(PDF)表示, 用p(小写)表示
函数p是x的 概率密度函数必须满足以下条件:
A、P定义域是x的所有可能状态
B、任意x, p(x) ≥0。 (不要求 p(x) ≤ 1)
C、
假设x落在区间[a,b]上, 可以通过对概率密度函数求导得到概率真实值:
(3)联合概率分布:概率质量函数可以同时作用于多个随机变量的, 如P(X=x, Y=y)表示x和y同时发生的概率
-
边缘概率
边缘概率是针对于联合概率分布,用于了解一个子集的概率分布,其计算方式就是针对某个随机变量求导,如下:
计算联合概率分布P(X=x, Y=y) :
-
离散型随机变量:
对任意x, 都有:
相当于对于
-
连续型随机变量
-
条件概率
条件概率在统计学里这样描述的,在事件B发生的条件下,事件A发生的概率,表示为 P( B | A)。
统计学中的表示方法:
P(A | B) = P(A B) / P(B) = P(A U B)/ P(B), 表示 A在B条件下发生的概率= AB共同发生的概率 / B 发生的概率。 P(AB)表示A和B同时发生的概率。
ML中的表示:
-
独立性和条件独立性:
独立性:如果事件A和事件B同时发生的概率 = 事件A发生的概率 × 事件B发生的概率,那么成事件A和事件B是相互独立的
P(AB) = P(A)P(B)
对于任意x和y,有如下式子:
条件独立性 : 给定事件C发生概率的条件下, 事件A和事件B同时发生的概率 = 事件C条件下,A发生的概率 × 事件C条件下,B发生的概率,那么说明事件A和事件B在给定事件C下条件独立。
P(A,B |C) = P(A|C) P(B|C)
-
链式法则:任何多维随机变量的联合概率分布,可以分解为只有一个变量的条件概率相乘的形式。
P(a, b, c) = P(a | b, c) * P(b, c)
= P(a | b, c) * P(b | c) * P(c)
-
贝叶斯定理(朴素贝叶斯算法那有介绍):
已知 A在B条件下发生的概率 P(A | B), B发生的概率P(B), 求 P(B | A)发生的概率。
贝叶斯定理如下:
P(B | A) = P(A | B)·P(B) / P(A)
-
期望、方差和协方差
-
期望:f(x)x由P产生,f作用于x时, f(x)的平均值。
离散型随机变量:
连续型随机变量:
-
方差:衡量随机变量的离散程度。方差= 随机变量与平均值的差的平方和的期望
-
标准差: 方差的平方根
-
协方差:表示两个随机变量的关系。衡量两个变量线性相关的强度和这些变量的尺度
令E(X)=μ1, E(Y)=μ2,那么x,y的协方差为:
cov(X,Y)= E((X-μ1) (Y-μ2))
cov(X,Y)= E(X·Y)- μ1μ2
若| cov(X,Y)| 很大,表示变量变化大,且各自距离均值很远。
cov(X,Y) > 0 , 两个变量倾向于 取较大值
cov(X,Y) < 0, 一个变量较大值,一个较小值,反之亦然。
-
ML常用概率分布
(1)伯努利分布:二值随机变量分布,0-1分布。
P(x=0)= a, p(x=1) = 1-a
(2)多项式分布:
(3)高斯分布
正太分布又称为 高斯分布
标准正态分布: μ=0, = 1的正态分布。
概率密度函数, 其为一个钟型曲线:
-
高斯分布的优点:
A、建模时,很多真实情况比较接近正态分布。中心极限定理也说明很多随机变量的和/均值等都服从正态分布
B、相同方差的所有可能概率分布中, 正态分布有最大的不确定性。 所以正态分布是先验知识最少的分布。噪声较多的正态分布,其不确定性较高,如果模型能表现较好,那么说明模型鲁棒性较高。
正态分布推广到多维空间,就有多维正态分布
(4)指数分布和laplace分布(拉普拉斯分布):
二、信息论基础
-
信息论基本想法:
一个不太可能发生的是发生了,要比非常可能发生的事,提供更多的信息
-
基本性质
(1)、 非常可能发生的事信息量少,极端情况下,确保能够发生的事件应该无信息量
(2)、 较不可能发生的事,具有较高的信息量
(3)、 独立事件应具有增量的信息
-
定义与部分概念
-
自信息(处理单个输出):
定义(以e为底的自然对数) :
单位:奈特(1奈特= 1/e的概率观测到一个事件所获取的信息量)
-
香农/比特(bit):对整个概率分布的不确定性的量化度量。
公式:
一个分部的香农熵是遵循这个分布的事件所产生的期望信息总量
若X为连续的, 香农熵被称为 微分熵
-
KL散度:随机变量x有两个单独的概率分布P(x)和Q(x), 用KL散度来衡量两个分布的差异
当且仅当两个分布相同时,散度为0。连续型随机变量,“几乎处处”是相同的分布。
-
交叉熵: