一、概率论基础

  1. ML中的概率论基础概念

  •   概率: 概率再机器学习中是处理不确定性。
             不确定性产生的三种来源:
            (1)建模系统存在随机性
            (2)不完全观测: 确定的系统,但是观测值不完全,因为有些值时不可能完全观测到的。
            (3)不完全建模:可以理解建模时候,舍弃的部分值导致了模型预测时出现的不确定性
 
  • 随机变量:随机抽取不同值的变量,例如随机变量X, 其含有不同值x1,x2,..., xn
            随机变量可以使离散的和连续的。例如:
                 离散随机变量:观测天气状态x, x可以是(多云、晴天,雷暴天气)定量数据
                 连续随机变量:统计抽烟人群年龄x, x可以是 [15, 65] 区间的任一值
 
  1. 概率分布

        (1)离散型随机变量 + 概率质量函数
 
            离散型随机变量的概率分布使用概率质量函数(PMF)来表示,用字母P来表示,则有P(x)
    函数P是x的概率质量函数必须满足以下条件:
              A、P定义域是x的所有可能状态:  如x的可能状态为(x1,x2,x3),恰好 (x1,x2,x3)是P的整个定义域
              B、任意x,有   0 ≤ P(x)≤ 1   :  P(x) = 0, 表示不会发生;P(x) = 1表示一定发生。P的值域必须处于[0,1] 之间
              C、x的所有状态的概率和为1 (归一化).  P(X=x1) +P(X=x1) + ... + P(X=xn)  = 1
                    
 
 
 
        (2)连续型随机变量 + 概率密度函数
 
           连续型随机变量用概率密度函数(PDF)表示, 用p(小写)表示
   函数p是x的 概率密度函数必须满足以下条件:
              A、P定义域是x的所有可能状态
              B、任意x, p(x) ≥0。 (不要求 p(x)  ≤ 1)
              C、  
 
                    假设x落在区间[a,b]上, 可以通过对概率密度函数求导得到概率真实值:
                
       (3)联合概率分布:概率质量函数可以同时作用于多个随机变量的, 如P(X=x, Y=y)表示x和y同时发生的概率
 
  1. 边缘概率

            边缘概率是针对于联合概率分布,用于了解一个子集的概率分布,其计算方式就是针对某个随机变量求导,如下:
                计算联合概率分布P(X=x, Y=y) :
  • 离散型随机变量:
              对任意x, 都有:
                
                相当于对于
  • 连续型随机变量
            
                      
 
 

 

  1. 条件概率

            条件概率在统计学里这样描述的,在事件B发生的条件下,事件A发生的概率,表示为 P( B | A)。
               统计学中的表示方法:
                    P(A | B) = P(A B) / P(B) = P(A U B)/ P(B),  表示 A在B条件下发生的概率=  AB共同发生的概率 / B 发生的概率。 P(AB)表示A和B同时发生的概率。
                ML中的表示:
            
            
  •  独立性和条件独立性:
          独立性:如果事件A和事件B同时发生的概率 = 事件A发生的概率 × 事件B发生的概率,那么成事件A和事件B是相互独立的
                P(AB) = P(A)P(B)
                对于任意x和y,有如下式子:
                        
 
            条件独立性 :  给定事件C发生概率的条件下, 事件A和事件B同时发生的概率 = 事件C条件下,A发生的概率 × 事件C条件下,B发生的概率,那么说明事件A和事件B在给定事件C下条件独立。
                P(A,B |C) = P(A|C) P(B|C)
                        
  • 链式法则:任何多维随机变量的联合概率分布,可以分解为只有一个变量的条件概率相乘的形式。
                P(a, b, c) = P(a | b, c) * P(b, c)
                      = P(a | b, c) * P(b | c) * P(c)
 
 
  1. 贝叶斯定理(朴素贝叶斯算法那有介绍)

          已知 A在B条件下发生的概率 P(A | B), B发生的概率P(B), 求 P(B | A)发生的概率。
          贝叶斯定理如下:
                  P(B | A) =  P(A | B)·P(B) / P(A) 
 
  1. 期望、方差和协方差

  •  期望:f(x)x由P产生,f作用于x时, f(x)的平均值。
            离散型随机变量:
                        
            连续型随机变量:
                     
  • 方差:衡量随机变量的离散程度。方差= 随机变量与平均值的差的平方和的期望
         
 
  • 标准差: 方差的平方根
  • 协方差:表示两个随机变量的关系。衡量两个变量线性相关的强度和这些变量的尺度
            令E(X)=μ1, E(Y)=μ2,那么x,y的协方差为:
                    cov(X,Y)= E((X-μ1) (Y-μ2))
                    cov(X,Y)= E(X·Y)- μ1μ2
 
           若| cov(X,Y)| 很大,表示变量变化大,且各自距离均值很远。
            cov(X,Y) > 0 ,  两个变量倾向于 取较大值
            cov(X,Y) < 0,   一个变量较大值,一个较小值,反之亦然。
 
  1. ML常用概率分布

            (1)伯努利分布:二值随机变量分布,0-1分布。
                        P(x=0)= a,  p(x=1) = 1-a
 
            (2)多项式分布:
            (3)高斯分布
                    正太分布又称为 高斯分布
                    标准正态分布:  μ=0, = 1的正态分布。
                    概率密度函数, 其为一个钟型曲线:
                    
      • 高斯分布的优点:
                                A、建模时,很多真实情况比较接近正态分布。中心极限定理也说明很多随机变量的和/均值等都服从正态分布
                                B、相同方差的所有可能概率分布中, 正态分布有最大的不确定性。 所以正态分布是先验知识最少的分布。噪声较多的正态分布,其不确定性较高,如果模型能表现较好,那么说明模型鲁棒性较高。
 
                    正态分布推广到多维空间,就有多维正态分布
 
            (4)指数分布和laplace分布(拉普拉斯分布):
                     详情请见: https://blog.csdn.net/bqw18744018044/article/details/81192706
 
 

二、信息论基础

  1. 信息论基本想法:

                一个不太可能发生的是发生了,要比非常可能发生的事,提供更多的信息
    
  1. 基本性质

            (1)、 非常可能发生的事信息量少,极端情况下,确保能够发生的事件应该无信息量
            (2)、 较不可能发生的事,具有较高的信息量
            (3)、 独立事件应具有增量的信息
 
  1. 定义与部分概念

  • 自信息(处理单个输出): 
            定义(以e为底的自然对数) :
                                
            单位:奈特(1奈特= 1/e的概率观测到一个事件所获取的信息量)
 
 
  • 香农/比特(bit):对整个概率分布的不确定性的量化度量。
            公式:
            
                一个分部的香农熵是遵循这个分布的事件所产生的期望信息总量
                若X为连续的, 香农熵被称为   微分熵
 
  • KL散度:随机变量x有两个单独的概率分布P(x)和Q(x), 用KL散度来衡量两个分布的差异
        
        当且仅当两个分布相同时,散度为0。连续型随机变量,“几乎处处”是相同的分布。
 
  • 交叉熵: