机器学习——贝叶斯概率

  关于贝叶斯概率,参考了茆诗孙版本《概率论与数理统计》中有关贝叶斯的介绍,但是我对其中的介绍的理解比较混乱。李航《统计机器学习》,周志华《机器学习》也看过,没有对贝叶斯概率基本概念及理论有详细介绍,都是其衍生的知识介绍。由于工作中经常表述与基于《模式识别与机器学习》一书的描述接近,故此次先记录这种风格的贝叶斯概率介绍。
  根据随机重复事件的频率来考察概率,我们把这种叫做经典的或者频率学家的关于频率的观点。下面将介绍的将是贝叶斯观点下的概率,提供了不确定性的一个定量化描述。为什么会有不同的观点呢?可能各有其优缺点。比如频率学派观点,是根据随机事件不断重复来描述不确定性,而不是所有的随机事件都可以这样不断重复。比如本世纪末北极冰盖是否会消失,比如新冠病毒将会导致多少人死亡,多少人感染,人类何时能控制住这种病毒。这些都是不可重复的。
  在回到《模式识别与机器学习》开篇的多项式拟合曲线问题上,首先选择多项式方式来拟合曲线,那么求解多项式的系数/参数\(\omega\)就是我们的目标。这个\(\omega\)就是一个随机变量,那么需要知道这个随机变量的概率分布函数或者概率密度函数。这就是我们的目标。回忆一下书中水果盒子的例子,观察到拿出的水果种类提供了“新鲜的”新鲜,改变了选择红盒子的概率。在这个例子中,贝叶斯定理将观察到的数据融合,来把先验概率转化为后验概率。在观察数据之前,我们有一些关于参数\(\omega\)的假设,这以先验概率\(p(\omega)\)的形式给出。观察数据\(D={t_1, ... t_N}\)的效果可以通过条件概率\(p(D|\omega)\)表达(我们知道观察数据D的效果是受到参数\(\omega\)影响的,此刻观察到的数据就是随机变量\(\omega\)取某个值下的效果)。由贝叶斯定理可以得到
      \(p(\omega|D)=\frac{p(D|\omega)p(\omega)}{p(D)}\)

  牢记记住此种表述,后续概率相关描述都更容易理解,也不会产生太多概念上理解歧义或者混淆。
  在贝叶斯概率论中,选择某种模型,其中涉及到的参数\(\omega\)是我们研究的重点,观察数据D是由参数\(\omega\)取某个值产生的。注意这个因果关系,可能这样描述不准确。这里的\(\omega\)是一个随机变量。我们把这个随机变量的概率,也就是这个参数\(\omega\)的概率常用先验概率来称呼,通常会对其有个我们熟知的假设。观察到的数据D的概率,实际上是条件概率,在给定的某个\(\omega\)值条件下观察到的(虽然我们并不知道这个具体值,但确确实实是这样个因果关系),我们把这个条件概率p(D|\omega),可以看出为参数向量\(\omega\)的函数,被称为似然函数(likelihood function)。它表达了在不同参数向量\(\omega\)下,观察数据出现的可能性的大小。
  给定似然函数的定义,我们可以用自然语言来表述贝叶斯定理
      $posterior \propto $ likelihood x prior

posted @ 2022-05-09 17:24  星辰大海,绿色星球  阅读(117)  评论(0编辑  收藏  举报