PRML-4 分类的线性模型

一些记号

\(1.输入变量\)

\[x \]

\(2.分类\)

\[C_k,k=1,2,...,K,共K个离散值 \]

\(3.决策边界/决策面/决策区域\)

\[D维输入空间中的(D − 1)维超平面 \]

\[y(x) = constant ,即w^T x + w_0 = constant \]

\(4.预测变量,是一个实数变量\)

\[t \]

\[二元表示方法中,目标变量 t \in {0, 1} ,其中t = 1 表示类 C_1 ,而 t = 0 表示类别 C_2 \]

\[对于K>2的情况,使用“1-of-K”编码规则 \]

2.三种解决分类的办法

  • 1.最简单的方法是构造一个直接把向量\(x\)分到具体的类别中判别函数(discriminant function)
  • 2.一个更强大的方法是在推断阶段对条件概率分布\(p(C_k|x)\)进行建模,然后使用这个概率分布进行最优决策
    • 有两种不同的方法来确定条件概率$ p(C_k|x) $
    • 2.1 一种是直接对它建模,例如把条件概率分布表示为参数模型,然后使用训练集来最优化参数
    • 2.2 另一种是生成式的方法。在这种方法中,我们对类条件概率密度\(p(x|C_k)\)以及先验概率分布\(p(C_k)\)建模,然后使用贝叶斯定理来计算需要的后验概率分布
      $ p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)} \tag{4.2} $

3.激活函数

模型的预测\(y(x,w)\)是由参数\(w\)的线性函数给出的。在最简单的情况下,模型对输入变量也是线性的,因此形式为\(y(x) = w^Tx + w_0\),即\(y\)是一个实数。然而对于分类问题,我们想预测的是离散的类别标签,或更一般地,预测位于区间\((0, 1)\)的后验概 率。为了达到这个目的,我们考虑使用非线性函数\(f(\dot)\)对$ w $的线性函数进行变换,来推广这个模型,即

$ y(x) = f(w^Tx + w_0) \tag{4.3} $

在机器学习的文献中\(f(\dot)\)被称为激活函数(activation function),而它的反函数在统计文献中被称为链接函数(link function)

posted @ 2022-03-27 09:58  筷点雪糕侠  阅读(47)  评论(0编辑  收藏  举报