PRML-4 分类的线性模型

一些记号

$1.输入变量$

\[x \]

$2.分类$

\[C_k,k=1,2,...,K,共K个离散值 \]

$3.决策边界/决策面/决策区域$

\[D维输入空间中的(D − 1)维超平面 \]

\[y(x) = constant ，即w^T x + w_0 = constant \]

$4.预测变量，是一个实数变量$

\[t \]

\[二元表示方法中，目标变量 t \in {0, 1} ，其中t = 1 表示类 C_1 ，而 t = 0 表示类别 C_2 \]

\[对于K>2的情况,使用“1-of-K”编码规则 \]

2.三种解决分类的办法

1.最简单的方法是构造一个直接把向量$x$分到具体的类别中判别函数（discriminant function）
2.一个更强大的方法是在推断阶段对条件概率分布$p(C_k|x)$进行建模，然后使用这个概率分布进行最优决策
- 有两种不同的方法来确定条件概率$ p(C_k|x) $
- 2.1 一种是直接对它建模，例如把条件概率分布表示为参数模型，然后使用训练集来最优化参数
- 2.2 另一种是生成式的方法。在这种方法中，我们对类条件概率密度$p(x|C_k)$以及先验概率分布$p(C_k)$建模，然后使用贝叶斯定理来计算需要的后验概率分布
  $ p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)} \tag{4.2} $

3.激活函数

模型的预测$y(x,w)$是由参数$w$的线性函数给出的。在最简单的情况下，模型对输入变量也是线性的，因此形式为$y(x) = w^Tx + w_0$，即$y$是一个实数。然而对于分类问题，我们想预测的是离散的类别标签，或更一般地，预测位于区间$(0, 1)$的后验概率。为了达到这个目的，我们考虑使用非线性函数$f(\dot)$对$ w $的线性函数进行变换，来推广这个模型，即

$ y(x) = f(w^Tx + w_0) \tag{4.3} $

在机器学习的文献中$f(\dot)$被称为激活函数（activation function），而它的反函数在统计文献中被称为链接函数（link function）

posted @ 2022-03-27 09:58 筷点雪糕侠阅读(80) 评论(0) 收藏举报

刷新页面返回顶部

筷点雪糕侠

PRML-4 分类的线性模型

一些记号

2.三种解决分类的办法

3.激活函数

公告