PRML-4 分类的线性模型
一些记号
\(1.输入变量\)
\[x
\]
\(2.分类\)
\[C_k,k=1,2,...,K,共K个离散值
\]
\(3.决策边界/决策面/决策区域\)
\[D维输入空间中的(D − 1)维超平面
\]
\[y(x) = constant ,即w^T x + w_0 = constant
\]
\(4.预测变量,是一个实数变量\)
\[t
\]
\[二元表示方法中,目标变量 t \in {0, 1} ,其中t = 1 表示类 C_1 ,而 t = 0 表示类别 C_2
\]
\[对于K>2的情况,使用“1-of-K”编码规则
\]
2.三种解决分类的办法
- 1.最简单的方法是构造一个直接把向量\(x\)分到具体的类别中判别函数(discriminant function)
- 2.一个更强大的方法是在推断阶段对条件概率分布\(p(C_k|x)\)进行建模,然后使用这个概率分布进行最优决策
-
- 有两种不同的方法来确定条件概率$ p(C_k|x) $
-
- 2.1 一种是直接对它建模,例如把条件概率分布表示为参数模型,然后使用训练集来最优化参数
-
- 2.2 另一种是生成式的方法。在这种方法中,我们对类条件概率密度\(p(x|C_k)\)以及先验概率分布\(p(C_k)\)建模,然后使用贝叶斯定理来计算需要的后验概率分布
$ p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)} \tag{4.2} $
- 2.2 另一种是生成式的方法。在这种方法中,我们对类条件概率密度\(p(x|C_k)\)以及先验概率分布\(p(C_k)\)建模,然后使用贝叶斯定理来计算需要的后验概率分布
3.激活函数
模型的预测\(y(x,w)\)是由参数\(w\)的线性函数给出的。在最简单的情况下,模型对输入变量也是线性的,因此形式为\(y(x) = w^Tx + w_0\),即\(y\)是一个实数。然而对于分类问题,我们想预测的是离散的类别标签,或更一般地,预测位于区间\((0, 1)\)的后验概 率。为了达到这个目的,我们考虑使用非线性函数\(f(\dot)\)对$ w $的线性函数进行变换,来推广这个模型,即
$ y(x) = f(w^Tx + w_0) \tag{4.3} $
在机器学习的文献中\(f(\dot)\)被称为激活函数(activation function),而它的反函数在统计文献中被称为链接函数(link function)