lecture 6 : SVM Intro

在构建线性分类器的时候，我们希望找一个决策边界将 positive examples 和 negative examples 较好地分开。对于一个 example, 我们希望分类的时候尽可能 correct (归到正确的一边) and confident (离决策边界尽可能远)。这就是 baby SVM 的 motivation。

在 SVM 中我们不延续之前的习惯，用 +1 和 -1 来表示正负例标签, 最后不输出概率, 而是输出 \(sign(w^Tx + b)\)

用 \(b\) 表示线性函数中的截距，\(w\) 表示其他参数，我们希望的是, 当 \(y= 1\) (positive)，\(w^Tx + b >> 0\), 当 \(y = -1\), (negative examples), \(w^Tx + b << 0\) , 综上，我们可以定义一个衡量这种correct and confident 的标准，functional margin:

\[\hat\gamma^{(i)} = y^{(i)}(w^Tx^{(i)} + b) \]

而对于真个数据集的 functional margin:

\[\hat\gamma = min_{i = 1,...,m} \quad \hat\gamma^{(i)} \]

然而 functional margin 的一个问题是，当我们同时缩放 \(w, b\), 实际上的决策边界是没有改变的，但是 functional margin 却改变了。

另一个角度是从几何意义来考虑一次预测的好坏，一个分类正确的样本，它离决策边界越远，一般可以认为这次预测较为 correct and confident, 基于此，我们定义 geometric margin \(\gamma\)

\[\gamma^{(i)} = \frac{y^{(i)}(w^Tx^{(i)} + b) }{||w||} \]

同样地，对于整个数据集,

\[\gamma = min_{i = 1,...,m}\quad \gamma^{(i)} \]

geometric margin 解决了 functional margin 关于同时缩放 \(w, b\) 带来的问题。

因此 SVM 求解的目标就是:

\[max_{w,b}\quad \gamma \]

\[s.t. \gamma^{(i)} \ge \gamma \]

然而这并不是一个凸优化问题，我们将问题改写

\[max_{w,b} \quad \frac{\hat\gamma}{||w||}\\ s.t.\hat\gamma^{(i)}\ge \hat\gamma \]

由于 functional margin 的取值可通过 rescaling 来调整，并不影响问题的求解，因此可以让 \(\hat\gamma = 1\), 进一步问题可以化为在约束下最小化 \(\frac{1}{||w||}\)，这等价于:

\[\min_{w,b} \frac{1}{2}||w||^2\\ s.t. \hat\gamma^{(i)}\ge \hat\gamma \]

这是一个凸优化问题。

posted @ 2022-03-20 13:17 今天AC了吗阅读(29) 评论(0) 收藏举报

刷新页面返回顶部

Steven's Blog

lecture 6 : SVM Intro

公告