线性分类-感知机模型
线性分类-感知机模型
思想
错误驱动
假设数据 $ {(x_i,y_i)}_{i = 1}^{N}、x_i \in R^p、y \in {-1, 1}$
对于感知机模型:
\[f(x) = sign(w^Tx) \quad x\in R^p, w \in R^p \\
sing(a) = \begin{cases}
+1 \quad a ≥ 0 \\
-1 \quad a < 0
\end{cases}
\]
根据错误思想我们可以写出损失函数:
\[L(w) = \sum_{i = 1}^{N}I(y_iw^Tx_i < 0) \quad \quad (1) \\
L(w) = \sum_{x_i \in D} - y_iw^Tx_i \quad \quad \quad (2)\\
D 表示为错误分类点的集合
\]
首先对于 \((1)\) 式设计,首先基于错误驱动的思想,我们统计错误分类的点数,然后更新 \(w\) ,减少错误 分类的点数:
\[I() 为指示函数,当里面式子为 True 取 1,False 取 0\\
\]
而我们知道正确分类由下式:
\[w^Tx_i > 0 \quad \quad y_i = +1 \quad \quad (3)\\
w^Tx_i < 0 \quad \quad y_i = -1 \quad \quad (4)\\
将 (3)(4) 式进行合并 \\
也就是 y_iw^Tx_i > 0 \\
那么对于错误分类的点自然就是 \\
y_iw^Tx_i > 0
\]
但是由于式 \((1)\) 不可导,所以我们直接利用 \(y_i w^Tx_i < 0\)
\[w \rightarrow w + \Delta \\
对于上式 \\
y_i w^T x_i = \alpha \\
y_i (w^T +\Delta) x_i = \alpha + \Delta \\
也是产生微小的变化
\]
所以 loss function 为:
\[L(w) = \sum_{x_i \in D} - y_iw^Tx_i
\]
那么我们对于求 \(w\) ,可以用随机梯度下降法:
\[\frac{\partial L(w)}{\partial w} = -y_ix_i \\
w^{(t + 1)} = w^{(t)} + \lambda y_ix_i
\]