语句让他家户户 任天野还让
1. 感知机函数:
f(x)=sign(w⋅x+b)
其实,sign是符号函数,w是权重,w·x是内积,b是偏置, w⋅x+b=0是超平面。
2. 损失函数
L(w,b)=−∑xi∈Myi(w⋅xi+b)
∇wL(w,b)=−∑xi∈Myixi∇bL(w,b)=−∑xi∈Myi∇wL(w,b)=−∑xi∈Myixi∇bL(w,b)=−∑xi∈Myi
损失函数是由误分类点到超平面的距离推导而来
损失函数的梯度:
∇wL(w,b)=−∑xi∈Myixi∇bL(w,b)=−∑xi∈Myi∇wL(w,b)=−∑xi∈Myixi∇bL(w,b)=−∑xi∈Myi
∇wL(w,b)=−∑xi∈Myixi 所以 w←w+ηyixi
∇bL(w,b)=−
∑xi∈Myi b←b+ηyi
3. 算法流程:
- (1)选取初值w0,b0
- (2)在训练集中任意选取点(xi,yi)
- (3)如果−yi(w⋅xi+b)>0则按照(4)式更新w,b
- (4)重复2直到没有被误分的点
4. 对偶形式
b=∑i=1Nniηyi=∑i=1Nαiyi
其中αi=niη中ni代表对第i个样本的学习次数,感知机对偶形式的完整形式:
f(x)=sign(∑j=1Nαjyjxj⋅x+b)
对偶形式中训练实例仅仅以内积的形式出现,为了方便,可以预先将训练集中的实例间的内积计算出来并且以矩阵的形式储存,这个矩阵就是Gram矩阵(Gram matrix)
5. 算法收敛性
当训练数据集线性可分时,感知机的算法是收敛的,并且存在无穷多个解。
参考资料:李航《统计学习方法》