机器学习十讲学习笔记第三讲
点到平面的距离
-
直线方程:w1x1+w2x2+w0=0w1x1+w2x2+w0=0
-
点到直线距离d=|w1x′1+w2x′2+w0|w21+w22√d=|w1x1′+w2x2′+w0|w12+w22
-
欧式空间超平面:w1x1+w2x2+...+wdxd+w0=0w1x1+w2x2+...+wdxd+w0=0
-
点到超平面距离:
d=|w1x′1+w2x′2+wdx′d+w0|w21+w22+...+w2d−−−−−−−−−−−−−−√=wTx′+w0||w||2d=|w1x1′+w2x2′+wdxd′+w0|w12+w22+...+wd2=wTx′+w0||w||2
梯度下降
-
求解无约束最优化问题的经典方法,机器学习和深度学习中应用最广泛的模型求解算法
-
如果实值函数g(w)g(w)在点aa处可微且有定义,那么函数g(w)g(w)在点aa处沿着梯度相反的方向−∇g(a)−∇g(a)下降最快
-
优化问题:
minwg(w)minwg(w) -
假设初始值为w(0)w(0),梯度下降法用以下迭代公式更新参数:
w(t+1)←w(t)−ηt∇g(w(t))w(t+1)←w(t)−ηt∇g(w(t)) -
其中ηtηt是学习率,取值范围(0,1)(0,1)
随机梯度下降
- 机器学习中,优化目标和梯度具有特定结构:
L(W)=∑i=1nl(yi,f(xi;w))∇L(w)=∑i=1n∇l(yi,f(xi;w))=∑i=1n∇Li(w)L(W)=∑i=1nl(yi,f(xi;w))∇L(w)=∑i=1n∇l(yi,f(xi;w))=∑i=1n∇Li(w)
- 更新参数只用一个样本的梯度,即随机梯度下降法
w(t+1)←w(t)−ηt∇Li(w(t))w(t+1)←w(t)−ηt∇Li(w(t))
- 收敛充分条件∑t=1∞ηt=∞∑t=1∞ηt=∞,∑t=1∞η2t<η∑t=1∞ηt2<η
- 需要随着迭代次数的增加降低学习率
最大似然估计
- "似然":likelihood可能性
- 最大似然法,一种求解概率模型参数的方法
- 最早是遗传学家以及统计学家罗纳德·费雪在1912年至1922年间开始使用
- 假设有nn个从概率模型pθ(x)pθ(x)独立生成的样本xini=1xii=1n
- 似然函数L(θ)=∏ni=1pθ(x)L(θ)=∏i=1npθ(x)
- 通过最大化L(θ)L(θ)求解模型参数的方法叫做最大似然法
dNLL(θ)L(θ)=∏θm(1−θ)nNLL(θ)=−mlogθ−nlog(1−θ)dNLL(θ)dθ=−mθ+n1−θ,可得θ=mm+n
如何做分类
-
线性回归:f(x)=wTx,y∈(−∞,+∞)f(x)=wTx,y∈(−∞,+∞)
-
二分类中,y∈−1,1y∈−1,1,用回归的方法做分类,在回归结果上添加映射函数H(f)H(f):
H(f)={+1,f>0−1,f≤0H(f)={+1,f>0−1,f≤0 -
HH的其他选择:
- H(f)=tanh(f)H(f)=tanh(f)
- H(f)=σ(f)=11+e−fH(f)=σ(f)=11+e−f
感知机、支持向量机和逻辑回归
- 线性可分训练集D=xi,yini=1,y∈{−1,1}D=xi,yii=1n,y∈{−1,1}
- 感知机:
- 找到一条直线,将两类数据分开即可
- 支持向量机:
- 找到一条直线,不仅将两类数据正确分类,还使得数据离直线尽量远
- 逻辑回归:
- 找到一条直线使得观察到的训练集的“可能性”最大
感知机
- f(x)=wTx,w=(w1,w2,...,wd,w0)Tf(x)=wTx,w=(w1,w2,...,wd,w0)T为系数,模型为
y=H(f(x))={+1,wTx>0−1,wTx≤0y=H(f(x))={+1,wTx>0−1,wTx≤0
- 决策超平面为:wTx=0wTx=0
- 线性可分训练集D=(x1,y1),...,(xn,yn)D=(x1,y1),...,(xn,yn),点(xi,yi)(xi,yi)到决策超平面的距离为
di=|wTxi|||w||2=yiwTxi||w||2→yiwTxi不妨令||w||2=1di=|wTxi|||w||2=yiwTxi||w||2→yiwTxi不妨令||w||2=1
- 优化目标:误分类样本离超平面距离之和最小
感知机算法
- 输入:训练数据X,yX,y,学习率ηη,迭代步数TT
- 初始化参数W(0)W(0)
- fort=1,...,Tfort=1,...,T
- 找出误分类样本集合MM;
- 从MM中随机采样一个样本ii
- 更新参数w(t+1)←w(t)+ηtyixiw(t+1)←w(t)+ηtyixi
- 输出ww
支持向量机
-
线性可分训练集D=(x1,y1),..,(xn,yn),点(xi,yi)D=(x1,y1),..,(xn,yn),点(xi,yi)到决策超平面的距离为di=yiwTxi||w||2di=yiwTxi||w||2
-
间隔:训练集中离超平面最小距离miniyiwTxi||w||2miniyiwTxi||w||2
-
间隔最大化
maxwminiyiwTxi||w||2⇔maxw1||w||2miniyiwTximaxwminiyiwTxi||w||2⇔maxw1||w||2miniyiwTxi
- 不妨令miniyiwTxi=1miniyiwTxi=1,则上述目标等价于
maxw1||w||2⇔minw12||w||22maxw1||w||2⇔minw12||w||22
- 非线性:核技巧,映射trick,将数据点从2维空间映射到3维空间,使得数据线性可分
逻辑回归
- f(x)=wTx,w=(w1,w2,...,wd,w0)Tf(x)=wTx,w=(w1,w2,...,wd,w0)T为系数
- 训练集D={xi,yi}ni=1,y∈{−1,1}D={xi,yi}i=1n,y∈{−1,1},概率解释:
- p(y=1|x)=11+e−wTxp(y=1|x)=11+e−wTx
- p(y=−1|x)=1−p(y=1|x)=11+e−wTxp(y=−1|x)=1−p(y=1|x)=11+e−wTx
- 考虑到y∈{−1,1}y∈{−1,1},则样本(xi,yi)(xi,yi)概率为:
p(yi|xi)=11+e−yiwTxi