logistic回归算法的损失函数:binary_crossentropy(二元交叉熵)
假设函数:
更为一般的表达式:
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202223503819-1244308902.png)
似然函数:
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202223546796-1053037698.png)
对数似然函数:
如果以上式作为目标函数,就需要最大化对数似然函数,我们这里选择最小化负的对数似然函数
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202223650593-1657639961.png)
对J(w)求极小值,对
求导
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202223730210-934478737.png)
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202223754649-626595777.png)
上述中
表示第i个样本的第j个属性的取值。
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202223822630-1750704114.png)
于是
的更新方式为:
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202223900746-1321872325.png)
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202223919861-1550086547.png)
将(5)式带入(4)式,得:
梯度下降GD
的更新方式,使用全部样本:
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202224002017-79032885.png)
当样本不多的时候,可以选择这个方法
随机梯度下降:
每次只取一个样本,则![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202224046467-1346072818.png)
的更新方式:
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202224046467-1346072818.png)
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202224125049-1809285977.png)
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202224147699-395508924.png)
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202224210650-919208237.png)
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202224228125-1797037729.png)
随机平均梯度下降法(sag,Stochasitc Average Gradient ):
该算法是选取一小部分样本梯度的平均值来更新权重(其中n<m,m为样本数)
![](https://img2018.cnblogs.com/blog/1538021/201812/1538021-20181202224243948-596124561.png)
SGD和GD算法的折中
小结:
在尝试写一些机器学习相关的笔记,先写下一篇,欢迎讨论~