机器学习算法--logistic回归

logitic回归其实是用来做分类的，既然是做做分类的，那就以吴恩达课程中提到的肿瘤是良性的还是恶性的。

而且，，所以，想到了sigmoid 函数

sigmoid函数

则，，下面分析如何找到我们的模型，是事件发生的概率，从概率论角度出发，这是一个0-1分布问题，，则

，所以，联合概率密度为（这里认为，m个样本是独立同分布的），利用最大似然估计求极值

，这样，我们就可以利用梯度下降法得到的学习规律，比较和线性回归，它们的学习形式是一样的

，但实质是不同的，线性回归的模型用的就是多项式拟合，而logistic回归用的是sigmoid函数。

logistic回归的损失函数就是，，具体推导过程可参考吴恩达机器学习笔记，当然，具体数学知识可以查看概率论相关知识。

多分类问题

上面讨论的是二分类，那么多分类呢？多分类问题，可以分解为多个二分类问题。例如

上面是一个三分类，分解为三个二分类问题，按照上面步骤来看，首先将样本分为两类，是否是绿色三角，这样就将绿色三角从样本中分出，再将不是的判断是否是蓝色方框，依次类推

softmax回归

上面将多分类问题转化为为二分类问题，如果是k分类，就要转化为K个二分类，是比较繁杂的一个工程，softmax分类是做了一个指数转化的思想，如果不理解指数转化的思想，可以这样思考这样一个例子，有苹果、梨、香蕉三种水果，每种水果的数量分别为x1,x2,x3,每一种水果的数量在总数所占的比例是x1/(x1+x2+x3),x2/(x1+x2+x3),x3/(x1+x2+x3),，这样，取值又落在了0,1之间了，可以理解为softmax regression就是利用了这种思想，不同的对样本取了e的指数结果，这样将K分类问题理解为两点分布变K点分布，这样，在K分类问题中，某个样本属于第j类的概率就是，似然函数就是：，对数似然函数就是，目标函数（损失函数）就是对数似然函数的负梯度方向，要求损失函数的最小，也即是对数似然函数的最大。，为了防止过拟合，也可以像liner regression 那样加入正则项。

以上就是回归的主要问题。吴恩达课程中还讲到了AUC，听好理解的，感兴趣的可以看下

相关的实践问题，我会放到GitHub上。

另外，我发现自己的排版不好看，公式在文中显示显得杂乱，我用mathtyoe编辑的公式，但是博客园的博客不支持那种格式的，我只好保存成mathtype中唯一在博客园中支持的图片格式.gif，关于公式，希望看到的给些建议，也改善大家的阅读体验。

参考：

https://blog.csdn.net/xbinworld/article/details/45291009

吴恩达机器学习笔记

posted @ 2018-03-26 11:33 Holly_U 阅读(274) 评论(0) 收藏举报

刷新页面返回顶部