机器学习算法--logistic回归

logitic回归其实是用来做分类的,既然是做做分类的,那就以吴恩达课程中提到的肿瘤是良性的还是恶性的

   而且,,所以,想到了sigmoid 函数

 sigmoid函数

 

则,,下面分析如何找到我们的模型,是事件发生的概率,从概率论角度出发,这是一个0-1分布问题,,则

,所以,联合概率密度为(这里认为,m个样本是独立同分布的),利用最大似然估计求极值

,这样,我们就可以利用梯度下降法得到的学习规律,比较和线性回归,它们的学习形式是一样的

,但实质是不同的,线性回归的模型用的就是多项式拟合,而logistic回归用的是sigmoid函数。

logistic回归的损失函数就是,具体推导过程可参考吴恩达机器学习笔记,当然,具体数学知识可以查看概率论相关知识。

多分类问题

上面讨论的是二分类,那么多分类呢?多分类问题,可以分解为多个二分类问题。例如

 上面是一个三分类,分解为三个二分类问题,按照上面步骤来看,首先将样本分为两类,是否是绿色三角,这样就将绿色三角从样本中分出,再将不是的判断是否是蓝色方框,依次类推

softmax回归

上面将多分类问题转化为为二分类问题,如果是k分类,就要转化为K个二分类,是比较繁杂的一个工程,softmax分类是做了一个指数转化的思想,如果不理解指数转化的思想,可以这样思考这样一个例子,有苹果、梨、香蕉三种水果,每种水果的数量分别为x1,x2,x3,每一种水果的数量在总数所占的比例是x1/(x1+x2+x3),x2/(x1+x2+x3),x3/(x1+x2+x3),,这样,取值又落在了0,1之间了,可以理解为softmax regression就是利用了这种思想,不同的对样本取了e的指数结果,这样将K分类问题理解为两点分布变K点分布,这样,在K分类问题中,某个样本属于第j类的概率就是,似然函数就是:,对数似然函数就是,目标函数(损失函数)就是对数似然函数的负梯度方向,要求损失函数的最小,也即是对数似然函数的最大。,为了防止过拟合,也可以像liner regression 那样加入正则项。

以上就是回归的主要问题。吴恩达课程中还讲到了AUC,听好理解的,感兴趣的可以看下

相关的实践问题,我会放到GitHub上。

另外,我发现自己的排版不好看,公式在文中显示显得杂乱,我用mathtyoe编辑的公式,但是博客园的博客不支持那种格式的,我只好保存成mathtype中唯一在博客园中支持的图片格式.gif,关于公式,希望看到的给些建议,也改善大家的阅读体验。

参考:

https://blog.csdn.net/xbinworld/article/details/45291009

吴恩达机器学习笔记

 

posted @ 2018-03-26 11:33  Holly_U  阅读(274)  评论(0)    收藏  举报