神经网络基础篇:逻辑回归

逻辑回归(Logistic Regression)

对于二元分类问题来讲,给定一个输入特征向量X,它可能对应一张图片,想识别这张图片识别看它是否是一只猫或者不是一只猫的图片,想要一个算法能够输出预测,只能称之为y^,也就是对实际值 y 的估计。更正式地来说,想让 y^ 表示 y 等于1的一种可能性或者是机会,前提条件是给定了输入特征X。换句话来说,如果X是上篇博客的图片,想让 y^ 来告诉这是一只猫的图片的机率有多大。在之前博客中所说的,X是一个nx维的向量(相当于有nx个特征的特征向量)。用w来表示逻辑回归的参数,这也是一个nx维向量(因为w实际上是特征权重,维度与特征向量相同),参数里面还有b,这是一个实数(表示偏差)。所以给出输入x以及参数wb之后,怎样产生输出预测值y^,一件可以尝试却不可行的事是让y^=wTx+b

这时候得到的是一个关于输入x的线性函数,实际上这是在做线性回归时所用到的,但是这对于二元分类问题来讲不是一个非常好的算法,因为想让y^表示实际值y等于1的机率的话,y^ 应该在0到1之间。这是一个需要解决的问题,因为wTx+b可能比1要大得多,或者甚至为一个负值。对于想要的在0和1之间的概率来说它是没有意义的,因此在逻辑回归中,输出应该是y^等于由上面得到的线性函数式子作为自变量的sigmoid函数中,公式如上图最下面所示,将线性函数转换为非线性函数。

下图是sigmoid函数的图像,如果我把水平轴作为z轴,那么关于zsigmoid函数是这样的,它是平滑地从0走向1,让我在这里标记纵轴,这是0,曲线与纵轴相交的截距是0.5,这就是关于zsigmoid函数的图像。通常都使用z来表示wTx+b的值。

关于sigmoid函数的公式是这样的,σ(z)=11+ez,在这里z是一个实数,这里要说明一些要注意的事情,如果z非常大那么ez将会接近于0,关于zsigmoid函数将会近似等于1除以1加上某个非常接近于0的项,因为e 的指数如果是个绝对值很大的负数的话,这项将会接近于0,所以如果z很大的话那么关于zsigmoid函数会非常接近1。相反地,如果z非常小或者说是一个绝对值很大的负数,那么关于ez这项会变成一个很大的数,可以认为这是1除以1加上一个非常非常大的数,所以这个就接近于0。实际上看到当z变成一个绝对值很大的负数,关于zsigmoid函数就会非常接近于0,因此当实现逻辑回归时,的工作就是去让机器学习参数w以及b这样才使得y^成为对y=1这一情况的概率的一个很好的估计。

在继续进行下一步之前,介绍一种符号惯例,可以让参数w和参数b分开。在符号上要注意的一点是当对神经网络进行编程时经常会让参数w和参数b分开,在这里参数b对应的是一种偏置。在机器学习里也有处理这个问题时的其他符号表示。比如在某些例子里,定义一个额外的特征称之为x0,并且使它等于1,那么现在X就是一个nx加1维的变量,然后定义y^=σ(θTx)sigmoid函数。在这个备选的符号惯例里,有一个参数向量θ0,θ1,θ2,...,θnx,这样θ0就充当了b,这是一个实数,而剩下的θ1 直到θnx充当了w,结果就是当实现的神经网络时,有一个比较简单的方法是保持bw分开。但是在我写的博客中不会使用任何这类符号惯例,所以不用担心。
现在已经知道逻辑回归模型是什么样子了,下一步要做的是训练参数w和参数b,需要定义一个代价函数。

逻辑回归的代价函数(Logistic Regression Cost Function)

为什么需要代价函数:

为了训练逻辑回归模型的参数参数w和参数b,需要一个代价函数,通过训练代价函数来得到参数w和参数b。先看一下逻辑回归的输出函数:

为了让模型通过学习调整参数,需要给予一个m样本的训练集,这会让在训练集上找到参数w和参数b,,来得到的输出。

对训练集的预测值,将它写成y^,更希望它会接近于训练集中的y值,为了对上面的公式更详细的介绍,需要说明上面的定义是对一个训练样本来说的,这种形式也使用于每个训练样本,使用这些带有圆括号的上标来区分索引和样本,训练样本i所对应的预测值是y(i),是用训练样本的wTx(i)+b然后通过sigmoid函数来得到,也可以把z定义为z(i)=wTx(i)+b,将使用这个符号(i)注解,上标(i)来指明数据表示x或者y或者z或者其他数据的第i个训练样本,这就是上标(i)的含义。

损失函数:

损失函数又叫做误差函数,用来衡量算法的运行情况,Loss function:L(y^,y).

通过这个L称为的损失函数,来衡量预测输出值和实际值有多接近。一般用预测值和实际值的平方差或者它们平方差的一半,但是通常在逻辑回归中不这么做,因为当在学习逻辑回归参数的时候,会发现的优化目标不是凸优化,只能找到多个局部最优值,梯度下降法很可能找不到全局最优值,虽然平方差是一个不错的损失函数,但是在逻辑回归模型中会定义另外一个损失函数。

在逻辑回归中用到的损失函数是:L(y^,y)=ylog(y^)(1y)log(1y^)

为什么要用这个函数作为逻辑损失函数?当使用平方误差作为损失函数的时候,会想要让这个误差尽可能地小,对于这个逻辑回归损失函数,也想让它尽可能地小,为了更好地理解这个损失函数怎么起作用,举两个例子:

y=1时损失函数L=log(y^),如果想要损失函数L尽可能得小,那么y^就要尽可能大,因为sigmoid函数取值[0,1],所以y^会无限接近于1。

y=0时损失函数L=log(1y^),如果想要损失函数L尽可能得小,那么y^就要尽可能小,因为sigmoid函数取值[0,1],所以y^会无限接近于0。

有很多的函数效果和现在这个类似,就是如果y等于1,就尽可能让y^变大,如果y等于0,就尽可能让 y^ 变小。
损失函数是在单个训练样本中定义的,它衡量的是算法在单个训练样本中表现如何,为了衡量算法在全部训练样本上的表现如何,需要定义一个算法的代价函数,算法的代价函数是对m个样本的损失函数求和然后除以m:
J(w,b)=1mi=1mL(y^(i),y(i))=1mi=1m(y(i)logy^(i)(1y(i))log(1y^(i)))
损失函数只适用于像这样的单个训练样本,而代价函数是参数的总代价,所以在训练逻辑回归模型时候,需要找到合适的wb,来让代价函数 J 的总代价降到最低。
根据对逻辑回归算法的推导及对单个样本的损失函数的推导和针对算法所选用参数的总代价函数的推导,结果表明逻辑回归可以看做是一个非常小的神经网络。

posted @   Oten  阅读(146)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示