第二周、神经网络基础

2.1、二分分类

　　在计算机中保存一张图片，需要保存三个独立矩阵，分别对应图片中的红、绿、蓝三个颜色通道。如果输入图片是64x64像素的，就有三个64x64的矩阵，分别对应图片中的红、绿、蓝三种像素的亮度。要把这些像素亮度值（按红、绿、蓝顺序）放进一个特征向量x中，如果图片是64x64的，那么向量x的总维度是n_x=64x64x3=12288。

logistic回归是一个用于二分分类的算法。在二分分类问题中，目标是训练出一个分类器：它以图片的特征向量x作为输入，预测输出的结果标签是1还是0。

　　构建神经网络时，以x作为列向量，然后把（m个）训练样本（x⁽¹⁾，x(^₂₎，，,，x^_(m)）作为列向量进行堆叠，组成矩阵X（n_xxm矩阵，在python中为x.shape=(n_x,m)），会让构建过程简单得多。

　　而输出标签y也是将y标签放到列中，Y=[y⁽¹⁾，y⁽²⁾，，，，y^(m)]，Y是一个1xm矩阵（Y.shape=(1,m)）。

2.2、logistic回归（regression）

logistics回归输出的参数（parameters）：

　　　　　　　　　　　　　　　　　𝑦̂=𝜎(𝑤^𝑇𝑥+𝑏)

其中：x是n_x维的向量，参数w和b，w（权重weight）也是n_x维的向量，b是实数，𝑦̂（y hat）是输出。sigmoid函数使输出𝑦̂介于0和1之间。

由图可知：

　　1.当z是一个很大的正数时，𝜎(𝑧) = 1；

　　2.当z是一个很小的数或很大的负数时，𝜎(𝑧) = 0；

　　3.当z为0时，𝜎(𝑧) = 0.5。

2.3、logistic 回归损失函数（logistic regression loss(error) function）

损失函数（loss function），又叫误差函数（error function）：可以用来衡量算法的运行情况。

　　定义为：𝑦̂和y的差的平方或者𝑦̂和y差的平方的1/2，即L(𝑦̂，y)=(1/2)(𝑦̂-y)²。但是在 logistic回归中并不这么做。因为你会发现之后讨论的优化问题会变成非凸的，最后会得到很多个局部最优解，梯度下降法可能找不到全局最优值。

　　所以在logistic回归中会定义一个不同的损失函数，它起着与误差平方相似的作用，会给我们一个凸的优化问题，这样就很容易去做优化：

　　　　L(𝑦̂,y) = -(ylog𝑦̂+(1-y)log(1-𝑦̂))

　　　　当y=1时，L(𝑦̂,y) = -log𝑦̂，想要让损失函数（带负号）小，那么log𝑦̂就要大，即𝑦̂尽可能大，由上面的公式知𝑦̂最大是1。

　　　　当y=0时，L(𝑦̂,y) = -log(1-𝑦̂)，想要让损失函数（带负号）小，那么log(1-𝑦̂)就要大，即𝑦̂尽可能小，由上面的公式知𝑦̂最小是0。

损失函数是在单个训练样本中定义的，它衡量了在单个训练样本上的表现。

成本函数(logistic regression cost function)：它衡量的是在全体训练样本上的表现。成本函数衡量了参数w和b在训练集上的效果。

即所有训练样本的损失函数和。所以在训练logistic回归模型时，我们要找到合适的参数w和b使成本函数J尽可能小。

2.4、梯度下降法（gradient descent）

我们想找到使得成本函数J(w,b)尽可能小的w和b。来看看梯度下降法：

　　这个图中的横轴表示空间参数w和b，在实践中，w可以是更高维的，但是为了绘图方便，我们让w是一个实数，b也是一个实数。成本函数J(w,b)是在水平轴w和b上的曲面，曲面的高度表示了J(w,b)在某一点的值。我们所想要做的就是找到这样的w和b使其对应的成本函数J值是最小值。可以看到成本函数J是一个凸函数，凸函数这性质是我们使用logistic回归的这个特定成本函数J的重要原因之一。

　　为了找到更好地参数值，我们要做的就是用某初始值初始化w和b，用小红点表示。对于logistic回归而言，几乎是任意的初始化方法都有效，通常用0来初始化。但是对于logistic回归，我们通常不这么做，但因为函数是凸的，无论从哪里初始化，都应该到达同一点或大致相同的点。

　　梯度下降法所做的就是从初始点开始朝最陡的下坡方向走一步，在梯度下降一步后，或许在那里停下来，因为它正试图沿着最快下降的方法往下走，这是梯度下降的一次迭代。一直迭代到（或接近）全局最优解那里。

为了方便画，先忽略掉b。仅仅是用一维曲线来代替多维曲线。梯度下降法将重复执行以下更新操作：更新w的值

　　使用:=表示更新w，即w:=w - αdJ(w)/dw，α表示学习率（学习率可以控制每一次迭代或者梯度下降法中的步长），dJ(w)/dw是导数，这是对参数w的更新或者变化量。代码中这样写w:=w-αdw。假设w点在右边，导数是函数在这个点的斜率（高除以宽），右边的导数是正的，新的w值等于w自身减去学习率乘导数，由于导数是正的，即从w中减去这个乘积，则点向左走一步。同理，如果w点在左边，新的w值则是w自身减去学习率乘以导数，由于导数是负的，即从w中加上这个乘积，则点向右走一步。

　　无论你初始化的位置在哪里（左边还是右边），梯度下降法会朝着全局最小值方向移动。

　　在logistic回归中，你的成本函数是一个含有w和b的函数，这时通过w:=w - αdJ(w)/dw来更新w，通过b:=b - αdJ(b)/db来更新b，实际上由于有两个参数，应该用偏导数符号。

posted @ 2020-07-28 11:48 木芯子阅读(326) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

木芯子

第二周、神经网络基础

2.1、二分分类

2.2、logistic回归（regression）

2.3、logistic 回归损失函数（logistic regression loss(error) function）

2.4、梯度下降法（gradient descent）

公告