深度学习-神经网络原理2

神经网络的原理

对于一个神经网络我们可以分为输入层，隐藏层，输出层，对于神经网络的训练可以分为正向传播和反向传播。这里对神经网络不同层次的数据表示进行约定。这里我们以一个二层的神经网络模型进行演示。
在这里我们将A0定义为输入层数据，将A1定义为隐藏层数据，最后的A2定义为输出层数据。这A0时输入的矩阵通常为（m，n）m为特征个数，n为样本个数。对于L层，AL层为a个元素，L-1层有b
个,这里我们就可以直到WL为形状（a，b）的矩阵，bL为（1，b)的矩阵，输入的AL-1为（b，n)的矩阵，得到ZL和AL为（a,n)的矩阵。

向前传播

向前传播比较简单，主要就是和上面图片一样，每一层可以看作一个单独的逻辑回归，只不过一层的激活函数可能不同，通常使用的是Relu或者tanh函数作为激活函数。

\begin{matrix} (1) & R e l u (x) = {\begin{cases} 0, x \leq 0 \\ x, x > 0 \end{cases} \end{matrix}

t a n h (x) = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}}

具体的计算过程如下：

Z^{[i]} = W^{[i]} A^{[i - 1]} + b^{[i]}

A^{[i]} = σ (Z^{[i]})

Z^{[i + 1]} = W^{[i + 1]} A^{[i]} + b^{[i + 1]}

A^{[i + 1]} = σ (Z^{[i +!]})

反向传播

反向传播的本质是依据链式发展对每一层都求出w和b的偏导数，只用进行一个变量修改，实现对代价函数的一个求极值过程。假设该神经网络有L层，最后一层的激活函数为：

A^{[L]} = s i g m o d (z) = \frac{1}{1 + e^{- z}}

对于代价函数可以求得为：

J (W, b) = - \frac{1}{m} \sum_{1}^{m} [y^{i} l o g (A^{L i}) + (1 - y) l o g (1 - A^{L i})]

所以对于最后一层我们可以计算得到：

\frac{d J}{d A^{L}} = - \frac{1}{m} [\frac{Y}{A^{L}} - - \frac{1 - Y}{1 - A^{L}}]

这里计算的是矩阵除法，得到的对应的一个矩阵。
之后计算关于的一个方向倒数，假设激活函数为σ(z)

\frac{d J}{d Z^{L}} = \frac{d J}{d A^{L}} σ^{‘} (σ^{‘} 是 激 活 函 数 z 点 的 导 数 值)

$已知 Z^{L} = W^{L} A^{[L - 1]} + b$ 所以可以依据链式法则求出 $\frac{d J}{d W^{L}}$ 和 $\frac{d J}{d b^{L}}$ ：

\frac{d J}{d W^{L}} = \frac{d J}{d Z^{L}} \cdot \frac{d Z^{L}}{d W^{L}} = \frac{d J}{d Z^{L}} \cdot A^{L - 1}

\frac{d J}{d b^{L}} = \frac{d J}{d Z^{L}}

依据链式法则还可以求出：

\frac{d J}{d A^{L - 1}} = \frac{d J}{d Z^{L}} \cdot W^{L}

之后进行循环，获取每一层对应的w和b的梯度，用于进行一个数据的更新。
对于反向传播的具体流程大致就是上面公式所示，具体可以能符号有些错误但思想是这样的。

posted @ 2022-08-08 21:12 black-world 阅读(482) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 深度学习-神经网络原理1

· 神经网络学习-正则化4

· 神经网络入门篇之深层神经网络：详解前向传播和反向传播（Forward and backward propagation）

· 神经网络数学原理（1）前向传播

· 神经网络_2

公告

昵称： black-world
园龄： 3年1个月
粉丝： 5
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

blackworld-sp

深度学习-神经网络原理2

神经网络的原理

向前传播

反向传播

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

相册

阅读排行榜

推荐排行榜