9-神经网络的学习机制

文章目录

一、损失函数

均方误差

$\frac{1}{2} \sum_k(y_k - t_k)^2$

$y_k$ : 表示神经网络的输出数据
$t_k$ ：神经网络的监测数据
k：表示数据维度

交叉熵误差

$-\sum_k t_k log (y_k)$

log 为以 e 为底的对数
$y_k$ : 表示神经网络的输出数据
$t_k$ 为监测数据

当 $t_k$ 为 one_hot 表示（即正确解用1表示，其余均用0表示），例如：
```
y = [0.02, 0.04, 0.13, 0.03, 0.15, 0.14, 0.20,0.11,0.02,0.16]
t = [0,0,1,0,0,0,0,0,0,0]
```
则表示第2个（从0开始）输出是正确的y = 0.13是正确的

很容易看出，只有当 $t_k$ 不为0时， $t_k log(y_k)$ 才不会为0，也就是说，实际上，假设 $y_0$ 为正确解，则:

$E = -log(y_0)$

当 $t_k$ 不是 one_hot 表示，而是用标签（指明输出的正确解是第几个）表示，例如：
```
y = [0.02, 0.04, 0.13, 0.03, 0.15, 0.14, 0.20,0.11,0.02,0.16]
t = 2
```
表示第2个（从0开始）输出y = 0.13是正确的，所以就可以利用公式 $E = -log(y_0)$ 来求交叉熵。

因此， $t_k$ 是否采用 one_hot 表示，都用同一个公式。只不过，如果是用one_hot表示的话，只需要直接 tlog(y) 就可以计算出 $log(y_0)$ ，而不使用 one_hot表示的话，就需要自己根据标签来把正确解 $y_0$ 找出来。

二、数值微分

导数

定义式
$\frac{df(x)}{dx} = \lim_{h\rightarrow0} \frac{f(x+h)-f(x)}{h}$
表示函数 $f (x)$ 在x处的斜率
为了减小计算误差，常使用下面的式子计算：
$\frac{df(x)}{dx} = \lim_{h\rightarrow0} \frac{f(x+h)-f(x-h)}{2h}$

偏导数

定义式：
$\frac{\partial f}{\partial x} = \lim_{\Delta x\rightarrow0} \frac{f(x+\Delta x,y)-f(x,y)}{x}$

$\frac{\partial f}{\partial y} = \lim_{\Delta y\rightarrow0} \frac{f(x,y+\Delta y)-f(x,y)}{x}$

第一条式子表示函数在点（x，y）处沿 x方向的斜率；

第二条式子表示函数在点（x，y）处沿 y方向的斜率。

梯度

表达式：
$(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$
表示一个向量，该向量的方向指向函数增加最快的方向。

神经网络中一般使用负梯度，因为要计算损失函数的最小值。

梯度法

分为梯度下降法（寻找最小值）和梯度上升法(寻找最大值)

执行梯度(下降)法寻找最优参数的过程：首先初始化参数当前值，然后求出函数在当前位置的梯度，之后前进一段位置，继续求梯度，继续前进……如此循环下去，知道寻找到最小值。

公式：
$\begin{cases}x_0 = x_0-\eta \frac{\partial f}{\partial x_0}\\\\x_1 = x_1-\eta \frac{\partial f}{\partial x_1}\end{cases}$
$\eta$ 为学习率，表示参数更新的速率，它的值不能过大，否则越过了最小值都不知道；也不能过小，否则需要耗时过长。

posted @ 2020-07-24 22:35 aJream 阅读(26) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

aJream