神经网络数学原理（2）反向传播

在上一节【神经网络数学原理（1）前向传播】中已经描述过神经网络结构和输入层到输出层的基本数学原理，本章主要讲述如何通过反向传播来优化权重的过程和数学原理。神经网络通过一系列的计算（前向传播）和优化过程（反向传播）来调整网络中每一层的权重，直到网络能够最小化预测值与实际值之间的误差（通常通过某种损失函数来衡量误差）。

以下是一个简单的过程：

前向传播（Forward Propagation）：输入数据通过神经网络的各层进行传递，经过每层的加权求和和激活函数处理，输出一个预测结果。
损失计算（Loss Calculation）：将神经网络的预测结果与实际结果（标签）进行对比，计算出损失值。损失函数通常是均方误差（MSE）、交叉熵等，用于衡量模型预测的准确性。
反向传播（Backpropagation）：通过梯度下降法或其他优化算法，反向传播损失，计算每一层的梯度，并根据梯度调整各层的权重。
权重更新（Weight Update）：使用优化算法（如SGD、Adam等）根据梯度信息更新网络的权重，从而减少损失。

通过多次迭代（epoch），网络的权重逐渐调整到一个使得预测结果尽可能接近目标函数的状态，从而实现拟合目标函数的目的。

如果目标函数是假设我们有一个简单的神经网络（例如一个具有单层隐藏层的多层感知机），我们可以通过以下步骤来进行拟合：

1. 定义目标函数

我们要拟合的目标函数是

2. 设计神经网络结构

可以选择一个简单的神经网络，例如一个含有输入层、一个或多个隐藏层和输出层的全连接网络。假设输入为

输入层：接受单一的
隐藏层：可以有一个或多个神经元（为了能拟合复杂的非线性关系，可以使用非线性激活函数如 Leaky ReLU 或 Sigmoid）。
输出层：输出一个标量值

3. 损失函数

损失函数通常采用均方误差（MSE）来衡量预测值与真实值之间的差距：

其中

4. 反向传播与权重更新

通过前向传播计算网络的输出（预测值）。
通过损失函数计算损失值。
使用反向传播算法计算梯度（相对于网络参数的梯度）。
根据梯度更新网络中的权重，常用优化算法如梯度下降或Adam来调整权重。

5. 训练过程

通过多次迭代（多个epoch），每次根据训练数据输入

6. 结果

最终，经过足够的训练，神经网络会学到一个近似的关系，输出

1. 初始化神经网络

首先，我们假设有一个非常简单的神经网络，结构如下：

输入层：1个神经元（接收
隐藏层：2个神经元（使用 ReLU 激活函数）
输出层：1个神经元（输出

在训练开始时，网络中的权重和偏置是随机初始化的，或者采用某种默认值。假设初始化的权重和偏置如下：

输入层到隐藏层的权重
隐藏层到输出层的权重

2. 选择一个训练样本

假设我们选择一个简单的训练样本

3. 前向传播

步骤：

输入

经过 ReLU 激活函数：
计算输出层的输出：

输出值为：

求导过程

对 W2 的求导

对 a1 的求导

对 b2 的求导

4. 计算损失函数

使用最小二乘来表示损失函数：

5. 反向传播

反向传播的目标是计算损失函数相对于各个参数（权重和偏置）的梯度，并使用这些梯度来更新权重。

(1) 计算输出层的梯度

首先，计算输出层的梯度：

为了得到

首先对外部的

因此，最终的导数是：

然后，计算输出层的梯度对权重

(2) 计算隐藏层的梯度

接下来，计算隐藏层的梯度。为了计算隐藏层的梯度，我们需要利用链式法则：

由于使用的是 ReLU 激活函数，我们还需要考虑 ReLU 的梯度（对正输入值的梯度为 1，对负值的梯度为 0）：

然后计算隐藏层权重和偏置的梯度：

6. 更新权重

使用梯度下降法更新权重和偏置。假设学习率

更新输出层的权重和偏置：
更新隐藏层的权重和偏置：

7. 重复训练

这个过程会持续进行多个 epoch，每次使用不同的训练样本计算前向传播、损失、反向传播并更新权重，直到网络的输出趋于目标结果

通过迭代，反向传播不断优化权重，已经可以实现在-10，10之间最y=x²目标函数进行拟合。但是有些时候在训练过程中也会发生一些情况，导致最后预测函数是一条直线或者前半段和目标函数相近，但是后半段和目标函数差异过大。在训练过程中有时损失值在降低到一个数值之后无法下降。下面给出一些异常情况得最终预测函数得图像

使用权重过小作为默认权重和偏置

如果初始化的权重值过小，网络在训练时可能会因为激活函数（如ReLU）的饱和区域，导致梯度过小，进而无法进行有效的权重更新。这可能导致输出在某一阶段变成接近零的直线。

使用权重过大作为默认权重和偏置

初始化的权重和偏置过大，导致在前向传播和反向传播时激活函数的输入非常大，导致梯度爆炸或梯度消失，使得网络无法有效学习如果使用的是 Sigmoid 或 Tanh 激活函数，输入过大也会导致函数的输出接近饱和区间（1 或 0 或 -1），梯度消失，导致网络无法更新权重，使得网络学习无效如果使用的是 ReLU 或 Leaky ReLU，这些激活函数在输入非常大时可能会饱和，导致网络无法更新权重，最终结果趋向于一个平坦的直线。如果权重和偏置值过大，神经网络的输出会失去多样性，特别是在隐藏层中，所有神经元的输出可能趋向于相同的值，导致网络无法学习到数据的多样性，从而只拟合出直线

附上测试代码

import numpy as np
import matplotlib.pyplot as plt

# 创建训练数据：x 和 y = x^2
x_train = np.linspace(-10, 10, 1000)  # 从 -10 到 10 的输入数据
y_train = x_train ** 2  # 目标输出是 x^2

# 神经网络参数初始化
input_size = 1  # 输入维度
hidden_size = 2  # 隐藏层神经元数量
output_size = 1  # 输出维度

# 随机初始化权重和偏置
W1 = np.random.randn(input_size, hidden_size)  # 输入到隐藏层的权重
b1 = np.random.randn(hidden_size)  # 隐藏层的偏置
W2 = np.random.randn(hidden_size, output_size)  # 隐藏层到输出层的权重
b2 = np.random.randn(output_size)  # 输出层的偏置

'''
# 自定义初始化权重和偏置
W1 = np.array([[6.42274909, -7.18634491]])
b1 = np.array([-9.94528287, -8.49532411])
W2 = np.array([[2.4350969], [5.61910466]])
b2 = np.array([5.458968])
'''
'''
# 使用 He 初始化权重和偏置
# He 初始化：标准差 = sqrt(2 / n_in)
W1 = np.random.randn(input_size, hidden_size) * np.sqrt(2 / input_size)  # 输入到隐藏层的权重
b1 = np.zeros(hidden_size)  # 隐藏层的偏置（可以初始化为零）

W2 = np.random.randn(hidden_size, output_size) * np.sqrt(2 / hidden_size)  # 隐藏层到输出层的权重
b2 = np.zeros(output_size)  # 输出层的偏置（可以初始化为零）
'''
'''
# 使用权重过小作为默认权重和偏置
# 如果初始化的权重值过小，网络在训练时可能会因为激活函数（如ReLU）的饱和区域，导致梯度过小，
# 进而无法进行有效的权重更新。这可能导致输出在某一阶段变成接近零的直线。
W1 = np.array([[-0.05841218, 0.0023438 ]])
b1 = np.array([-0.86497728, -0.107745  ])
W2 = np.array([[-0.88703299], [-0.27043475]])
b2 = np.array([33.39188819])
'''

'''
# 使用权重过大作为默认权重和偏置
# 初始化的权重和偏置过大，导致在前向传播和反向传播时激活函数的输入非常大，导致梯度爆炸或梯度消失，使得网络无法有效学习
# 如果使用的是 ReLU 或 Leaky ReLU，这些激活函数在输入非常大时可能会饱和，导致网络无法更新权重，最终结果趋向于一个平坦的直线。
# 如果使用的是 Sigmoid 或 Tanh 激活函数，输入过大也会导致函数的输出接近饱和区间（1 或 0 或 -1），使得网络学习无效
# 如果权重和偏置值过大，神经网络的输出会失去多样性，特别是在隐藏层中，所有神经元的输出可能趋向于相同的值，导致网络无法学习到数据的多样性，从而只拟合出直线
'''
'''
# 这是一个合适的权默认权重
W1 = np.array([[2.01811193, -1.96353533]])
b1 = np.array([-6.5184546, -6.34224452])
W2 = np.array([[6.61051412], [6.79430913]])
b2 = np.array([3.76652025])
'''

# 学习率
learning_rate = 0.0001  # 降低学习率

# 激活函数和它们的导数：Leaky ReLU
def leaky_relu(x, alpha=0.01):
    return np.where(x > 0, x, alpha * x)

def leaky_relu_derivative(x, alpha=0.01):
    return np.where(x > 0, 1, alpha)

# 选择激活函数
activation_function = leaky_relu
activation_function_derivative = leaky_relu_derivative

# 训练过程（使用梯度下降）
epochs = 60000
losses = []

# 训练前的预测
def predict(x):
    z1 = np.dot(x.reshape(-1, 1), W1) + b1  # 输入到隐藏层
    a1 = activation_function(z1)  # 隐藏层激活函数
    z2 = np.dot(a1, W2) + b2  # 隐藏层到输出层
    return z2

# 训练过程
for epoch in range(epochs):
    # 前向传播
    z1 = np.dot(x_train.reshape(-1, 1), W1) + b1  # 输入到隐藏层
    a1 = activation_function(z1)  # 隐藏层激活函数
    z2 = np.dot(a1, W2) + b2  # 隐藏层到输出层
    y_pred = z2  # 输出层的预测值

    # 计算损失（均方误差）
    loss = np.mean((y_pred - y_train.reshape(-1, 1)) ** 2)
    losses.append(loss)

    # 反向传播
    # 计算输出层的梯度
    d_loss_y_pred = 2 * (y_pred - y_train.reshape(-1, 1)) / y_train.shape[0]
    d_y_pred_z2 = 1
    d_loss_z2 = d_loss_y_pred * d_y_pred_z2

    # 输出层的梯度
    d_loss_W2 = np.dot(a1.T, d_loss_z2)
    d_loss_b2 = np.sum(d_loss_z2, axis=0)

    # 隐藏层的梯度
    d_z2_a1 = W2
    d_loss_a1 = d_loss_z2.dot(d_z2_a1.T)
    d_a1_z1 = activation_function_derivative(z1)
    d_loss_z1 = d_loss_a1 * d_a1_z1

    # 隐藏层的梯度
    d_loss_W1 = np.dot(x_train.reshape(-1, 1).T, d_loss_z1)
    d_loss_b1 = np.sum(d_loss_z1, axis=0)

    # 更新权重和偏置
    W1 -= learning_rate * d_loss_W1
    b1 -= learning_rate * d_loss_b1
    W2 -= learning_rate * d_loss_W2
    b2 -= learning_rate * d_loss_b2

    # 每1000次迭代输出一次损失
    if epoch % 1000 == 0:
        print(f'Epoch {epoch}, Loss: {loss}')

# 训练结束后的结果
print(f"Trained weights and biases:")
print("W1:", W1)
print("b1:", b1)
print("W2:", W2)
print("b2:", b2)

# 绘制损失曲线
plt.figure(figsize=(12, 6))

# 绘制损失函数图
plt.subplot(1, 2, 1)
plt.plot(losses)
plt.xlabel("Epochs")
plt.ylabel("Loss")
plt.title("Loss Curve")

# 绘制训练前和训练后的预测图
plt.subplot(1, 2, 2)
# 训练前的预测图
initial_pred = predict(x_train)
plt.plot(x_train, initial_pred, label="Initial Prediction (Random Weights)", color="red")
# 训练后的预测图
final_pred = predict(x_train)
plt.plot(x_train, final_pred, label="Final Prediction (Trained)", color="green")
# 真实函数图
plt.plot(x_train, y_train, label="True Function (y = x^2)", color="blue")
plt.title("Before vs After Training")
plt.xlabel("x")
plt.ylabel("y")
plt.legend()

plt.tight_layout()
plt.show()

View Code

深度神经网络在训练过程中，在若干迭代次后使损失向最小值缓慢收敛，但不能在有限得步数内非常精确地达到最小值。对于深度神经网络这样得复杂模型来说，损失平面上通常包含多个最小值。深度学习实践者很少会花费大力气去寻找一组参数来使损失达到最小值，事实上，更难做到是寻找一组参数使在未见过得数据上实现较小得损失，这一挑战称为“泛化”。

posted @ 2025-01-21 22:33 Hi同学阅读(278) 评论(0) 收藏举报

刷新页面返回顶部