Loading

神经网络学习

感知和学习

Rosenblatt Perceptron计算流程:

  1. 初始化:随机初始化权重 \(\mathbf{W}\) 和偏置 b 。

  2. 循环训练

    • 从训练集中随机选择一个样本$ (\mathbf{X}_i, y_i)$ 。
    • 检查分类结果是否正确:如果 $y_i \cdot (\mathbf{W} \cdot \mathbf{X}_i + b) \leq 0 \((分类错误),则更新权重和偏置:\)\mathbf{W} \leftarrow \mathbf{W} + \eta \cdot y_i \cdot \mathbf{X}_i\(;\)b \leftarrow b + \eta \cdot y_i$
    • 其中 \eta 是学习率。
  3. 停止条件:重复第 2 步,直到所有样本都被正确分类,或者达到最大迭代次数。

image-20241121163423458

image-20241121163432754

image-20241121164206093

逻辑回归的损失函数:\(\text{Loss}(w, b) = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log \left( \sigma(w \cdot X_i + b) \right) + (1 - y_i) \log \left( 1 - \sigma(w \cdot X_i + b) \right) \right]\)

梯度下降优化:

\[w := w - \eta \frac{\partial \text{Loss}}{\partial w} \\ b := b - \eta \frac{\partial \text{Loss}}{\partial b} \]

image-20241121182719437

image-20241121222102053

批量梯度下降BGD:
\(\theta \leftarrow \theta - \eta \cdot \frac{1}{N} \sum_{i=1}^N \nabla f_i(\theta)\)

随机梯度下降SGD:

\(\theta \leftarrow \theta - \eta \cdot \nabla f_i(\theta)\)

小批量梯度下降:

\(\theta \leftarrow \theta - \eta \cdot \frac{1}{m} \sum_{i=1}^m \nabla f_i(\theta)\)

动量优化MGD:累积历史梯度,减少振荡,加速收敛

\[v_t = \beta v_{t-1} + \nabla f(\theta_t) \\ \theta_t = \theta_t - \eta v_t \]

AdaGrad:动态调整每个参数的学习率

\[g_t = \nabla f(\theta_t) \\ G_t = G_{t-1} + g_t^2 \\ \theta_t = \theta_t - \frac{\eta}{\sqrt{G_t} + \epsilon} g_t \]

RMSprop:动态调整每个参数的学习率

image-20241122103716982

\[E[g^2]_t = \beta E[g^2]_{t-1} + (1 - \beta) g_t^2 \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E[g^2]_t} + \epsilon} g_t \]

Adam(Adaptive Moment Estimation):动量+动态调整每个参数的学习率

\[v_t = \beta_1 v_{t-1} + (1 - \beta_1) g_t \\ s_t = \beta_2 s_{t-1} + (1 - \beta_2) g_t^2 \\ \hat{v_t} = \frac{v_t}{1 - \beta_1^t}, \quad \hat{s_t} = \frac{s_t}{1 - \beta_2^t} \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v_t}} + \epsilon} \hat{v_t} \]

基本思路:

  • Trail Feedforward: \(y_p=f(wx+b)\)

  • Evaluate Loss Function: \(E = \frac{1}{2}(Y_A - Y_P)^2\), minimize GD

  • Analist Back-Progagation: new - old

    image-20241122144302504

卷积神经网络

基本概念

特点:

  • Image Processing
  • Feed-Forward & Back-Propagation
  • recongnize visual patten(the ordering and patterns)
  • Filter/Kernel:权重矩阵
  • End-To-End

拓扑结构:

  • C(Convolution Layer) : feature extraction

    • Kernel:Flatten:Local Connectivity Parameter Sharing
  • P(Pooling Layer): Subsampling 进一步减少结点大小

    • Max Pooling
    • Average Pooling
    • Normal Pooling
    • Log propability Pooling
  • 上面两层可以不断重复

  • Flatten:拉平,送进全连接神经网络

  • F(Fully-Connected Layer): classifier

Local Connectivity & Parameter Sharing

局部连接:一个卷积核在图像上Move Around

权重共享:卷积核同位置参数一致

  • Convulation Operation(Stride, Padding)
  • Kernel
  • Feature Map:\(FeatureMap_{size} = \left\lfloor \frac{Image_{size} + 2Padding - Kernel_{size}}{S} \right\rfloor + 1\)

image-20241122180457762

Pooling

image-20241122182211731

The number of channels is the number of filters

Feature Map:计算方法同卷积特征图计算方法

image-20241122194230081

计算:特征图大小,参数量

(图中池化阶段得到的特征图大小不准确,应该和卷积层阶段的计算方法一样)

(参数了计算不准确:9*25和25*9*50)

卷积神经网络模型

LeNet

image-20241122200204077

AlexNet

背景:大数据,超算

创新点:

  • Dropout:过拟合
  • Norm(归一化):LRN
  • ReLu激活函数:梯度消失

image-20241122205852822

image-20241122205916109

GoogleNet

创新点:

  • Inception结构:并行;1*1卷积核降维
    • 最左:保留初始信息
    • 中间两列:不同尺度的特征提取
    • 最右:池化提取
    • 合并:特征图层叠拼接
  • 辅助分类器
    • 及时反向传播
    • 决策融合

image-20241122214822235

参考链接

image-20241122213158839

image-20241122214754253

ResNet

残差(短路):保留原始特征,解决退化问题
BN(批量归一化):解决梯度消失/爆炸 (过拟合)【减均值 除方差】

image-20241122221833463

DenseNet

  • DenseBlock:内部结构BottleNeck

    BN + ReLU+1*1 Conv + BN + ReLU + 3*3 Conv

    1*1卷积降维,先激活后卷积

  • Transation:池化,降低参数量

    BN + ReLU + 1*1 Conv + 2*2 AvgPooling

  • 优势:解决退化问题,进一步减少梯度消失/爆炸

image-20241122224030696

\(Channel\_Size = Origin\_size + Group\_rate * Bottleneck\_num\)

循环神经网络

基本概念

解决的问题:序列数据

核心点:数据处理依赖历史数据,需要临时记忆Memory

体现:当前隐藏层的输出取决于输入和上层隐藏层输出 \(h_n = f(W_1x+W_2h_{n-1})\)

image-20241123124538793

分类:

  • one 2 many: Image Caption
  • many 2 one: Sentiment classification
  • many 2 many: machine translation

image-20241123131255264

image-20241123131036764

image-20241123131049245

image-20241123132301107

长时依赖

长程依赖问题:梯度消失/爆炸

image-20241123135409915

image-20241123135755689

RNN模型

LSTM(Long Short Term Memory)

门控机制

  • Forget Gate

    image-20241123144453058

  • Inout Gate

    image-20241123144515448

    image-20241123144650594

  • Output Gate

    image-20241123145542933

image-20241123150531520

计算梯度时:部分连乘拆分成加法,减缓了梯度消失。

GRU(Gate Recurent Unit)

image-20241123151408305

Transformer

  • Encoder (Context) :Self-Attension
  • Decoder

结构:

  • 完全依赖注意力机制来刻画各个单词间的全局依赖关系
  • 利用类似残差结构有效的防止梯度消失的问题
  • 在自然语言处理中单词的输入是并行的,大大加快了计算效率

image-20241123164606080

image-20241123180042677

Attention:数学上即为权重

image-20241123173458437

多头注意力:

image-20241123175941642

image-20241123221219875

image-20241123221237401

Bert

堆叠的Transformer Encoder,进行MLM和NSP任务。

image-20241123200026329

VIT

用Transformer处理图片:核心问题是怎么转为文字形式。

图像分块,Patch Embedding,位置编码 => token => encoder

image-20241123203018501

image-20241123203743370

posted @ 2024-12-11 09:29  咪啪魔女  阅读(4)  评论(0编辑  收藏  举报