Processing math: 100%

神经网络学习

感知和学习#

Rosenblatt Perceptron计算流程:

  1. 初始化:随机初始化权重 W 和偏置 b 。

  2. 循环训练

    • 从训练集中随机选择一个样本(Xi,yi)
    • 检查分类结果是否正确:如果 $y_i \cdot (\mathbf{W} \cdot \mathbf{X}_i + b) \leq 0 \mathbf{W} \leftarrow \mathbf{W} + \eta \cdot y_i \cdot \mathbf{X}_ib \leftarrow b + \eta \cdot y_i$
    • 其中 \eta 是学习率。
  3. 停止条件:重复第 2 步,直到所有样本都被正确分类,或者达到最大迭代次数。

image-20241121163423458

image-20241121163432754

image-20241121164206093

逻辑回归的损失函数:Loss(w,b)=1NNi=1[yilog(σ(wXi+b))+(1yi)log(1σ(wXi+b))]

梯度下降优化:

w:=wηLosswb:=bηLossb

image-20241121182719437

image-20241121222102053

批量梯度下降BGD:
θθη1NNi=1fi(θ)

随机梯度下降SGD:

θθηfi(θ)

小批量梯度下降:

θθη1mmi=1fi(θ)

动量优化MGD:累积历史梯度,减少振荡,加速收敛

vt=βvt1+f(θt)θt=θtηvt

AdaGrad:动态调整每个参数的学习率

gt=f(θt)Gt=Gt1+g2tθt=θtηGt+ϵgt

RMSprop:动态调整每个参数的学习率

image-20241122103716982

E[g2]t=βE[g2]t1+(1β)g2tθt+1=θtηE[g2]t+ϵgt

Adam(Adaptive Moment Estimation):动量+动态调整每个参数的学习率

vt=β1vt1+(1β1)gtst=β2st1+(1β2)g2t^vt=vt1βt1,^st=st1βt2θt+1=θtη^vt+ϵ^vt

基本思路:

  • Trail Feedforward: yp=f(wx+b)

  • Evaluate Loss Function: E=12(YAYP)2, minimize GD

  • Analist Back-Progagation: new - old

    image-20241122144302504

卷积神经网络#

基本概念#

特点:

  • Image Processing
  • Feed-Forward & Back-Propagation
  • recongnize visual patten(the ordering and patterns)
  • Filter/Kernel:权重矩阵
  • End-To-End

拓扑结构:

  • C(Convolution Layer) : feature extraction

    • Kernel:Flatten:Local Connectivity Parameter Sharing
  • P(Pooling Layer): Subsampling 进一步减少结点大小

    • Max Pooling
    • Average Pooling
    • Normal Pooling
    • Log propability Pooling
  • 上面两层可以不断重复

  • Flatten:拉平,送进全连接神经网络

  • F(Fully-Connected Layer): classifier

Local Connectivity & Parameter Sharing#

局部连接:一个卷积核在图像上Move Around

权重共享:卷积核同位置参数一致

  • Convulation Operation(Stride, Padding)
  • Kernel
  • Feature Map:FeatureMapsize=Imagesize+2PaddingKernelsizeS+1

image-20241122180457762

Pooling#

image-20241122182211731

The number of channels is the number of filters

Feature Map:计算方法同卷积特征图计算方法

image-20241122194230081

计算:特征图大小,参数量

(图中池化阶段得到的特征图大小不准确,应该和卷积层阶段的计算方法一样)

(参数了计算不准确:9*25和25*9*50)

卷积神经网络模型#

LeNet#

image-20241122200204077

AlexNet#

背景:大数据,超算

创新点:

  • Dropout:过拟合
  • Norm(归一化):LRN
  • ReLu激活函数:梯度消失

image-20241122205852822

image-20241122205916109

GoogleNet#

创新点:

  • Inception结构:并行;1*1卷积核降维
    • 最左:保留初始信息
    • 中间两列:不同尺度的特征提取
    • 最右:池化提取
    • 合并:特征图层叠拼接
  • 辅助分类器
    • 及时反向传播
    • 决策融合

image-20241122214822235

参考链接

image-20241122213158839

image-20241122214754253

ResNet#

残差(短路):保留原始特征,解决退化问题
BN(批量归一化):解决梯度消失/爆炸 (过拟合)【减均值 除方差】

image-20241122221833463

DenseNet#

  • DenseBlock:内部结构BottleNeck

    BN + ReLU+1*1 Conv + BN + ReLU + 3*3 Conv

    1*1卷积降维,先激活后卷积

  • Transation:池化,降低参数量

    BN + ReLU + 1*1 Conv + 2*2 AvgPooling

  • 优势:解决退化问题,进一步减少梯度消失/爆炸

image-20241122224030696

Channel_Size=Origin_size+Group_rateBottleneck_num

循环神经网络#

基本概念#

解决的问题:序列数据

核心点:数据处理依赖历史数据,需要临时记忆Memory

体现:当前隐藏层的输出取决于输入和上层隐藏层输出 hn=f(W1x+W2hn1)

image-20241123124538793

分类:

  • one 2 many: Image Caption
  • many 2 one: Sentiment classification
  • many 2 many: machine translation

image-20241123131255264

image-20241123131036764

image-20241123131049245

image-20241123132301107

长时依赖#

长程依赖问题:梯度消失/爆炸

image-20241123135409915

image-20241123135755689

RNN模型#

LSTM(Long Short Term Memory)#

门控机制

  • Forget Gate

    image-20241123144453058

  • Inout Gate

    image-20241123144515448

    image-20241123144650594

  • Output Gate

    image-20241123145542933

image-20241123150531520

计算梯度时:部分连乘拆分成加法,减缓了梯度消失。

GRU(Gate Recurent Unit)#

image-20241123151408305

Transformer#

  • Encoder (Context) :Self-Attension
  • Decoder

结构:

  • 完全依赖注意力机制来刻画各个单词间的全局依赖关系
  • 利用类似残差结构有效的防止梯度消失的问题
  • 在自然语言处理中单词的输入是并行的,大大加快了计算效率

image-20241123164606080

image-20241123180042677

Attention:数学上即为权重

image-20241123173458437

多头注意力:

image-20241123175941642

image-20241123221219875

image-20241123221237401

Bert#

堆叠的Transformer Encoder,进行MLM和NSP任务。

image-20241123200026329

VIT#

用Transformer处理图片:核心问题是怎么转为文字形式。

图像分块,Patch Embedding,位置编码 => token => encoder

image-20241123203018501

image-20241123203743370

posted @   咪啪魔女  阅读(9)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 历时 8 年,我冲上开源榜前 8 了!
· 物流快递公司核心技术能力-海量大数据处理技术
· 四大AI编程工具组合测评
· 关于能否用DeepSeek做危险的事情,DeepSeek本身给出了答案
· 几个技巧,教你去除文章的 AI 味!
more_horiz
keyboard_arrow_up light_mode palette
选择主题
menu
点击右上角即可分享
微信分享提示