全连接神经网络

全连接神经网络

整体架构#

网络模型(MLP-全连接神经网络)_mlp神经网络模型-CSDN博客

线性函数#

从输入到输出的映射#

image-20241206110012317

举一个例子

我们通过一个简单的全连接层来判断西瓜甜不甜,其中影响西瓜甜不甜的因素暂定为3个,分别是瓜蒂(x1),拍西瓜产生的声音(x2), 西瓜皮的纹路(x3)。我们将者三个作为全连接层的输入,中间隐藏层神经元的数量为4,而全连接层的输出为预测西瓜甜的概率p1和预测西瓜不甜的概率p2。

image-20241206112917151

其中,我们以W[3,4]为例,进行详细说明

  • W是被随机初始化的,并且初始化的值相对较小;

  • W矩阵间的数值初始是没有任何关联的,经过训练一步步去试探x1,x2,x3之间的占比;

  • 下面是训练一段时间后,假设W矩阵的值

    image-20241206113404940

  • 关于第三条图的说明:

    • W1认为影响西瓜甜不甜的因素中,拍西瓜产生的声音(x2)对其产生的影响最大,其次是西瓜皮的纹路(x3),最后是瓜蒂(x1);
    • W2认为影响西瓜甜不甜的因素中,西瓜皮的纹路(x3)对其产生的影响最大,其次是瓜蒂(x1),最后是拍西瓜产生的声音(x2);
    • W3认为影响西瓜甜不甜的因素中,瓜蒂(x1)对其产生的影响最大,其次是拍西瓜产生的声音(x2),最后是西瓜皮的纹路(x3);
    • W3认为影响西瓜甜不甜的因素中,瓜蒂(x1)和拍西瓜产生的声音(x2)对其产生的影响同等重要,最后是西瓜皮的纹路(x3);

最后我们说一下计算过程,假设[x1,x2,x3] = [56,231,24] ,计算[h1,h2,h3,h4]

image-20241206115324498

损失函数#

损失函数其实有很多种,我们来看一个简单的损失函数$L_i = \sum_{i\neq y}max(0,s_j+s_{y_i}+1)$:

image-20241206203033304

如何损失函数的值相同,那么意味着两个模型一样吗?

image-20241209185431706

image-20241206204136233

虽然损失函数的值相同,但是模型A会出现极端点,对数据的鲁棒性差;而模型B对数据的鲁棒性相对较好。

为了去掉极端点的,我们在原有的损失函数后,加入一个正则化惩罚项 ,使得极端数据点变得平滑一些

image-20241209185844483

Softmax分类器#

image-20241209185739720

image-20241206205712137

利用exp函数后,可以使得彼此之间差距。

激活函数#

Sigmoid#

  • 数学表达式

    image-20241209185506836

  • 导数表达式

    image-20241209185523703

  • 函数图像

    img

Sigmoid函数在历史上曾非常常用,输出值范围为[0,1]之间的实数。但是现在它已经不太受欢迎,实际中很少使用。

Relu#

  • 数学表达式

    image-20241209185536706

  • 函数图像

    img

  • 适用范围

    • ReLU解决了梯度消失的问题,当输入值为正时,神经元不会饱和
    • 由于ReLU线性、非饱和的性质,在SGD中能够快速收敛
    • 计算复杂度低,不需要进行指数运算

Leaky Relu函数#

  • 数学表达式

    image-20241209185549833

  • 函数图像

    img

  • 适用范围

    • 解决了ReLU输入值为负时神经元出现的死亡的问题

    • Leaky ReLU线性、非饱和的性质,在SGD中能够快速收敛

    • 计算复杂度低,不需要进行指数运算

posted @   一只小小小飞猪  阅读(115)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 一文读懂知识蒸馏
· 终于写完轮子一部分:tcp代理 了,记录一下
点击右上角即可分享
微信分享提示
主题色彩