03 2023 档案
摘要:1.理论知识讲解 transfromer这个模型在机器翻译方面就是做如下事情由一种语言到另一种语言 下图中六个encoder在结构上是完全相同的但是每个encoder的内部的参数不完全相同,也就是在训练的时候6个encoder都在训练,并不是一个在训练,然后其它五个去拷贝这个encoder,六个de
阅读全文
摘要:
1.单个训练样本(损失函数) 在逻辑回归中我们需要做的就是变换参数w和b的值,来最小化损失函数 a也就是sigmoid函数,也就是a=1/(1+e^(-z)),所以dL/dz=dL/da * da/dz = a-y 这就是单个样本实例的一次梯度更新的步骤 2.多个训练样本 下图中有一个很明显的问题就
阅读全文

摘要:蓝色线前向传播(从左到右)大致过程 反向传播: 如果要计算dj/dv由j=3v 得当v由11变成11.001时,j由33变成33.003,对于任意的v的变化量,j变成原来的3倍,因此dj/dv的导数为3 如果要计算dj/da,由下图计算可知dj/da也是3 下图是接着反向传播计算db和dc以及dc的
阅读全文
摘要:
下图中由给定的每个样本的值和样本对应的标签值得到最终的概率值 Loss函数是在单个训练样本中定义的,它衡量了在单个训练样本上的表现,而成本函数cost,它衡量的是在全体训练样本上的表现,表明参数w和b在训练集上的效果 如何使用梯度下降法莱训练或学习训练集上的参数w和b 下图中阿尔法表示学习率,可以控
阅读全文

摘要:在图中实现输入一个不小与零的房屋大小x经过一个简单神经元得到最终房屋的价格y,且图中蓝色拟合线也是Relu函数的图像 下图中三个圆圈在一个神经网络中也被叫做隐藏单元,可以看到每一个隐藏单元都受是个输入的影响 神经网络只有你喂给他足够多的数据,关于x和y的数据,给到足够的x、y训练样本,神经网络非常善
阅读全文