随笔分类 - 深度学习
发表于 2022-09-08 20:06阅读:13评论:0推荐:0
摘要:https://www.bilibili.com/read/cv10315726/ https://itcn.blog/p/1047856268.html
阅读全文 »
发表于 2022-08-30 17:53阅读:301评论:0推荐:0
摘要:CoOp训练 1.准备训练数据,按照每个类别分文件夹存放 2.datasets增加数据定义文件 CoOp-main\configs\datasets 3.增加数据加载处理文件,可参考dtd.py 4.修改CoOp-main\scripts\coop\main.sh中的 DATA数据目录 DIR工作目
阅读全文 »
发表于 2022-08-17 12:46阅读:26评论:0推荐:0
摘要:1、https://www.zhihu.com/follow 2、训练时目标网络 从源网络集成 网络层参数,单又涉及torch.float16到torch.float32转换 data_type = self.model.module.visual.attnpool.c_proj.weight.dt
阅读全文 »
发表于 2022-08-08 11:15阅读:410评论:0推荐:0
摘要:FPN(Feature Pyramid Network特征金字塔)是解决多尺度问题的不二之选,至被提出以来,一直占据着模型的Neck层,faster rcnn、retinanet、FCOS、YOLO。几乎所有耳熟能详的基于CNN的目标检测模型都离不开FPN,也有很多工作是对FPN的魔改,如PAN(P
阅读全文 »
发表于 2022-08-01 11:48阅读:211评论:0推荐:0
摘要:0.问题确认 0.0 梯度消失 模型无法从训练数据中获得更新,损失几乎保持不变 打印梯度值,梯度值为0或者非常小,比如 -->grad_value: tensor(3.1044e-10, device='cuda:0') for name, parms in self.model.named_par
阅读全文 »
发表于 2022-07-26 17:25阅读:6201评论:0推荐:0
摘要:0、对比学习和度量学习 相同点: 1.度量学习和对比学习的思想是一样的,都是去拉近相似的样本,推开不相似的样本。 不同点: 1.对比学习是无监督或者自监督学习方法,而度量学习一般为有监督学习方法 2.对比学习为单正例多负例的形式,因为是无监督,数据是充足的,也就可以找到无穷的负例,但如何构造有效正例
阅读全文 »
发表于 2022-07-11 20:47阅读:64评论:0推荐:0
摘要:https://karpathy.github.io/2019/04/25/recipe/ 训练神经网络2个坑 训练神经网络2个leaky abstraction 据说开始训练神经网络很容易。许多库和框架都觉得使用30行代码来解决数据问题很了不起,这给人一种即插即用的(错误的)印象。常见的做法是:在
阅读全文 »
发表于 2022-07-11 20:38阅读:38评论:0推荐:0
摘要:教授斯坦福大学CS231n(深度学习)课程的时候,我们在教最基础的反向传播时特意设计了一些需要编写详细计算过程的编程作业。学生们需要用原始的numpy来实现每一层的前向和后向传播步骤。不可避免地,有些学生在课堂留言板上抱怨: “为啥现实世界中的框架,如Tensorflow,已经能帮你自动计算这些,我
阅读全文 »
发表于 2021-10-22 14:43阅读:120评论:0推荐:0
摘要:什么是EMA? 滑动平均(exponential moving average),或者叫做指数加权平均(exponentially weighted moving average),可以用来估计变量的局部均值,使得变量的更新与一段时间内的历史取值有关。 滑动平均可以看作是变量的过去一段时间取值的均值
阅读全文 »
发表于 2021-10-10 14:21阅读:93评论:0推荐:0
摘要:1、近端梯度下降 proximal gradient descent 对于凸优化问题,当其目标函数存在不可微部分(例如目标函数中有 [公式] -范数或迹范数)时,近端梯度下降法才会派上用场 https://zhuanlan.zhihu.com/p/82622940 2、神经网络中使用L1z正则,获取
阅读全文 »
发表于 2021-05-27 17:37阅读:82评论:0推荐:0
摘要:1、Visualize attention weights of multiple heads in this experiment. from matplotlib import pyplot as plt out = attention.attention.attention_weights.d
阅读全文 »
发表于 2021-05-27 17:32阅读:45评论:0推荐:0
摘要:1、Modify keys in the toy example and visualize attention weights. Do additive attention and scaled dot-product attention still output the same attenti
阅读全文 »
发表于 2021-05-27 17:30阅读:87评论:0推荐:0
摘要:#2.What is the value of our learned w in the parametric attention pooling experiment? Why does it make the weighted region sharper when visualizing th
阅读全文 »
发表于 2021-05-27 17:26阅读:77评论:0推荐:0
摘要:#1、What can be the volitional cue when decoding a sequence token by token in machine translation? What are the nonvolitional cues and the sensory inpu
阅读全文 »
发表于 2021-05-17 16:43阅读:57评论:0推荐:0
摘要:画简单的图 import matplotlib.pyplot as plt import numpy as np x = np.linspace(0, 2 * np.pi, 50) y = np.sin(x) plt.plot(x, y) 同一个图画多个曲线 x = np.linspace(0, 2
阅读全文 »
发表于 2021-05-08 11:41阅读:531评论:0推荐:0
摘要:优化 在一个深度学习问题中,我们通常会预先定义一个损失函数。有了损失函数以后,我们就可以使用优化算法试图将其最小化。在优化中,这样的损失函数通常被称作优化问题的目标函数(objective function)。依据惯例,优化算法通常只考虑最小化目标函数。其实,任何最大化问题都可以很容易地转化为最小化
阅读全文 »
发表于 2021-05-06 17:12阅读:49评论:0推荐:0
摘要:批量归一化层和 dropout 层一样,在训练模式和预测模式下计算不同
阅读全文 »
发表于 2021-05-06 17:07阅读:504评论:0推荐:0
摘要:主要作用是:训练深层神经网络是十分困难的,特别是在较短的时间内使他们收敛更加棘手,可持续加速深层网络的收敛速度。 怎么达到加速深层网络的收敛速度: 1、数据的预处理影响收敛速度和调参难度,比较明显的例子是线性回归,如果特征量纲差别特别大,他的斜率可能近视90度或者0度,收敛速度和调参是比较困难的。B
阅读全文 »
发表于 2021-04-08 11:50阅读:185评论:0推荐:0
摘要:网上有不少解释,包括下面这张图片 uploading-image-3262.png 光靠图片理解还是不够,而且特别容易理解反了。这里用一个实例进行讲解。 一个非常简单的数据集,包含两个sample,3个features。 第一个sample: X1=1.0,X2=1.0, X3=1.0 第二个sam
阅读全文 »
发表于 2020-04-12 12:32阅读:142评论:0推荐:0
摘要:深度学习对所有参数进行梯度下降来优化参数,BP算法一种有效的方法 1、BP算法基础--链式法则 2、要求神经网络中某个参数w的偏导数 包括2部分,第一部分使用前向传输计算(即前向传输计算出来每个节点x的值),第二部分使用反向传输计算
阅读全文 »