10 2021 档案

摘要:https://cloud.tencent.com/developer/article/1741626 https://cloud.tencent.com/developer/article/1660961 BCELoss是Binary CrossEntropyLoss的缩写,BCELoss Cro 阅读全文 »
posted @ 2021-10-30 22:03 哈哈哈喽喽喽 阅读(59) 评论(0) 推荐(0) 编辑
摘要:python自己带的一个文件操作相关模块,用它可以查找符合自己目的的文件,类似于Windows下的文件搜索,支持通配符操作,,?,[]这三个通配符,代表0个或多个字符,?代表一个字符,[]匹配指定范围内的字符,如[0-9]匹配数字。 https://blog.csdn.net/***_xujipin 阅读全文 »
posted @ 2021-10-28 11:29 哈哈哈喽喽喽 阅读(20) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/163613814 阅读全文 »
posted @ 2021-10-27 11:27 哈哈哈喽喽喽 阅读(29) 评论(0) 推荐(0) 编辑
摘要:1、梯度裁剪原理(http://blog.csdn.net/qq_29340857/article/details/70574528) 既然在BP过程中会产生梯度消失/爆炸(就是偏导无限接近0,导致长时记忆无法更新),那么最简单粗暴的方法,设定阈值,当梯度小于/大于阈值时,更新的梯度为阈值,如下图所 阅读全文 »
posted @ 2021-10-22 16:06 哈哈哈喽喽喽 阅读(759) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/375224982 梯度缩放 如果特定op的正向传递具有浮点16输入,则该op的反向传递将产生浮点16梯度。具有小幅度的梯度值可能无法在浮点16中表示。这些值将刷新为零(“下溢”),因此相应参数的更新将丢失。 为了防止下溢,"梯度缩放"将网络 阅读全文 »
posted @ 2021-10-22 15:30 哈哈哈喽喽喽 阅读(3542) 评论(0) 推荐(0) 编辑
摘要:什么是EMA? 滑动平均(exponential moving average),或者叫做指数加权平均(exponentially weighted moving average),可以用来估计变量的局部均值,使得变量的更新与一段时间内的历史取值有关。 滑动平均可以看作是变量的过去一段时间取值的均值 阅读全文 »
posted @ 2021-10-22 14:43 哈哈哈喽喽喽 阅读(120) 评论(0) 推荐(0) 编辑
摘要:一、weight decay(权值衰减)的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂 阅读全文 »
posted @ 2021-10-22 11:38 哈哈哈喽喽喽 阅读(1392) 评论(0) 推荐(0) 编辑
摘要:1、余弦退火https://arxiv.org/pdf/1812.01187.pdf Learning rate adjustment is crucial to the training. After the learning rate warmup described in Section 3. 阅读全文 »
posted @ 2021-10-22 11:19 哈哈哈喽喽喽 阅读(30) 评论(0) 推荐(0) 编辑
摘要:torch.flip(input, dims) → Tensor 翻转dims数组中的维度 Parameters input (Tensor) – the input tensor. dims (a list or tuple) – axis to flip on 例子: import torch 阅读全文 »
posted @ 2021-10-22 10:11 哈哈哈喽喽喽 阅读(1190) 评论(0) 推荐(0) 编辑
摘要:对于cnn前馈神经网络如果前馈一次写一个forward函数会有些麻烦,在此就有两种简化方式,ModuleList和Sequential。其中Sequential是一个特殊的module,它包含几个子Module,前向传播时会将输入一层接一层的传递下去。ModuleList也是一个特殊的module, 阅读全文 »
posted @ 2021-10-21 21:21 哈哈哈喽喽喽 阅读(168) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/59767914 阅读全文 »
posted @ 2021-10-21 20:05 哈哈哈喽喽喽 阅读(54) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/95952096 阅读全文 »
posted @ 2021-10-21 19:54 哈哈哈喽喽喽 阅读(23) 评论(0) 推荐(0) 编辑
摘要:1、背景介绍 在pytorch的多卡训练中,通常有两种方式,一种是单机多卡模式(存在一个节点,通过torch.nn.DataParallel(model)实现),一种是多机多卡模式(存在一个节点或者多个节点,通过torch.nn.parallel.DistributedDataParallel(mo 阅读全文 »
posted @ 2021-10-21 15:54 哈哈哈喽喽喽 阅读(1616) 评论(0) 推荐(0) 编辑
摘要:为L1/Lp范数,为L1范数, 是Lp范数,其中。p = 2时是l1/l2范数 阅读全文 »
posted @ 2021-10-18 17:12 哈哈哈喽喽喽 阅读(250) 评论(0) 推荐(0) 编辑
摘要:次梯度法是求解凸函数最优化(凸优化)问题的一种迭代法。次梯度法能够用于不可微的目标函数。当目标函数可微时,对于无约束问题次梯度法与梯度下降法具有同样的搜索方向。 虽然在实际的应用中,次梯度法比内点法和牛顿法慢得多,但是次梯度法可以直接应用于更广泛的问题,次梯度法只需要很少的存储需求。然而,通过将次梯 阅读全文 »
posted @ 2021-10-18 15:28 哈哈哈喽喽喽 阅读(227) 评论(0) 推荐(0) 编辑
摘要:+1、近端梯度下降法 https://zhuanlan.zhihu.com/p/82622940 +2、nn.init.kaiming_uniform_使用,在conv后面,类似BN层? conv = Conv2d( in_channels, out_channels, kernel_size=ke 阅读全文 »
posted @ 2021-10-12 23:44 哈哈哈喽喽喽 阅读(19) 评论(0) 推荐(0) 编辑
摘要:https://seanwangjs.github.io/2017/11/08/c-pointer.html 理解指针这一概念是学习 C 语言和 C++ 的重中之重,对于编程初学者,由于不熟悉计算机程序的运行原理,如果用 C 语言作为入门,将会在指针的理解上陷入泥潭。所以尽管现在的大学教育都纷纷将 阅读全文 »
posted @ 2021-10-12 20:47 哈哈哈喽喽喽 阅读(29) 评论(0) 推荐(0) 编辑
摘要:1、conda install -c https://conda.anaconda.org/menpo opencv 阅读全文 »
posted @ 2021-10-12 16:05 哈哈哈喽喽喽 阅读(72) 评论(0) 推荐(0) 编辑
摘要:1、jpg为有损压缩(表现为解压再压缩值不相等),尽量使用png格式 https://blog.csdn.net/u013925378/article/details/104814001 2、图像保存的格式为 高×宽×颜色通道,但是 cv2.resize这个api却是个小例外。因为它的参数输入却是 阅读全文 »
posted @ 2021-10-11 10:58 哈哈哈喽喽喽 阅读(41) 评论(0) 推荐(0) 编辑
摘要:1、近端梯度下降 proximal gradient descent 对于凸优化问题,当其目标函数存在不可微部分(例如目标函数中有 [公式] -范数或迹范数)时,近端梯度下降法才会派上用场 https://zhuanlan.zhihu.com/p/82622940 2、神经网络中使用L1z正则,获取 阅读全文 »
posted @ 2021-10-10 14:21 哈哈哈喽喽喽 阅读(93) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/95952096 往期回顾:《二值化图像切割,让机器人视觉识别变得简单高效》 三通道彩色 图片也可以看作是三层二维数组的叠加,每一层二维数组都是一个通道。单通道的图像是灰色的,每个像素pixel只有一个value,数字越高,颜色越白,也就越亮 阅读全文 »
posted @ 2021-10-09 10:44 哈哈哈喽喽喽 阅读(1130) 评论(0) 推荐(0) 编辑
摘要:问题: 1、大型神经网络学习速度很快,性能也往往优于其他较小的模型,但它们对资源的巨大需求限制了其在现实世界的部署,所以当部署网络到资源有限的设备上,需要对网络进行剪枝(识别和剪枝冗余的结构),使性能几乎无损失情况下,网络更苗条更简单。 2、剪枝方法:a、采用L1或L2正则化的细粒度剪枝方法,根据一 阅读全文 »
posted @ 2021-10-09 00:40 哈哈哈喽喽喽 阅读(202) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示