随笔分类 -  深度学习

摘要:Deep Variational Information Bottleneck (VIB) 变分信息瓶颈 论文阅读笔记。本文利用变分推断将信息瓶颈框架适应到深度学习模型中,可视为一种正则化方法。 变分信息瓶颈 假设数据输入输出对为(X,Y),假设判别模型fθ()有关于$ 阅读全文
posted @ 2024-11-28 17:22 颀周 阅读(326) 评论(0) 推荐(1) 编辑
摘要:训练神经网络模型有时需要观察模型内部模块的输入输出,或是期望在不修改原始模块结构的情况下调整中间模块的输出,pytorch可以用hook回调函数来实现这一功能。主要使用四个hook注册函数:register_forward_hook、register_forward_pre_hook、registe 阅读全文
posted @ 2023-10-07 16:04 颀周 阅读(476) 评论(0) 推荐(0) 编辑
摘要:Transformers是著名的深度学习预训练模型集成库,包含NLP模型最多,CV等其他领域也有,支持预训练模型的快速使用和魔改,并且模型可以快速在不同的深度学习框架间(Pytorch/Tensorflow/Jax)无缝转移。以下记录基于HuggingFace官网教程:https://github. 阅读全文
posted @ 2023-08-19 13:54 颀周 阅读(658) 评论(0) 推荐(0) 编辑
摘要:图神经网络(GNN)目前的主流实现方式就是节点之间的信息汇聚,也就是类似于卷积网络的邻域加权和,比如图卷积网络(GCN)、图注意力网络(GAT)等。下面根据GCN的实现原理使用Pytorch张量,和调用torch_geometric包,分别对Cora数据集进行节点分类实验。 Cora是关于科学文献之 阅读全文
posted @ 2023-02-20 21:09 颀周 阅读(964) 评论(0) 推荐(1) 编辑
摘要:论文网址:https://dl.acm.org/doi/10.1145/3404835.3462961 Arxiv:https://arxiv.org/abs/2104.08419 论文提出一种用增量学习思想做时序知识图谱补全(Temporal Knowledge Graph Completion, 阅读全文
posted @ 2022-12-13 16:45 颀周 阅读(509) 评论(0) 推荐(0) 编辑
摘要:小样本知识图补全——关系学习。论文利用三元组的邻域信息,提升模型的关系表示学习,来实现小样本的链接预测。主要应用的思想和模型包括:GAT(图注意力神经网络)、TransH、SLTM、Model-Agnostic Meta-Learning (MAML)。 论文地址:https://arxiv.org 阅读全文
posted @ 2022-12-09 15:02 颀周 阅读(371) 评论(0) 推荐(1) 编辑
摘要:模型不可知元学习(Model-Agnostic Meta-Learning, MAML)的目标是使模型每次的梯度更新更有效、提升模型的学习效率、泛化能力等,它可以被看做一种对模型进行预训练的方法,适用于小样本学习。 原文:http://proceedings.mlr.press/v70/finn17 阅读全文
posted @ 2022-12-08 16:28 颀周 阅读(712) 评论(0) 推荐(0) 编辑
摘要:深度学习中,当一块GPU不够用时,我们就需要使用多卡进行并行训练。其中多卡并行可分为数据并行和模型并行。具体区别如下图所示: 由于模型并行比较少用,这里只对数据并行进行记录。对于pytorch,有两种方式可以进行数据并行:数据并行(DataParallel, DP)和分布式数据并行(Distribu 阅读全文
posted @ 2022-10-12 14:13 颀周 阅读(5329) 评论(0) 推荐(4) 编辑
摘要:在炼丹时,数据的读取与预处理是关键一步。不同的模型所需要的数据以及预处理方式各不相同,如果每个轮子都我们自己写的话,是很浪费时间和精力的。Pytorch帮我们实现了方便的数据读取与预处理方法,下面记录两个DEMO,便于加快以后的代码效率。 根据数据是否一次性读取完,将DEMO分为: 1、串行式读取。 阅读全文
posted @ 2021-03-26 11:07 颀周 阅读(1369) 评论(0) 推荐(2) 编辑
摘要:分组卷积 之间看分组卷积示意图。 不分组: 分两组: 分四组: 以此类推。当然,以上都是均匀分组的,不均分也是可以的。至于分组卷积有什么好处,很明显,可以节省参数量。假设不使用分组时,卷积核的参数量为: n=k2c1c2 其中k,c1,c2分别表示卷积核宽度,输入通道数,输出通 阅读全文
posted @ 2021-02-23 22:30 颀周 阅读(1495) 评论(0) 推荐(3) 编辑
摘要:变分自动编码器的大致概念已经理解了快一年多了,但是其中的数学原理还是没有搞懂,在看到相关的变体时,总会被数学公式卡住。下决心搞懂后,在此记录下我的理解。 公式推导——变分下界 这篇文章提出一种拟合数据集分布的方法,拟合分布最常见的应用就是生成模型。该方法遵循极大似然策略,即对于数据集$X = \{x 阅读全文
posted @ 2021-02-15 22:58 颀周 阅读(2148) 评论(0) 推荐(5) 编辑
摘要:对于显存不充足的炼丹研究者来说,弄清楚Pytorch显存的分配机制是很有必要的。下面直接通过实验来推出Pytorch显存的分配过程。 实验实验代码如下: import torch from torch import cuda x = torch.zeros([3,1024,1024,256],req 阅读全文
posted @ 2020-12-09 21:40 颀周 阅读(1520) 评论(0) 推荐(2) 编辑
摘要:训练视觉相关的神经网络模型时,总是要用到图像的读写。方法有很多,比如matplotlib、cv2、PIL等。下面比较几种读写方式,旨在选出一个最快的方式,提升训练速度。 实验标准 因为训练使用的框架是Pytorch,因此读取的实验标准如下: 1、读取分辨率都为1920x1080的5张图片(png格式 阅读全文
posted @ 2020-11-14 22:16 颀周 阅读(1087) 评论(0) 推荐(3) 编辑
摘要:使用GAN生成图像必不可少的层就是上采样,其中最常用的就是转置卷积(Transposed Convolution)。如果把卷积操作转换为矩阵乘法的形式,转置卷积实际上就是将其中的矩阵进行转置,从而产生逆向的效果。所谓效果仅仅在于特征图的形状,也就是说,如果卷积将特征图从形状a映射到形状b,其对应的转 阅读全文
posted @ 2020-10-29 23:19 颀周 阅读(3741) 评论(2) 推荐(6) 编辑
摘要:GAN自推出以来就以训练困难著称,因为它的训练过程并不是寻找损失函数的最小值,而是寻找生成器和判别器之间的纳什均衡。前者可以直接通过梯度下降来完成,而后者除此之外,还需要其它的训练技巧。 下面对历年关于GAN的论文提出的训练技巧进行总结,这里仅记录技巧,具体原理请直接看论文原文。 WGAN和WGAN 阅读全文
posted @ 2020-10-05 21:47 颀周 阅读(1946) 评论(0) 推荐(3) 编辑
摘要:WGAN论文指出,原始GAN以JS、KL散度作为损失容易导致生成器梯度消失,他们提出了一种新的损失函数——Wasserstein 距离,很大程度上解决了GAN训练难的问题。 原始GAN的损失函数的缺陷 当两个分布之间重叠很小,或者说,两个分布的概率密度同时大于0的区域在整个分布的占比几乎为0时(无穷 阅读全文
posted @ 2020-08-31 10:19 颀周 阅读(1671) 评论(0) 推荐(1) 编辑
摘要:Keras是基于Tensorflow(以前还可以基于别的底层张量库,现在已并入TF)的高层API库。它帮我们实现了一系列经典的神经网络层(全连接层、卷积层、循环层等),以及简洁的迭代模型的接口,让我们能在模型层面写代码,从而不用仔细考虑模型各层张量之间的数据流动。 但是,当我们有了全新的想法,想要个 阅读全文
posted @ 2020-08-20 23:51 颀周 阅读(2625) 评论(0) 推荐(2) 编辑
摘要:生成模型产生的是高维的复杂结构数据,它们不同于判别模型,很难用简单的指标来评估模型的好坏。下面介绍两种当前比较流行的评估生成模型的指标(仅判别图像):IS(Inception Score)和FID(Frechet Inception Distance score)。 IS IS基于Google的预训 阅读全文
posted @ 2020-08-19 13:27 颀周 阅读(17548) 评论(0) 推荐(10) 编辑
摘要:现在的神经网络通常都特别深,在输出层向输入层传播导数的过程中,梯度很容易被激活函数或是权重以指数级的规模缩小或放大,从而产生“梯度消失”或“梯度爆炸”的现象,造成训练速度下降和效果不理想。 如何避免或者减轻这一现象的发生呢?归一化就是方法的一种。归一化将网络中层与层之间传递的数据限制在一定范围内,从 阅读全文
posted @ 2020-08-18 13:03 颀周 阅读(2906) 评论(0) 推荐(3) 编辑
摘要:深度学习优化算法最耳熟能详的就是GD(Gradient Descend)梯度下降,然后又有一个所谓的SGD(Stochastic Gradient Descend)随机梯度下降,其实还是梯度下降,只不过每次更新梯度不用整个训练集而是训练集中的随机样本。梯度下降的好处就是用到了当前迭代的一些性质,以至 阅读全文
posted @ 2020-08-04 18:51 颀周 阅读(1061) 评论(0) 推荐(3) 编辑

很高兴能帮到你~
点赞
more_horiz
keyboard_arrow_up dark_mode palette
选择主题
点击右上角即可分享
微信分享提示