深度学习 - 随笔分类 - 颀周

论文解读：Locating and Editing Factual Associations in GPT（ROME）

摘要：论文发表于人工智能顶会NeurIPS（原文链接），研究了GPT（Generative Pre-trained Transformer）中事实关联的存储和回忆，发现这些关联与局部化、可直接编辑的计算相对应。因此： 1、开发了一种因果干预方法，用于识别对模型的事实预测起决定性作用的神经元。 2、为了验证阅读全文

posted @ 2025-06-05 20:11 颀周阅读(353) 评论(0) 推荐(0)

深度变分信息瓶颈——Deep Variational Information Bottleneck

摘要：Deep Variational Information Bottleneck (VIB) 变分信息瓶颈论文阅读笔记。本文利用变分推断将信息瓶颈框架适应到深度学习模型中，可视为一种正则化方法。变分信息瓶颈假设数据输入输出对为$(X,Y)$，假设判别模型$f_\theta(\cdot)$有关于$ 阅读全文

posted @ 2024-11-28 17:22 颀周阅读(1239) 评论(0) 推荐(2)

pytorch的四个hook函数

摘要：训练神经网络模型有时需要观察模型内部模块的输入输出，或是期望在不修改原始模块结构的情况下调整中间模块的输出，pytorch可以用hook回调函数来实现这一功能。主要使用四个hook注册函数：register_forward_hook、register_forward_pre_hook、registe 阅读全文

posted @ 2023-10-07 16:04 颀周阅读(770) 评论(0) 推荐(0)

Transformers包使用记录

摘要：Transformers是著名的深度学习预训练模型集成库，包含NLP模型最多，CV等其他领域也有，支持预训练模型的快速使用和魔改，并且模型可以快速在不同的深度学习框架间（Pytorch/Tensorflow/Jax）无缝转移。以下记录基于HuggingFace官网教程：https://github. 阅读全文

posted @ 2023-08-19 13:54 颀周阅读(896) 评论(0) 推荐(0)

图卷积神经网络分类的pytorch实现

摘要：图神经网络（GNN）目前的主流实现方式就是节点之间的信息汇聚，也就是类似于卷积网络的邻域加权和，比如图卷积网络（GCN）、图注意力网络（GAT）等。下面根据GCN的实现原理使用Pytorch张量，和调用torch_geometric包，分别对Cora数据集进行节点分类实验。 Cora是关于科学文献之阅读全文

posted @ 2023-02-20 21:09 颀周阅读(1257) 评论(0) 推荐(1)

TIE: A Framework for Embedding-based Incremental Temporal Knowledge Graph Completion 增量时序知识图谱补全论文解读

摘要：论文网址：https://dl.acm.org/doi/10.1145/3404835.3462961 Arxiv：https://arxiv.org/abs/2104.08419 论文提出一种用增量学习思想做时序知识图谱补全（Temporal Knowledge Graph Completion, 阅读全文

posted @ 2022-12-13 16:45 颀周阅读(703) 评论(0) 推荐(0)

Relational Learning with Gated and Attentive Neighbor Aggregator for Few-Shot Knowledge Graph Completion 小样本知识图谱补全论文解读

摘要：小样本知识图补全——关系学习。论文利用三元组的邻域信息，提升模型的关系表示学习，来实现小样本的链接预测。主要应用的思想和模型包括：GAT（图注意力神经网络）、TransH、SLTM、Model-Agnostic Meta-Learning (MAML)。论文地址：https://arxiv.org 阅读全文

posted @ 2022-12-09 15:02 颀周阅读(444) 评论(0) 推荐(1)

Model-Agnostic Meta-Learning (MAML) 理解

摘要：模型不可知元学习（Model-Agnostic Meta-Learning, MAML）的目标是使模型每次的梯度更新更有效、提升模型的学习效率、泛化能力等，它可以被看做一种对模型进行预训练的方法，适用于小样本学习。原文：http://proceedings.mlr.press/v70/finn17 阅读全文

posted @ 2022-12-08 16:28 颀周阅读(1034) 评论(0) 推荐(0)

使用Pytorch进行多卡训练

摘要：深度学习中，当一块GPU不够用时，我们就需要使用多卡进行并行训练。其中多卡并行可分为数据并行和模型并行。具体区别如下图所示：由于模型并行比较少用，这里只对数据并行进行记录。对于pytorch，有两种方式可以进行数据并行：数据并行（DataParallel, DP）和分布式数据并行（Distribu 阅读全文

posted @ 2022-10-12 14:13 颀周阅读(6542) 评论(0) 推荐(4)

Pytorch数据读取与预处理实现与探索

摘要：在炼丹时，数据的读取与预处理是关键一步。不同的模型所需要的数据以及预处理方式各不相同，如果每个轮子都我们自己写的话，是很浪费时间和精力的。Pytorch帮我们实现了方便的数据读取与预处理方法，下面记录两个DEMO，便于加快以后的代码效率。根据数据是否一次性读取完，将DEMO分为： 1、串行式读取。阅读全文

posted @ 2021-03-26 11:07 颀周阅读(1539) 评论(0) 推荐(2)

分组卷积和深度可分离卷积

摘要：分组卷积之间看分组卷积示意图。不分组：分两组：分四组：以此类推。当然，以上都是均匀分组的，不均分也是可以的。至于分组卷积有什么好处，很明显，可以节省参数量。假设不使用分组时，卷积核的参数量为： $n = k^2c_1c_2$ 其中$k,c_1,c_2$分别表示卷积核宽度，输入通道数，输出通阅读全文

posted @ 2021-02-23 22:30 颀周阅读(1727) 评论(0) 推荐(3)

Auto-Encoding Variational Bayes (VAE原文)、变分推理

摘要：变分自动编码器的大致概念已经理解了快一年多了，但是其中的数学原理还是没有搞懂，在看到相关的变体时，总会被数学公式卡住。下决心搞懂后，在此记录下我的理解。公式推导——变分下界这篇文章提出一种拟合数据集分布的方法，拟合分布最常见的应用就是生成模型。该方法遵循极大似然策略，即对于数据集$X = \{x 阅读全文

posted @ 2021-02-15 22:58 颀周阅读(2443) 评论(0) 推荐(6)

Pytorch训练时显存分配过程探究

摘要：对于显存不充足的炼丹研究者来说，弄清楚Pytorch显存的分配机制是很有必要的。下面直接通过实验来推出Pytorch显存的分配过程。实验实验代码如下： import torch from torch import cuda x = torch.zeros([3,1024,1024,256],req 阅读全文

posted @ 2020-12-09 21:40 颀周阅读(1599) 评论(0) 推荐(2)

Python图像读写方法对比

摘要：训练视觉相关的神经网络模型时，总是要用到图像的读写。方法有很多，比如matplotlib、cv2、PIL等。下面比较几种读写方式，旨在选出一个最快的方式，提升训练速度。实验标准因为训练使用的框架是Pytorch，因此读取的实验标准如下： 1、读取分辨率都为1920x1080的5张图片（png格式阅读全文

posted @ 2020-11-14 22:16 颀周阅读(1204) 评论(0) 推荐(3)

直接理解转置卷积（Transposed convolution）的各种情况

摘要：使用GAN生成图像必不可少的层就是上采样，其中最常用的就是转置卷积（Transposed Convolution）。如果把卷积操作转换为矩阵乘法的形式，转置卷积实际上就是将其中的矩阵进行转置，从而产生逆向的效果。所谓效果仅仅在于特征图的形状，也就是说，如果卷积将特征图从形状a映射到形状b，其对应的转阅读全文

posted @ 2020-10-29 23:19 颀周阅读(4181) 评论(2) 推荐(6)

GAN训练技巧汇总

摘要：GAN自推出以来就以训练困难著称，因为它的训练过程并不是寻找损失函数的最小值，而是寻找生成器和判别器之间的纳什均衡。前者可以直接通过梯度下降来完成，而后者除此之外，还需要其它的训练技巧。下面对历年关于GAN的论文提出的训练技巧进行总结，这里仅记录技巧，具体原理请直接看论文原文。 WGAN和WGAN 阅读全文

posted @ 2020-10-05 21:47 颀周阅读(2070) 评论(0) 推荐(3)

Wasserstein GAN

摘要：WGAN论文指出，原始GAN以JS、KL散度作为损失容易导致生成器梯度消失，他们提出了一种新的损失函数——Wasserstein 距离，很大程度上解决了GAN训练难的问题。原始GAN的损失函数的缺陷当两个分布之间重叠很小，或者说，两个分布的概率密度同时大于0的区域在整个分布的占比几乎为0时（无穷阅读全文

posted @ 2020-08-31 10:19 颀周阅读(1827) 评论(0) 推荐(1)

Tensorflow2.0与Keras搭建个性化神经网络模型

摘要：Keras是基于Tensorflow（以前还可以基于别的底层张量库，现在已并入TF）的高层API库。它帮我们实现了一系列经典的神经网络层（全连接层、卷积层、循环层等），以及简洁的迭代模型的接口，让我们能在模型层面写代码，从而不用仔细考虑模型各层张量之间的数据流动。但是，当我们有了全新的想法，想要个阅读全文

posted @ 2020-08-20 23:51 颀周阅读(2688) 评论(0) 推荐(2)

GAN量化评估方法——IS（Inception Score）和FID（Frechet Inception Distance score）

摘要：生成模型产生的是高维的复杂结构数据，它们不同于判别模型，很难用简单的指标来评估模型的好坏。下面介绍两种当前比较流行的评估生成模型的指标（仅判别图像）：IS（Inception Score）和FID（Frechet Inception Distance score）。 IS IS基于Google的预训阅读全文

posted @ 2020-08-19 13:27 颀周阅读(19156) 评论(0) 推荐(10)

批量归一化（BN, Batch Normalization）

摘要：现在的神经网络通常都特别深，在输出层向输入层传播导数的过程中，梯度很容易被激活函数或是权重以指数级的规模缩小或放大，从而产生“梯度消失”或“梯度爆炸”的现象，造成训练速度下降和效果不理想。如何避免或者减轻这一现象的发生呢？归一化就是方法的一种。归一化将网络中层与层之间传递的数据限制在一定范围内，从阅读全文

posted @ 2020-08-18 13:03 颀周阅读(3170) 评论(0) 推荐(3)

LOADING . . .

qizhou

随笔分类 - 深度学习

公告