随笔分类 - Deep Learning
摘要:前几天在群里大家讨论到了“Transformer如何解决梯度消失”这个问题,答案有提到残差的,也有提到LN(Layer Norm)的。这些是否都是正确答案呢?事实上这是一个非常有趣而综合的问题,它其实关联到挺多模型细节,比如“BERT为什么要warmup?”、“BERT的初始化标准差为什么是0.02
阅读全文
摘要:大家都知道,BERT的MLM(Masked Language Model)任务在预训练和微调时的不一致,也就是预训练出现了[MASK]而下游任务微调时没有[MASK],是经常被吐槽的问题,很多工作都认为这是影响BERT微调性能的重要原因,并针对性地提出了很多改进,如XL-NET、ELECTRA、Ma
阅读全文
摘要:自SimCLR以来,CV中关于无监督特征学习的工作层出不穷,让人眼花缭乱。这些工作大多数都是基于对比学习的,即通过适当的方式构造正负样本进行分类学习的。然而,在众多类似的工作中总有一些特立独行的研究,比如Google的BYOL和最近的SimSiam,它们提出了单靠正样本就可以完成特征学习的方案,让人
阅读全文
摘要:自从Transformer出来以后,Transformer便开始在NLP领域一统江湖。而Transformer在CV领域反响平平,一度认为不适合CV领域,直到最近计算机视觉领域出来几篇Transformer文章,性能直逼CNN的SOTA,给予了计算机视觉领域新的想象空间。本文不拘泥于Transfor
阅读全文
摘要:What is attention? 先简单描述一下attention机制是什么。相信做NLP的同学对这个机制不会很陌生,它在Attention is all you need可以说是大放异彩,在machine translation任务中,帮助深度模型在性能上有了很大的提升,输出了当时最好的sta
阅读全文
摘要:原文地址时间:2018年Introductionend-to-end encoder-decoder模型存在一个问题:当将一张包括未见过的场景输入到网络中时,返回的结果仅仅就是一些显著的object,比如“there is a dog on the floor”,这样的结果与object detec
阅读全文
摘要:自适应1D池化(AdaptiveAvgPool1d): 对输入信号,提供1维的自适应平均池化操作 对于任何输入大小的输入,可以将输出尺寸指定为H*W,但是输入和输出特征的数目不会变化。 torch.nn.AdaptiveAvgPool1d(output_size) #output_size:输出尺寸
阅读全文
摘要:前言 前段时间看到了几篇有意思的文章,也参考了一些相关的讨论,这里想对CNN中的平移和尺度的不变性和相等性,以及CNN对于目标相对和绝对位置、深度的预测原理进行探讨。这些内容对于一些特定任务很重要,比如目标检测、目标分割、深度估计、分类/识别以及单目标跟踪中的置信图预测等。 1 CNN是否存在平移和
阅读全文
摘要:2014年5月GAN诞生了,这篇文章中并没有出现Adversarial Trainin这个词,而对抗训练(Adversarial Training) 是在2014年10月被提出。虽然Adversarial Training是在GAN之后被提出,但是这两篇文章都是由Goodfellow创作,而且具体来说Adversarial Training 是包含GAN的。Goodfellow解释为训练一个GAN...
阅读全文
摘要:自动编码器是一种特殊的神经网络,经过训练可以将其输入复制到其输出。例如,给定手写数字的图像,自动编码器首先将图像编码为较低维的潜在表示,然后将潜在表示解码回图像。自动编码器学会在最小化重构误差的同时压缩数据。要了解有关自动编码器的更多信息,请考虑阅读Ian Goodfellow,Yoshua Ben
阅读全文
摘要:This post summarizes a comprehensive survey paper on deep learning for anomaly detection — “Deep Learning for Anomaly Detection: A Review” [1], discus
阅读全文
摘要:Batch Normalization Batch Normalization(简称为BN)[2],中文翻译成批规范化,是在深度学习中普遍使用的一种技术,通常用于解决多层神经网络中间层的协方差偏移(Internal Covariate Shift)问题,类似于网络输入进行零均值化和方差归一化的操作,
阅读全文
摘要:Anomaly Detection,也叫做 异常检测,目的在于让机器知道我所不知道的事情。1. 什么是 Anomaly(异常)?虽然说是 异常,但其实是以训练集为核心,判断输入数据是否与训练集中的数据 “类似”。在不同的领域可以有不同的叫法,比如:outlier Detection,novelty Detection,exceptions Detection。至于什么才是“类似”,它的定义这取决于...
阅读全文
摘要:注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。人类的视觉注意力从注意力模型的命名方式看,很明显其借鉴了人类的注意力机制,因此,我们首先简单介绍人类视觉的选择性注意力机制。图1 人类的视觉注意力视觉注意力机制是人类视觉所特有...
阅读全文
摘要:文章内容主要整理自Sinno Jialin Pan and Qiang Yang的论文《A survey on transfer Learning》。 1 迁移学习提出的背景及历史 1.1、迁移学习提出背景 在机器学习、深度学习和数据挖掘的大多数任务中,我们都会假设training和inferenc
阅读全文
摘要:AutoEncoder作为NN里的一类模型,采用无监督学习的方式对高维数据进行高效的特征提取和特征表示,并且在学术界和工业界都大放异彩。本文主要介绍AutoEncoder系列模型框架的演进,旨在梳理AutoEncoder的基本原理。首先上图,然后再对他们进行逐一介绍。AutoEncoder的思想最早被提出来要追溯到1988年[1],当时的模型由于数据过于稀疏高维计算复杂度高很难优化,没能得到广泛的...
阅读全文
摘要:Photo by Pavel Anoshin on Unsplash Accompanying GitHub repository: https://github.com/BruceMacD/Adversarial-Faces Usage of facial recognition is on th
阅读全文
摘要:梯度消失与梯度爆炸 梯度为偏导数构成的向量。 损失函数收敛至极小值时,梯度为0(接近0),损失函数不再下降。我们不希望在抵达极小值前,梯度就为0了,也不希望下降过程过于震荡,甚至不收敛。梯度消失与梯度爆炸分别对应这2种现象, 梯度消失(vanishing gradients):指的是在训练过程中,梯
阅读全文
摘要:信息熵、交叉熵、KL散度、JS散度、Wasserstein距离交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。以前做一些分类问题的时候,没有过多的注意,直接调用现成的库,用起来也比较方便。最近开始研究起对抗生成网络(GANs),用到了交叉熵,发现自己对交叉熵的理解有些模糊,不够深入。遂花了几天的时间从头梳理了一下相关知识点,才算透彻的理解了,特地记...
阅读全文
摘要:神经网络的前向传播和反向传播公式详细推导 本篇博客是对Michael Nielsen所著的《Neural Network and Deep Learning》第2章内容的解读,有兴趣的朋友可以直接阅读原文Neural Network and Deep Learning。 对神经网络有些了解的人可能都
阅读全文