随笔分类 - 算法学习
摘要:【GiantPandaCV导语】CoAt=Convolution + Attention,paperwithcode榜单第一名,通过结合卷积与Transformer实现性能上的突破,方法部分设计非常规整,层层深入考虑模型的架构设计。 引言 Transformer模型的容量大,由于缺乏正确的归纳偏置,
阅读全文
摘要:【GiantPandaCV导语】来自商汤和南洋理工的工作,也是使用卷积来增强模型提出low-level特征的能力,增强模型获取局部性的能力,核心贡献是LCA模块,可以用于捕获多层特征表示。 引言 针对先前Transformer架构需要大量额外数据或者额外的监督(Deit),才能获得与卷积神经网络结构
阅读全文
摘要:【GiantPandaCV导语】与之前BoTNet不同,CvT虽然题目中有卷积的字样,但是实际总体来说依然是以Transformer Block为主的,在Token的处理方面引入了卷积,从而为模型带来的局部性。最终CvT最高拿下了87.7%的Top1准确率。 引言 CvT架构的Motivation也
阅读全文
摘要:【GiantPandaCV导语】基于Transformer的骨干网络,同时使用卷积与自注意力机制来保持全局性和局部性。模型在ResNet最后三个BottleNeck中使用了MHSA替换3x3卷积。属于早期的结合CNN+Transformer的工作。简单来讲Non-Local+Self Attenti
阅读全文
摘要:A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP 【GiantPandaCV导语】ViT的兴起挑战了CNN的地位,随之而来的是MLP系列方法。三种架构各有特点,为了公平地比较几种架构,本文提
阅读全文
摘要:【GiantPandaCV导语】知识蒸馏将教师网络中的知识迁移到学生网络,而NAS中天然的存在大量的网络,使用KD有助于提升超网整体性能。两者结合出现了许多工作,本文收集了部分代表性工作,并进行总结。 1. 引言 知识蒸馏可以看做教师网络通过提供soft label的方式将知识传递到学生网络中,可以
阅读全文
摘要:【GiantPandaCV导语】Knowledge Distillation A Suvery的第二部分,上一篇介绍了知识蒸馏中知识的种类,这一篇介绍各个算法的蒸馏机制,根据教师网络是否和学生网络一起更新,可以分为离线蒸馏,在线蒸馏和自蒸馏。 感性上理解三种蒸馏方式: 离线蒸馏可以理解为知识渊博的老
阅读全文
摘要:知识蒸馏综述: 知识的类型 【GiantPandCV引言】简单总结一篇综述《Knowledge Distillation A Survey》中的内容,提取关键部分以及感兴趣部分进行汇总。这篇是知识蒸馏综述的第一篇,主要内容为知识蒸馏中知识的分类,包括基于响应的知识、基于特征的知识和基于关系的知识。
阅读全文
摘要:【GiantPandaCV导语】Deep Mutual Learning是Knowledge Distillation的外延,经过测试(代码来自Knowledge-Distillation-Zoo), Deep Mutual Learning性能确实超出了原始KD很多,所以本文分析这篇CVPR201
阅读全文
摘要:【GiantPandaCV导语】调研分类方法的时候师姐推荐的一篇paper,其核心是训练的时候使用小分辨率,测试的时候使用大分辨率(训练分辨率的1.15倍),能够有效提升验证精度。 Motivation ImageNet数据集分类模型通常采用的数据增强方式会导致训练时和测试时的模型看到的目标尺寸出现
阅读全文
摘要:【GiantPandaCV导语】相比于普通的分类网络,基于超网的NAS更加难以训练,会出现收敛效果较差甚至不收敛的情况。并且,基于超网的NAS还需要额外关注子网的排序一致性等问题,训练策略的选择也极为重要。AutoSlim, BigNAS等文章都花费了大量篇幅来讲解超网的训练技巧。本文是CVPR20
阅读全文
摘要:【GiantPandaCV导语】本文介绍的是韩松团队针对欠拟合问题提出的一种解决方案,在代价可接受范围内能够提升小模型的性能。 引入 专用于解决小型网络模型欠拟合 带来的问题,通过引入更大的模型包围住小模型从而得到额外的监督信息。欠拟合情况下使用正则化方法进行处理会导致性能更差。 NetAug适用场
阅读全文
摘要:Neural Architecture Search with Random Labels Landmark Regularization: Ranking Guided Super-Net Training in Neural Architecture Search AttentiveNAS: I
阅读全文
摘要:1. INFO Title: SMASH: One-Shot Model Architecture Search through HyperNetworks Author: Andrew Brock, Theodore Lim, & J.M. Ritchie Link: https://arxiv.
阅读全文
摘要:BatchNorm, 批规范化,主要用于解决协方差偏移问题,主要分三部分: 计算batch均值和方差 规范化 仿射affine 算法内容如下: 需要说明几点: 均值和方差是batch的统计特性,pytorch中用running_mean和running_var表示 $\gamma \bet
阅读全文
摘要:Parameter : 模型中的一种可以被反向传播更新的参数。 第一种: 直接通过成员变量nn.Parameter()进行创建,会自动注册到parameter中。 def __init__(self): super(MyModel, self).__init__() self.param = nn.
阅读全文
摘要:【GiantPandaCV导语】Neural Network Intelligence 是一个工具包,可以有效帮助用户设计并调优汲取学习模型的神经网络架构,以及超参数。具有易于使用、可扩展、灵活、高效的特点。本文主要讲NNI基础的概念以及一个训练MNIST的入门教程。本文首发于GiantPandaC
阅读全文
摘要:【GiantPandaCV导语】本文介绍的是Efficient Neural Architecture Search方法,主要是为了解决之前NAS中无法完成权重重用的问题,首次提出了参数共享Parameter Sharing的方法来训练网络,要比原先标准的NAS方法降低了1000倍的计算代价。从一个
阅读全文
摘要:1. 基础知识 1.1 条件概率 一个事件概率依赖于另外一个事件(已发生)的度量。 的意义是在A发生的情况下B事件发生的概率。这就是条件概率。 代表的意义是,AB事件同时发生的概率等于事件A发生的概率乘以在A发生条件下B事件
阅读全文
摘要:1. 四种情况 Precision精确率, Recall召回率,是二分类问题常用的评价指标。混淆矩阵如下: T和F代表True和False,是形容词,代表预测是否正确。 P和N代表Positive和Negative,是预测结果。 | | 预测结果为阳性 Positive | 预测结果为假阳性 Neg
阅读全文