随笔分类 -  AutoML

摘要:【GiantPandaCV导语】CoAt=Convolution + Attention,paperwithcode榜单第一名,通过结合卷积与Transformer实现性能上的突破,方法部分设计非常规整,层层深入考虑模型的架构设计。 引言 Transformer模型的容量大,由于缺乏正确的归纳偏置, 阅读全文
posted @ 2022-01-08 18:27 pprp 阅读(806) 评论(0) 推荐(0) 编辑
摘要:【GiantPandaCV导语】收集自RepDistiller中的蒸馏方法,尽可能简单解释蒸馏用到的策略,并提供了实现源码。 1. KD: Knowledge Distillation 全称:Distilling the Knowledge in a Neural Network 链接:https: 阅读全文
posted @ 2021-12-13 12:27 pprp 阅读(2057) 评论(0) 推荐(2) 编辑
摘要:【GiantPandaCV导语】知识蒸馏将教师网络中的知识迁移到学生网络,而NAS中天然的存在大量的网络,使用KD有助于提升超网整体性能。两者结合出现了许多工作,本文收集了部分代表性工作,并进行总结。 1. 引言 知识蒸馏可以看做教师网络通过提供soft label的方式将知识传递到学生网络中,可以 阅读全文
posted @ 2021-12-12 19:34 pprp 阅读(533) 评论(0) 推荐(0) 编辑
摘要:【GiantPandaCV导语】Knowledge Distillation A Suvery的第二部分,上一篇介绍了知识蒸馏中知识的种类,这一篇介绍各个算法的蒸馏机制,根据教师网络是否和学生网络一起更新,可以分为离线蒸馏,在线蒸馏和自蒸馏。 感性上理解三种蒸馏方式: 离线蒸馏可以理解为知识渊博的老 阅读全文
posted @ 2021-12-04 14:15 pprp 阅读(1428) 评论(0) 推荐(0) 编辑
摘要:知识蒸馏综述: 知识的类型 【GiantPandCV引言】简单总结一篇综述《Knowledge Distillation A Survey》中的内容,提取关键部分以及感兴趣部分进行汇总。这篇是知识蒸馏综述的第一篇,主要内容为知识蒸馏中知识的分类,包括基于响应的知识、基于特征的知识和基于关系的知识。 阅读全文
posted @ 2021-11-28 09:49 pprp 阅读(1008) 评论(0) 推荐(0) 编辑
摘要:【GiantPandaCV导语】Deep Mutual Learning是Knowledge Distillation的外延,经过测试(代码来自Knowledge-Distillation-Zoo), Deep Mutual Learning性能确实超出了原始KD很多,所以本文分析这篇CVPR201 阅读全文
posted @ 2021-11-16 22:09 pprp 阅读(1262) 评论(0) 推荐(0) 编辑
摘要:【GiantPandaCV导语】相比于普通的分类网络,基于超网的NAS更加难以训练,会出现收敛效果较差甚至不收敛的情况。并且,基于超网的NAS还需要额外关注子网的排序一致性等问题,训练策略的选择也极为重要。AutoSlim, BigNAS等文章都花费了大量篇幅来讲解超网的训练技巧。本文是CVPR20 阅读全文
posted @ 2021-11-05 09:44 pprp 阅读(179) 评论(0) 推荐(0) 编辑
摘要:【GiantPandaCV导语】本文介绍的是NAS中的一个benchmark-NASBench301, 由automl.org组织发表,其核心思想是针对表格型基准存在的不足提出使用代理模型拟合架构与对应准确率。 Paper: NAS-Bench-301 and The case for surrog 阅读全文
posted @ 2021-11-01 08:16 pprp 阅读(583) 评论(0) 推荐(0) 编辑
摘要:【GiantPandaCV导语】本文介绍的是韩松团队针对欠拟合问题提出的一种解决方案,在代价可接受范围内能够提升小模型的性能。 引入 专用于解决小型网络模型欠拟合 带来的问题,通过引入更大的模型包围住小模型从而得到额外的监督信息。欠拟合情况下使用正则化方法进行处理会导致性能更差。 NetAug适用场 阅读全文
posted @ 2021-10-28 14:16 pprp 阅读(211) 评论(0) 推荐(0) 编辑
摘要:【GiantPandaCV导语】知识蒸馏结合NAS的一篇工作,提出了DNA,让教师网络来指导超网的学习。这个工作将知识蒸馏非常深入的融合在一起,有很强的创新性,已被CVPR20接收。 1. 背景介绍 知识蒸馏通常作为One-Shot NAS中的一个训练技巧,但是他起到非常大的作用。 简便起见,知识蒸 阅读全文
posted @ 2021-09-27 15:31 pprp 阅读(268) 评论(0) 推荐(0) 编辑
摘要:题目:Training data-efficient image transformers & distillation through attention 【GiantPandaCV导语】Deit是一个全Transformer的架构,没有使用任何的卷及操作。其核心是将蒸馏方法引入VIT的训练,引入 阅读全文
posted @ 2021-09-24 10:19 pprp 阅读(1682) 评论(0) 推荐(0) 编辑
摘要:【GiantPandaCV导语】这篇是Slimmable Network三部曲之后的续作,提出了Single-Stage的超网训练方法,在更大的搜索空间中,提出了很多训练的Trick来提升训练效果以及稳定训练过程。 0. Info Title: BigNAS: Scaling Up Neural A 阅读全文
posted @ 2021-09-17 10:12 pprp 阅读(223) 评论(0) 推荐(0) 编辑
摘要:【GiantPandaCV导读】learning rate对模型调优重要性不言而喻,想到超参数调优第一个可能想到的方法就是网格搜索Grid Search,但是这种方法需要大量的计算资源。之前使用fastai的时候发现其集成了一个功能叫lr_finder(), 可以快速找到合适的学习率,本文就主要分析 阅读全文
posted @ 2021-07-06 09:33 pprp 阅读(1464) 评论(0) 推荐(1) 编辑
摘要:【GiantPandaCV导语】这篇是MIT韩松实验室发布的文章,是第一个直接在ImageNet上进行搜索的NAS算法,并且提出了直接在目标硬件上对latency进行优化的方法。相比于同期算法NASNet、MnasNet等,搜索代价降低了200倍。 0. Info Title: ProxylessN 阅读全文
posted @ 2021-07-01 11:15 pprp 阅读(418) 评论(0) 推荐(0) 编辑
摘要:ICLR 2021 Workshop 接收 Measuring Uncertainty through Bayesian Learning of Deep Neural Network Structure Zhijie Deng, Yucen Luo and Jun Zhu PDF AutoHAS: 阅读全文
posted @ 2021-06-22 09:40 pprp 阅读(522) 评论(0) 推荐(0) 编辑
摘要:Neural Architecture Search with Random Labels Landmark Regularization: Ranking Guided Super-Net Training in Neural Architecture Search AttentiveNAS: I 阅读全文
posted @ 2021-06-22 09:15 pprp 阅读(258) 评论(0) 推荐(0) 编辑
摘要:【GiantPandaCV导语】Once for all是韩松组非常有影响力的工作,其最大的优点是解耦了训练和搜索过程,可以直接从超网中采样出满足一定资源限制的子网,而不需要重新训练。该工作被ICLR20接收。 0. Info Title: Once-for-All: Train one Netwo 阅读全文
posted @ 2021-05-28 14:15 pprp 阅读(385) 评论(0) 推荐(0) 编辑
摘要:【前言】现在深度学习项目代码量越来越大,并且单个文件的量也非常的大。笔者总结了一些专家的经验并结合自己看的一些项目,打算总结一下如何探索和深入一个深度学习项目库。笔者pprp,未经允许不得擅自转发。 1. 基础知识 首先,需要保证有一定的深度学习基础知识,吴恩达的深度学习课还有斯坦福大学的CS231 阅读全文
posted @ 2021-05-27 21:48 pprp 阅读(1890) 评论(0) 推荐(0) 编辑
摘要:Parameter : 模型中的一种可以被反向传播更新的参数。 第一种: 直接通过成员变量nn.Parameter()进行创建,会自动注册到parameter中。 def __init__(self): super(MyModel, self).__init__() self.param = nn. 阅读全文
posted @ 2021-05-27 11:01 pprp 阅读(219) 评论(0) 推荐(0) 编辑
摘要:【前言】Drop Path是NAS中常用到的一种正则化方法,由于网络训练的过程中常常是动态的,Drop Path就成了一个不错的正则化工具,在FractalNet、NASNet等都有广泛使用。 Dropout Dropout是最早的用于解决过拟合的方法,是所有drop类方法的大前辈。Dropout在 阅读全文
posted @ 2021-05-26 21:50 pprp 阅读(4951) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示