随笔分类 -  论文解析

解析近年来的优秀论文
摘要:YOLO v9的工作重点是可编程梯度信息和GELAN。后者好像没啥用,核心点事PGI(可编程梯度信息),这个trick即为添加浅层的任务分支辅助模型优化浅层特征。根据代码绘制了模型框架图(基于yolov9-c.yaml): 其中输出全部交由检测头处理,检测头的处理示意图为: 其中黄色部分即为PGI部 阅读全文
posted @ 2024-04-02 09:05 巴蜀秀才 阅读(195) 评论(0) 推荐(1) 编辑
摘要:DyHead: 基于注意力机制的目标检测头 作者:elfin 资料来源:DyHead 论文:https://arxiv.org/pdf/2106.08322.pdf 代码:https://github.com/microsoft/DynamicHead 一、摘要 ​ 目标检测中定位和分类相结合的复杂 阅读全文
posted @ 2022-06-18 15:18 巴蜀秀才 阅读(13057) 评论(0) 推荐(1) 编辑
摘要:Masked Autoencoders Are Scalable Vision Learners 作者:elfin 资料来源:MAE MAE模型第一次在arxiv上发表是2021年11月11日,截止2022年6月15日,大佬发布的最后一版是V3发布日期是2021年12月19日。 论文:https:/ 阅读全文
posted @ 2022-06-16 10:38 巴蜀秀才 阅读(2789) 评论(0) 推荐(0) 编辑
摘要:Swin Transformer V2: Scaling Up Capacity and Resolution 作者:elfin 资料来源:Swin V2 论文地址: https://arxiv.org/abs/2111.09883 如V2名字所言,这里增大了模型的冗余和输入的分辨率! V1论文解析 阅读全文
posted @ 2022-06-14 18:09 巴蜀秀才 阅读(2532) 评论(0) 推荐(0) 编辑
摘要:ConvNeXt: 20年代的卷积网络 作者:elfin 参考资料来源:ConvNeXt 项目地址:https://github.com/facebookresearch/ConvNeXt 论文地址:https://arxiv.org/abs/2201.03545 Top Bottom 摘要 ​ 视 阅读全文
posted @ 2022-03-05 17:50 巴蜀秀才 阅读(1253) 评论(0) 推荐(1) 编辑
摘要:VAN:Visual Attention Network 作者:elfin 参考资料来源:Perceiver 项目地址:https://github.com/Visual-Attention-Network 论文地址:https://arxiv.org/pdf/2202.09741.pdf 一、摘要 阅读全文
posted @ 2022-02-25 12:05 巴蜀秀才 阅读(2872) 评论(0) 推荐(0) 编辑
摘要:Perceiver: General Perception with Iterative Attention 作者:elfin 参考资料来源:Perceiver 带有输出的论文Perceiver IO 摘要 ​ 生物系统通过同时处理来自视觉、听觉、触觉、本体感觉等多种模式的高维输入来感知世界。然而深 阅读全文
posted @ 2022-01-28 17:37 巴蜀秀才 阅读(1017) 评论(0) 推荐(0) 编辑
摘要:VSR: A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations 作者:elfin VSR: Vision, Semantics and Relations. 总结:VSR使 阅读全文
posted @ 2022-01-11 11:10 巴蜀秀才 阅读(716) 评论(0) 推荐(0) 编辑
摘要:LGPMA:Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment 基于局部和全局金字塔掩码对齐的复杂表格结构识别 论文:https://arxiv.org/pdf/2105.06224 阅读全文
posted @ 2021-11-11 17:24 巴蜀秀才 阅读(2009) 评论(0) 推荐(0) 编辑
摘要:Attention Is All You Need 作者:elfin 参考资料来源:transformer Top Bottom ​ transformer家族近期炙手可热,不仅霸占了NLP领域的江山,在CV领域也有踢馆CNN的趋势 。那么它有那么牛吗?牛啊牛?在弱人工智能时代,没有永远的神,tra 阅读全文
posted @ 2021-07-17 18:13 巴蜀秀才 阅读(807) 评论(0) 推荐(0) 编辑
摘要:You Only Learn One Representation: 对于多任务的统一网络 作者:elfin 参考资料来源:YOLOR Top Bottom 论文地址:https://arxiv.org/abs/2105.04206 项目地址:https://github.com/WongKinYi 阅读全文
posted @ 2021-07-16 15:26 巴蜀秀才 阅读(2976) 评论(0) 推荐(0) 编辑
摘要:Autoformer:用于长期序列预测的自相关分解Transformer 作者:elfin 参考资料来源:Autoformer 摘要 ​ 时间的长依赖预测是极端天气预警和长期能源消耗规划等实际应用的关键需求。本文研究时间序列的长期预测问题。先前的tranformer模型采用各种自我注意机制来发现长期 阅读全文
posted @ 2021-07-14 14:31 巴蜀秀才 阅读(1850) 评论(0) 推荐(1) 编辑
摘要:LV-VIT论文技术点分析 作者:elfin 参考资料来源:LV-VIT 本文转载于参考资源 论文:https://arxiv.org/pdf/2104.10858.pdf 项目:https://github.com/zihangJiang/TokenLabeling Top Bottom 1、总结 阅读全文
posted @ 2021-07-10 17:20 巴蜀秀才 阅读(592) 评论(1) 推荐(0) 编辑
摘要:LV-VIT论文技术点分析 作者:elfin 参考资料来源:LV-VIT 本文转载于参考资源 论文:https://arxiv.org/pdf/2104.10858.pdf 项目:https://github.com/zihangJiang/TokenLabeling Top Bottom 1、总结 阅读全文
posted @ 2021-07-06 16:11 巴蜀秀才 阅读(462) 评论(0) 推荐(0) 编辑
摘要:超越CNN的transformer:VOLO 作者:elfin 参考资料来源:VOLO ​ Transformer技术在CV领域大有"取代"CNN结构的趋势,但是不管是VIT、还是Swin Transformer感觉都差一点火候。这些引入“注意力”的模型在学者的手中,总是告诉我们其很美好,但是在实际 阅读全文
posted @ 2021-07-01 18:06 巴蜀秀才 阅读(926) 评论(0) 推荐(0) 编辑
摘要:CTC::Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks(论文解析) 作者:elfin 资料来源:CTC论文 论文地址:https:// 阅读全文
posted @ 2021-06-19 09:41 巴蜀秀才 阅读(263) 评论(0) 推荐(0) 编辑
摘要:DropPath 解析 作者:elfin Top Bottom DropPath是将深度学习模型中的多分支结构随机”删除“ https://github.com/yueatsprograms/Stochastic_Depth 1、DropPath实现 def drop_path(x, drop_pr 阅读全文
posted @ 2021-04-26 09:40 巴蜀秀才 阅读(4901) 评论(0) 推荐(2) 编辑
摘要:Swin Transformer 作者:elfin 资料来源:Swin 论文地址:https://arxiv.org/abs/2103.14030 项目地址:https://github.com/microsoft/Swin-Transformer Top Bottom 摘要 ​ 本文提出了一种新的 阅读全文
posted @ 2021-04-15 09:52 巴蜀秀才 阅读(4494) 评论(0) 推荐(0) 编辑
摘要:BoTNet::Bottleneck Transformers for Visual Recognition(视觉识别的瓶颈transformer) 作者:elfin 资料来源:BoTNet Top Bottom 0、摘要 ​ 我们提出了BoTNet,一个简单但功能强大的骨干网络,可用于多种视觉任务 阅读全文
posted @ 2021-04-02 09:56 巴蜀秀才 阅读(2110) 评论(0) 推荐(0) 编辑
摘要:DB--数据增强、加载 作者:elfin 资料来源:DB源码 1、DataLoader简介 以train为例,模型为resnet50,使用配置experiments/seg_detector/totaltext_resnet50_deform_thre.yaml。 train_data_loader 阅读全文
posted @ 2021-03-20 09:15 巴蜀秀才 阅读(611) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示