01 2023 档案

摘要:摘要 本文的主要贡献是提出了一种连续学习的方法L2P,可以自动学习提示(Prompt)一个预训练的模型,从而能够在学习一系列的任务的同时减轻灾难性遗忘,并且这个过程无需使用记忆回放等方法。本文的方法中提示是小的可学习的参数,最终目的是优化提示从而在保证可塑性的同时指导模型的预测以及明确地管理任务变量 阅读全文
posted @ 2023-01-29 21:34 脂环 阅读(703) 评论(0) 推荐(0) 编辑
摘要:第一节 在写作过程中添加引用。 把别人的话理解后重新表达,而不是简单的拷贝后修改。 引用的时候尽可能引用最初的原始文献。 如果一个文献有期刊、会议、arxiv版,优先级:期刊>会议>arxiv 转引容易出错,需要自己阅读。 剽窃自己的成果也算学术不端,期刊版要引用会议版。 想法撞车:保存可靠证据自证 阅读全文
posted @ 2023-01-13 14:05 脂环 阅读(162) 评论(1) 推荐(1) 编辑
摘要:摘要 作者提出了VisualBERT这一框架,其由一系列的Transformer layer组成,通过self attention将文本与图像隐式地对齐,甚至对于语法关系也很敏感。 方法 VisualBERT 方法的核心就是使用self attention对输入的文本以及图像区域隐式地进行对齐。这里 阅读全文
posted @ 2023-01-11 16:15 脂环 阅读(136) 评论(0) 推荐(0) 编辑
摘要:摘要 目前的图像文本预训练模型通常通过每个模态全局特征的相似性来建模跨模态的交互,然而这会导致缺乏足够的信息;或者通过在视觉/文本token上使用跨模态注意力/自注意力来建模细粒度的交互,但这会降低训练/推理效率。因此作者提出了一种大规模细粒度的交互模型FILIP,通过跨模态交互实现更精细的对齐。同 阅读全文
posted @ 2023-01-10 21:59 脂环 阅读(335) 评论(0) 推荐(0) 编辑
摘要:摘要 CLIP需要用大量数据去训练,因此本文提出一种数据高效的模型DeCLIP,相比于CLIP,使用了(1)每种模态内的自监督;(2)跨模态的多视角监督;(3)来自其它相似图像文本对的最近邻监督,可以在数据量大幅减少的情况下与CLIP-Res50媲美(ImageNet上做zs),同时在下游任务上能取 阅读全文
posted @ 2023-01-10 15:56 脂环 阅读(74) 评论(0) 推荐(0) 编辑
摘要:作者自己的解读比较精辟(NeurIPS'21) SegFormer: 简单有效的语义分割新思路 - Anonymous的文章 - 知乎 https://zhuanlan.zhihu.com/p/379054782 摘要 作者提出了基于Transformer的语义分割模型SegFormer,其有两个特 阅读全文
posted @ 2023-01-04 14:51 脂环 阅读(729) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
主题色彩