摘要:
第一节 在写作过程中添加引用。 把别人的话理解后重新表达,而不是简单的拷贝后修改。 引用的时候尽可能引用最初的原始文献。 如果一个文献有期刊、会议、arxiv版,优先级:期刊>会议>arxiv 转引容易出错,需要自己阅读。 剽窃自己的成果也算学术不端,期刊版要引用会议版。 想法撞车:保存可靠证据自证 阅读全文
摘要:
摘要 作者提出了VisualBERT这一框架,其由一系列的Transformer layer组成,通过self attention将文本与图像隐式地对齐,甚至对于语法关系也很敏感。 方法 VisualBERT 方法的核心就是使用self attention对输入的文本以及图像区域隐式地进行对齐。这里 阅读全文
摘要:
摘要 目前的图像文本预训练模型通常通过每个模态全局特征的相似性来建模跨模态的交互,然而这会导致缺乏足够的信息;或者通过在视觉/文本token上使用跨模态注意力/自注意力来建模细粒度的交互,但这会降低训练/推理效率。因此作者提出了一种大规模细粒度的交互模型FILIP,通过跨模态交互实现更精细的对齐。同 阅读全文
摘要:
摘要 CLIP需要用大量数据去训练,因此本文提出一种数据高效的模型DeCLIP,相比于CLIP,使用了(1)每种模态内的自监督;(2)跨模态的多视角监督;(3)来自其它相似图像文本对的最近邻监督,可以在数据量大幅减少的情况下与CLIP-Res50媲美(ImageNet上做zs),同时在下游任务上能取 阅读全文
摘要:
作者自己的解读比较精辟(NeurIPS'21) SegFormer: 简单有效的语义分割新思路 - Anonymous的文章 - 知乎 https://zhuanlan.zhihu.com/p/379054782 摘要 作者提出了基于Transformer的语义分割模型SegFormer,其有两个特 阅读全文
摘要:
Extract Free Dense Labels from CLIP论文阅读笔记 摘要 这篇文章探索的是使用CLIP在像素级别上进行密集预测,作者提出的MaskCLIP可以在没有微调的情况下取得很不错的结果。通过伪标签和自训练的策略,MaskCLIP+可以在zero shot语义分割上达到SOTA 阅读全文
摘要:
4卡080Ti,总的batchsize=4,使用tmux挂在后台训练,经过几个小时发现一直卡在第26个epoch(共60个epoch)的第1400个batch,nvidia-smi查看发现0号和2号卡满载,1号和3号卡在休息...于是只能Ctrl+C。结果突然发现tmux显示到了第4800个batc 阅读全文
摘要:
起因是把别人的用clip做分割的模型加到自己的框架上,结果报这个错。Google了一下,发现可能是如下几种原因:多个loss都要backward却没有retain graphhttps://www.zhihu.com/question/414980879,或者是rnn时对于前一次的输出没有detac 阅读全文
摘要:
版本问题,一个简单的方法是修改源码,将torch.linalg.solve改成torch.solve 阅读全文
摘要:
参考:https://stackoverflow.com/questions/40069344/remote-rejected-master-master-permission-denied git config --global --edit 添加如下内容: [credential] helper 阅读全文