随笔 - 13  文章 - 0  评论 - 0  阅读 - 384

随笔分类 -  paper notes

可视化CLIP视觉编码器内部注意力热力图
摘要:动机 近期,笔者在研究LLaVA[1]时,注意到LLaVA使用ViT(Vision Transformer)倒数第二层的输出作为视觉特征。消融实验显示,使用倒数第二层的效果略好于最后一层。作者猜测,这可能是因为最后一层特征更关注全局和抽象信息,而倒数第二层更多关注局部信息,从而有利于理解图像细节。 阅读全文
posted @ 2025-01-24 01:07 LittleHenry 阅读(27) 评论(0) 推荐(0) 编辑
MLLM_20241121
摘要:Paper 1 题目: Classification Done Right for Vision-Language Pre-Training 作者团队: 字节豆包大模型团队 链接: https://arxiv.org/abs/2411.03313 1. 论文试图解决什么问题?是否是一个新问题? 当前 阅读全文
posted @ 2024-12-06 18:39 LittleHenry 阅读(23) 评论(0) 推荐(0) 编辑
MLLM_20241117
摘要:Paper 1 题目: INFERENCE OPTIMAL VLMS NEED ONLY ONE VISUAL TOKEN BUT LARGER MODELS 作者团队: Kevin Y. Li, Sachin Goyal, João D. Semedo, J. Zico Kolter (CMU) 阅读全文
posted @ 2024-11-17 21:37 LittleHenry 阅读(83) 评论(0) 推荐(0) 编辑
MLLM_20241101
摘要:Paper 1 题目: LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding 作者团队: Meta AI, KAUST, Korea University 链接: https://arxiv 阅读全文
posted @ 2024-11-08 21:18 LittleHenry 阅读(36) 评论(0) 推荐(0) 编辑
MLLM_20241025
摘要:Paper 1 题目: Yo’LLaVA: Your Personalized Language and Vision Assistant 作者: Thao Nguyen, Haotian Liu, Yuheng Li, Mu Cai, Utkarsh Ojha, Yong Jae Lee 团队: 阅读全文
posted @ 2024-11-08 21:10 LittleHenry 阅读(44) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示