会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
LittleHenry
博客园
首页
新随笔
联系
订阅
管理
01 2025 档案
可视化CLIP视觉编码器内部注意力热力图
摘要:动机 近期,笔者在研究LLaVA[1]时,注意到LLaVA使用ViT(Vision Transformer)倒数第二层的输出作为视觉特征。消融实验显示,使用倒数第二层的效果略好于最后一层。作者猜测,这可能是因为最后一层特征更关注全局和抽象信息,而倒数第二层更多关注局部信息,从而有利于理解图像细节。
阅读全文
posted @
2025-01-24 01:07
LittleHenry
阅读(3003)
评论(3)
推荐(0)