2022 年 9月 3 日随笔档案 - CV技术指南（公众号）

2022年9月3日

ECCV 2022 | k-means Mask Transformer

摘要：前言目前，大多数现有的基于transformer的视觉模型只是借用了自然语言处理的思想，忽略了语言和图像之间的关键差异，特别是空间扁平像素特征的巨大序列长度。这阻碍了在像素特征和对象查询之间交叉注意的学习。在本文中，作者重新思考像素和对象查询之间的关系，并提出将交叉注意学习重新定义为一个聚类过程。阅读全文

posted @ 2022-09-03 20:44 CV技术指南（公众号）阅读(135) 评论(0) 推荐(0) 编辑

公告