摘要: 前言 视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin,专为视觉语言时代设计。 本文转载自量子位(QbitAI) 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 阅读全文
posted @ 2024-05-07 22:33 CV技术指南(公众号) 阅读(837) 评论(0) 推荐(0) 编辑