Loading

摘要: 摘要 作者提出了VisualBERT这一框架,其由一系列的Transformer layer组成,通过self attention将文本与图像隐式地对齐,甚至对于语法关系也很敏感。 方法 VisualBERT 方法的核心就是使用self attention对输入的文本以及图像区域隐式地进行对齐。这里 阅读全文
posted @ 2023-01-11 16:15 脂环 阅读(65) 评论(0) 推荐(0) 编辑