2021 年 7月 15 日随笔档案 - HackerChen

2021年7月15日

摘要：我们生活在一个多模态的世界中。视觉的捕捉与理解，知识的学习与感知，语言的交流与表达，诸多方面的信息促进着我们对于世界的认知。作为多模态领域的一个典型场景，VQA旨在结合视觉的信息来回答所提出的问题。从15年首次被提出[1]至今，其涉及的方法从最开始的联合编码，到双线性融合，注意力机制，组合模型，阅读全文

posted @ 2021-07-15 16:28 HackerChen 阅读(1228) 评论(0) 推荐(1) 编辑

hackerchenzhuo

公告