2024 年 6月 29 日随笔档案 - 沐沐mu

2024年6月29日

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

摘要：研究问题 1.作者认为LLM（GPT-4、Gemini）已经很先进了，视觉模态的大模型于LLM性能之间存在gap。 2. 对于视觉自身，图像分辨率是一个核心因素，但是提高分辨率对计算性能和cost有要求。综上所述，作者希望“how to push forward the VLMs approach 阅读全文

posted @ 2024-06-29 21:36 沐沐mu 阅读(44) 评论(0) 推荐(0) 编辑

沐沐mu

凡心所向，素履以往