摘要: 视觉语言模型可以同时从图像和文本中学习,因此可用于视觉问答、图像描述等多种任务。本文,我们将带大家一览视觉语言模型领域: 作个概述、了解其工作原理、搞清楚如何找到真命天“模”、如何对其进行推理以及如何使用最新版的 trl 轻松对其进行微调。 什么是视觉语言模型? 视觉语言模型是可以同时从图像和文本中 阅读全文
posted @ 2024-04-29 23:55 HuggingFace 阅读(1508) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示