摘要: 本文将介绍来自 Salesforce 研究院的 BLIP-2 模型,它支持一整套最先进的视觉语言模型,且已集成入 🤗 Transformers。 我们将向你展示如何将其用于图像字幕生成、有提示图像字幕生成、视觉问答及基于聊天的提示这些应用场景。 简介 近年来,计算机视觉和自然语言处理领域各自都取得 阅读全文
posted @ 2023-03-01 13:08 HuggingFace 阅读(2121) 评论(0) 推荐(0) 编辑
摘要: 人类学习本质上是多模态 (multi-modal) 的,因为联合利用多种感官有助于我们更好地理解和分析新信息。理所当然地,多模态学习的最新进展即是从这一人类学习过程的有效性中汲取灵感,创建可以利用图像、视频、文本、音频、肢体语言、面部表情和生理信号等各种模态信息来处理和链接信息的模型。 自 2021 阅读全文
posted @ 2023-03-01 12:47 HuggingFace 阅读(952) 评论(0) 推荐(1) 编辑
点击右上角即可分享
微信分享提示