摘要: 随着meta的llama流出以后,基于llama的微调模型不断的出现,首先meta只给出了微调模型,并没有给出如何训练的,那作为个人研究者,假设在硬件资源支持的情况下,我们该如何去训练专属自己业务的大模型呢? 首先是数据支持,我们要区分你想训练的是大模型还是多模态,这两个任务的数据集的存储空间是完全 阅读全文
posted @ 2023-05-08 17:52 海_纳百川 阅读(408) 评论(0) 推荐(0) 编辑
摘要: 1. ALBEF: ALign the image and text BEfore Fusing 1.1 论文与代码链接: ​​​​​​https://arxiv.org/abs/2107.07651 GitHub - salesforce/ALBEF: Code for ALBEF: a new 阅读全文
posted @ 2023-05-08 16:58 海_纳百川 阅读(779) 评论(0) 推荐(0) 编辑
摘要: 以下是当今多模态研究的方向视觉 VG:视觉生成 VQA:视觉问答 VC:视觉字幕 VCR:视觉常识性推理 分类 MAC:多模态情感计算 NLVC:视频推理的自然语言 检索任务 VR:视觉检索(CLIP就属于视觉检索) 其他 VLN:视觉语言导航 MMT:多模态机器翻译 阅读全文
posted @ 2023-05-08 15:57 海_纳百川 阅读(92) 评论(0) 推荐(0) 编辑
摘要: Conceptual Caption 简称cc,minigpt4就使用这个数据集,一个大规模的图像文本配对数据集,包含超过30万个图像,每个图像都有5个人工描述。这个数据集的目的是为了促进计算机视觉和自然语言处理之间的研究交叉,可以用于图像检索、视觉问答等任务的训练和评估。 Conceptual C 阅读全文
posted @ 2023-05-08 15:35 海_纳百川 阅读(1953) 评论(0) 推荐(0) 编辑
摘要: 先立个帖子 阅读全文
posted @ 2023-05-08 14:21 海_纳百川 阅读(10) 评论(0) 推荐(0) 编辑
本站总访问量