随笔分类 -  LLM

摘要:1. 视觉多模态简介 视觉多模态一般涵盖2个要点:视觉表征 以及 视觉与自然语言的对齐(Visual Language Alignment)或融合。 1.1. 视觉表征 视觉表征是指:将图像信息转化为深度学习模型可以处理的特征向量或向量序列的过程。具体来说,它包含以下2点: 合理建模视觉输入特征:这 阅读全文
posted @ 2024-11-28 22:58 ZacksTang 阅读(659) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示