11 2024 档案
摘要:1. 视觉多模态简介 视觉多模态一般涵盖2个要点:视觉表征 以及 视觉与自然语言的对齐(Visual Language Alignment)或融合。 1.1. 视觉表征 视觉表征是指:将图像信息转化为深度学习模型可以处理的特征向量或向量序列的过程。具体来说,它包含以下2点: 合理建模视觉输入特征:这
阅读全文
摘要:1. 向量检索 在向量检索中,KNN(K-Nearest Neighbors)和ANN(Approximate Nearest Neighbor)是两种最常见的方法,它们都用于根据特征向量找到数据点之间的相似性,但它们在精确度和效率上有所不同。 KNN是一种基本的分类和回归方法,它根据一个样本在特征
阅读全文