SigLIP 2:多语言语义理解、定位和密集特征的视觉语言编码器
SigLIP 2 是一个新型多语言视觉-语言编码器系列,通过整合基于字幕的预训练、自监督学习机制(包括自蒸馏和掩码预测)以及在线数据管理策略,对原始 SigLIP 模型进行了显著改进。这些优化使 SigLIP 2 在零样本分类、图像-文本检索以及为视觉语言模型(VLM)提供视觉表示提取方面均取得了卓越性能。模型在定位和密集预测任务中展现出明显提升,同时支持多种分辨率处理,并能保持图像原始纵横比。
SigLIP 2 提供四种模型规格:ViT-B (86M)、L (303M)、So400m (400M) 和 g (1B)。
https://avoid.overfit.cn/post/8d325c653acb4c3f8a1e83c649551f6a