摘要: 这个东西大体就是说,之前都是用Imagenet这种一个图片对应一个确定的分类,这样你的输出层softmax就是固定数量的,比如1000选一。 CLIPS可以学习视觉信息和语义信息的对应,用对比学习的方法,这样就可以用大量的社交网络上爬下来的图片以及图片的caption进行训练。说白了就是想用文本(一 阅读全文
posted @ 2023-04-21 15:19 诸葛村夫CC 阅读(240) 评论(0) 推荐(0) 编辑