2024-02-06 - 目标检测新范式Glip模型 - 卢菁

2024-02-05 周一桑梓地阴

小记: 多模态大模型搞的脑子有点炸呀！！！

目标: 目标检测
优点: zero-shot,目标检测的类就可以不在训练样本中出现；
yolos和detr共同的缺点: 模型训练一定要事先知道所有的类别。

关键点: 图片上的内容和文本上的内容是可以对应起来的。

问题: 但是上述两种均存在无法检测，训练集中没有出现的类别，因为没有理解类别的语义，只是把类别当作 one-hot 处理；

克服上述两种方法的缺点，把分类问题转变为匹配问题，理解类别的语义，进行匹配。

心得: 什么是多模态，就是文本和图片识别进行了深度融合，对于高等智慧体的理解或许不用拟人化，他们可以感知和识别，但不用人类一样需要眼睛或者耳朵。

posted @ 2024-02-05 16:42 流雨声阅读(195) 评论(0) 收藏举报

刷新页面返回顶部

流雨声