05 2024 档案

摘要:​引子 最近鹅厂竟然开源了一个多模态的大模型,之前分享福报厂的多模态视觉大模型(Qwen-VL环境搭建&推理测试-CSDN博客)感兴趣的可以移步。鹅厂开源的,我还是头一回部署。好的,那就让我们看看这个多模态视觉大模型有什么特点吧,首先它说它是汉英双语DiT模型,嗯,这个时候必须再次吐槽下智谱开源的C 阅读全文
posted @ 2024-05-27 09:34 要养家的程序猿 阅读(88) 评论(0) 推荐(0) 编辑
摘要:引子 记得2015年左右,去参加VALSE的时候,就有虚拟试衣的项目亮相。现在回头看看,当时的效果还是十分简陋和不协调的。今天在全球最大的同性交友网站github上突然发现一个不错的虚拟试衣项目,看其效果还是不错,加入了扩散模型,效果看起来有质的提升。OK,让我们开始吧。 一、模型介绍 论文名称:  阅读全文
posted @ 2024-05-22 09:08 要养家的程序猿 阅读(514) 评论(0) 推荐(0) 编辑
摘要:引子 这几天阿里的Qwen2.5大模型在大模型圈引起了轰动,号称地表最强中文大模型。前面几篇也写了QWen的微调等,视觉语言模型也写了一篇CogVLM,感兴趣的小伙伴可以移步https://blog.csdn.net/zzq1989_/article/details/138118608?spm=10 阅读全文
posted @ 2024-05-13 11:47 要养家的程序猿 阅读(887) 评论(0) 推荐(0) 编辑
摘要:一、引子 CV做了这么多年,大多是在固定的数据集上训练,微调,测试。突然想起来一句话,I have a dream!就是能不能不用再固定训练集上捣腾,也就是所谓的开放词汇目标检测(OVD)。偶尔翻翻AI新闻,发现现在CV领域有在卷开集目标检测的趋势。刚好翻到,YOLO-World这一开源项目。OK, 阅读全文
posted @ 2024-05-06 17:26 要养家的程序猿 阅读(1842) 评论(0) 推荐(0) 编辑