摘要: ​引子 基于单目摄像头的深度估计,一直是CV领域的一个难点,之前也对此关注也不够多。偶然浏览技术博客,看到Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data这个最新CVPR2024的工作。看到名字,大概也能猜出来这篇是 阅读全文
posted @ 2024-06-24 10:39 要养家的程序猿 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 引子 最近在关注多模态大模型,之前4月份的时候关注过CogVLM(https://blog.csdn.net/zzq1989_/article/details/138337071?spm=1001.2014.3001.5501)。模型整体表现还不错,不过不支持中文。智谱AI刚刚开源了GLM-4大模型 阅读全文
posted @ 2024-06-17 11:51 要养家的程序猿 阅读(15) 评论(0) 推荐(0) 编辑
摘要: ​引子 最近看新闻博客说零一科技的Yi-VL-Plus视觉大模型效果很不错,那就想着尝尝鲜。这是第四篇关于视觉大模型的博客。之前有写过一篇零一科技的chat大模型零一科技Yi-34B Chat大模型环境搭建&推理_python部署大模型yi-34b-chat-CSDN博客,感兴趣的童鞋可以移步。我个 阅读全文
posted @ 2024-06-11 09:22 要养家的程序猿 阅读(43) 评论(0) 推荐(0) 编辑
摘要: ​引子 两个多月前YOLOv9发布(感兴趣的童鞋可以移步YOLOv9环境搭建&推理测试_yolov9安装-CSDN博客),这才过去这么短的时间,YOLOv10就横空出世了。现在YOLO系列搞得就和追剧一样了。。。OK,那就让我们开始吧。 一、模型介绍 1、作者提出了一种新颖的一致性双重分配策略,用于 阅读全文
posted @ 2024-06-03 10:49 要养家的程序猿 阅读(389) 评论(0) 推荐(0) 编辑
摘要: ​引子 最近鹅厂竟然开源了一个多模态的大模型,之前分享福报厂的多模态视觉大模型(Qwen-VL环境搭建&推理测试-CSDN博客)感兴趣的可以移步。鹅厂开源的,我还是头一回部署。好的,那就让我们看看这个多模态视觉大模型有什么特点吧,首先它说它是汉英双语DiT模型,嗯,这个时候必须再次吐槽下智谱开源的C 阅读全文
posted @ 2024-05-27 09:34 要养家的程序猿 阅读(46) 评论(0) 推荐(0) 编辑
摘要: 引子 记得2015年左右,去参加VALSE的时候,就有虚拟试衣的项目亮相。现在回头看看,当时的效果还是十分简陋和不协调的。今天在全球最大的同性交友网站github上突然发现一个不错的虚拟试衣项目,看其效果还是不错,加入了扩散模型,效果看起来有质的提升。OK,让我们开始吧。 一、模型介绍 论文名称:  阅读全文
posted @ 2024-05-22 09:08 要养家的程序猿 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 引子 这几天阿里的Qwen2.5大模型在大模型圈引起了轰动,号称地表最强中文大模型。前面几篇也写了QWen的微调等,视觉语言模型也写了一篇CogVLM,感兴趣的小伙伴可以移步https://blog.csdn.net/zzq1989_/article/details/138118608?spm=10 阅读全文
posted @ 2024-05-13 11:47 要养家的程序猿 阅读(492) 评论(0) 推荐(0) 编辑
摘要: 一、引子 CV做了这么多年,大多是在固定的数据集上训练,微调,测试。突然想起来一句话,I have a dream!就是能不能不用再固定训练集上捣腾,也就是所谓的开放词汇目标检测(OVD)。偶尔翻翻AI新闻,发现现在CV领域有在卷开集目标检测的趋势。刚好翻到,YOLO-World这一开源项目。OK, 阅读全文
posted @ 2024-05-06 17:26 要养家的程序猿 阅读(791) 评论(0) 推荐(0) 编辑
摘要: ​ 引子 对于多模态大语言模型,一直没有怎么接触。刚巧一朋友有问到这方面的问题,也就顺手调研下。智谱AI的东西一直以来,还是很不错的。ChatGLM的忠实fans,看到白嫖网站github上有他们开源的多模态CogVLM/CogAgent,那就顺手看看了。OK,让我们开始吧。 一、模型介绍 CogV 阅读全文
posted @ 2024-04-30 10:16 要养家的程序猿 阅读(187) 评论(0) 推荐(0) 编辑
摘要: ​引子 由于工作上需要,一直在用Qwen做大模型推理,有个再训练的需求,特此琢磨下Qwen的训练。OK,我们开始吧。 一、安装环境 查看显卡驱动版本 根据官网推荐 OK,docker在手,天下我有。 docker pull qwenllm/qwen:cu117 docker run -it --rm 阅读全文
posted @ 2024-04-23 11:45 要养家的程序猿 阅读(716) 评论(2) 推荐(0) 编辑