摘要:
引子 最近鹅厂竟然开源了一个多模态的大模型,之前分享福报厂的多模态视觉大模型(Qwen-VL环境搭建&推理测试-CSDN博客)感兴趣的可以移步。鹅厂开源的,我还是头一回部署。好的,那就让我们看看这个多模态视觉大模型有什么特点吧,首先它说它是汉英双语DiT模型,嗯,这个时候必须再次吐槽下智谱开源的C 阅读全文
摘要:
引子 记得2015年左右,去参加VALSE的时候,就有虚拟试衣的项目亮相。现在回头看看,当时的效果还是十分简陋和不协调的。今天在全球最大的同性交友网站github上突然发现一个不错的虚拟试衣项目,看其效果还是不错,加入了扩散模型,效果看起来有质的提升。OK,让我们开始吧。 一、模型介绍 论文名称: 阅读全文
摘要:
引子 这几天阿里的Qwen2.5大模型在大模型圈引起了轰动,号称地表最强中文大模型。前面几篇也写了QWen的微调等,视觉语言模型也写了一篇CogVLM,感兴趣的小伙伴可以移步https://blog.csdn.net/zzq1989_/article/details/138118608?spm=10 阅读全文
摘要:
一、引子 CV做了这么多年,大多是在固定的数据集上训练,微调,测试。突然想起来一句话,I have a dream!就是能不能不用再固定训练集上捣腾,也就是所谓的开放词汇目标检测(OVD)。偶尔翻翻AI新闻,发现现在CV领域有在卷开集目标检测的趋势。刚好翻到,YOLO-World这一开源项目。OK, 阅读全文
摘要:
引子 对于多模态大语言模型,一直没有怎么接触。刚巧一朋友有问到这方面的问题,也就顺手调研下。智谱AI的东西一直以来,还是很不错的。ChatGLM的忠实fans,看到白嫖网站github上有他们开源的多模态CogVLM/CogAgent,那就顺手看看了。OK,让我们开始吧。 一、模型介绍 CogV 阅读全文
摘要:
引子 由于工作上需要,一直在用Qwen做大模型推理,有个再训练的需求,特此琢磨下Qwen的训练。OK,我们开始吧。 一、安装环境 查看显卡驱动版本 根据官网推荐 OK,docker在手,天下我有。 docker pull qwenllm/qwen:cu117 docker run -it --rm 阅读全文
摘要:
引子 之前分享过一篇SAM(感兴趣的,请移步https://blog.csdn.net/zzq1989_/article/details/135479818?spm=1001.2014.3001.5502)环境搭建&推理测试,虽然话说Segment Anything,但是原始模型对于一些子领域的效果 阅读全文
摘要:
引子 敏感词检测,这个是很多文字类服务都要遇到的问题,最近项目上接触到,特此调研梳理下这部分的内容。比如当我们输入一些包含暴力或者色情的文本,系统会阻止信息提交。敏感词过滤就是检查用户输入的内容有没有敏感词。OK,让我们开始吧。 一、算法原理简介 一般敏感词检测之后有两个处理策略。(1)直接阻止信息 阅读全文
摘要:
引子 Sora,2024年2月15日,OpenAI发布的人工智能文生视频大模型。支持60秒视频生成,震荡了国内国际学术圈、广告圈、AI教培圈。Sora最主要有三个优点:第一,“60s超长视频”,之前文本生成视频大模型一直无法真正突破AI视频的4秒连贯性瓶颈,而Sora直接做到了60秒连贯视频。第二, 阅读全文
摘要:
引子 作为YOLO的拥趸,之前一直没有太关注DETR,虽然知道效果很好。但是,巨大的计算开销,还是一直让我望而却步。然而,今天在翻阅CVPR2024的论文的时候,突然看到这么一篇《RT-DETR: DETRs Beat YOLOs on Real-time Object Detection》。嗯,它 阅读全文