摘要:
引子 2024年9月19号,阿里推出Qwen2.5全家桶,各种尺寸的都有。9月29日消息,基准测试平台Chatbot Arena日前公布最新大模型盲测榜单,10天前发布的阿里通义千问开源模型Qwen2.5再次闯入全球十强,其大语言模型Qwen2.5-72B-Instruct排名LLM榜单第十,是前 阅读全文
摘要:
引子 最近视频生成大模型层出不穷,上海AI Lab推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。OK,那就让我们开始吧。 一、模型介绍 筑梦 2.0 支持 5s-20s 阅读全文
摘要:
引子 前阵子,阿里Qwen2-VL刚刚闪亮登场,感兴趣的小伙伴可以移步https://blog.csdn.net/zzq1989_/article/details/142332651?spm=1001.2014.3001.5501。这第一的宝座还没坐多久,自家兄弟Ovis1.6版本就来了,20240 阅读全文
摘要:
引子 写了那么多篇大模型环境搭建推理部署的blog,如果没记错有几篇就是因为GPU资源hold不住,没有无法得到最终结果的(智谱AI GLM-4V-9B视觉大模型环境搭建&推理-CSDN博客)。我个人一直觉得大模型发展最终还是要走向端侧,小型化,只是也许没那么快来到。但是这个方向还是一直要有人坚 阅读全文
摘要:
引子 2024年8月30号,阿里推出Qwen2-VL,开源了2B/7B模型,处理任意分辨率图像无需分割成块。之前写了一篇Qwen-VL的博客,感兴趣的童鞋请移步(Qwen-VL环境搭建&推理测试-CSDN博客),这么小的模型,显然我的机器是跑的起来的,OK,那就让我们开始吧。 一、模型介绍 Qwe 阅读全文
摘要:
引子 很少关注360开源的代码,最近360AI团队开源了最新视频模型FancyVideo,据说RTX3090可跑。可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不同运动幅度的视频,其衍生模型还能够完成视频扩展、视频回溯的功能,一种基于 UNet 阅读全文
摘要:
引子 一口气生成2万字,大模型输出也卷起来了!清华&智谱AI最新研究,成功让GLM-4、Llama-3.1输出长度都暴增。相同问题下,输出结果直接从1800字增加到7800字,翻4倍。大模型的生成内容一般都不会太长,这对于内容创作、问题回答等都存在影响,可能导致模型回答问题不全面、创造性能降低等。 阅读全文
摘要:
引子 多模态的大模型也写了很多篇,阿里系的之前有一篇Qwen-VL的相关部署,感兴趣的童鞋请移步(Qwen-VL环境搭建&推理测试-CSDN博客)。今天这个mPLUG-Qwl3,更新换代也很快,这都第三代,据说,这个专门用来理解多图、长视频,OK,让我们开始吧。 一、模型介绍 论文作者来自阿里mP 阅读全文
摘要:
引子 开放词检测,之前分享过一篇YOLO-World的文章,感兴趣同学请移步(YOLO-World环境搭建&推理测试_yoloworld 检测-CSDN博客),最近,由中山大学和美团联合提出新的开放域检测方法OV-DINO:基于语言感知选择性融合、统一的开放域检测方法,取得了开放域检测新SOTA 阅读全文
摘要:
引子 智谱AI版Sora开源,首个可商用,18G显存即可运行。前文写了Open-Sora1.2的博文,感兴趣的童鞋请移步(Open-Sora1.2环境搭建&推理测试_open sora 1.2-CSDN博客)。对于这种占用资源少,且效果不错的多模态模型那么肯定不容错过。OK,我们开始吧。 一、模 阅读全文