随笔分类 -  AI算法

摘要:引子 Sa2VA模型通过结合SAM-2和LLaVA,将文本、图像和视频统一到共享的LLM标记空间中,能够在少量指令微调下执行多种任务,如图像/视频对话、指称分割和字幕生成。该模型在视频编辑和内容创作中展现出强大的性能,在相关基准任务中达到了SOTA水平。OK,那就让我们开始吧。 一、模型介绍 Sa2 阅读全文
posted @ 2025-02-24 14:50 要养家的程序猿 阅读(7) 评论(0) 推荐(0) 编辑
摘要:引子 之前一篇blog介绍了如何安装DeepSeek,感兴趣的童鞋请移步(https://blog.csdn.net/zzq1989_/article/details/145400876?spm=1001.2014.3001.5502)。那篇blog是根据DeepSeek官网安装步骤,只能通过API 阅读全文
posted @ 2025-02-17 09:12 要养家的程序猿 阅读(79) 评论(0) 推荐(0) 编辑
摘要:引子 北京时间1月28日凌晨,近期爆红的国产大模型DeepSeek在GitHub平台发布了Janus-Pro多模态大模型,这是继Janus发布之后的一次较大幅度升级。该款大模型是2024年11月13日发布的JanusFlow大模型的高级版本。相比前一代模型,Janus-Pro优化了训练策略、扩展了训 阅读全文
posted @ 2025-02-10 09:14 要养家的程序猿 阅读(237) 评论(0) 推荐(0) 编辑
摘要:​ 引子 这两天国货之光DeepSeek-R1火爆出圈,凑个热闹。过来看看 aha moment(顿悟时刻)的神奇,OK,我们开始吧。 一、模型介绍 1月20日,中国AI公司深度求索(DeepSeek)发布的DeepSeek-R1模型,凭借其独特的强化学习(RL)训练方法,首次让AI展现出类人的“顿 阅读全文
posted @ 2025-01-30 21:20 要养家的程序猿 阅读(338) 评论(0) 推荐(0) 编辑
摘要:​引子 开放世界检测,前文也写OV-DINO(感兴趣的童鞋,请移步OV-DINO开放词检测环境安装与推理-CSDN博客)。这不,DINO系列又更新了。OK,那就让我们开始吧。 一、模型介绍 IDEA 开发了一个通用物体提示来支持无提示的开放世界检测,从而无需用户提供任何提示即可检测图像中的任何内容。 阅读全文
posted @ 2025-01-06 22:52 要养家的程序猿 阅读(149) 评论(0) 推荐(0) 编辑
摘要:​引子 在多模态人工智能领域,边缘计算解决方案正变得越来越重要。之前关注这一块的内容比较少,感觉大模型这一块,最终还是要和之前AI模型一样的,云端+边端,两条腿走路,OK,那就让我们开始吧。 一、模型介绍 这一领域最新的突破之一是OmniVision-968M,这是一个紧凑且高效的视觉-语言模型,有 阅读全文
posted @ 2024-12-30 09:36 要养家的程序猿 阅读(58) 评论(0) 推荐(0) 编辑
摘要:引子 对于大模型中脚手架式的工具,之前博客一直没有涉及。最近翻了一翻相关内容,找到了Dify这个工具。OK,那就让我们开始吧。 一、框架介绍 Dify 是一个用于构建 AI 应用程序的开源平台。Dify融合了后端即服务(Backend as Service)和LLMOps理念。它支持多种大型语言模型 阅读全文
posted @ 2024-12-23 09:23 要养家的程序猿 阅读(361) 评论(0) 推荐(0) 编辑
摘要:引子 写了很多篇开源大模型的环境部署与推理搭建,截止到目前,开源大模型已经发展较为完善。个人觉得,产品和项目维度来看更多的是如果去落地实现,也就是大模型的最后一公里的应用开发。最近看到Xinference一个开源很火的推理框架。OK,那就让我们开始吧。 一、框架介绍 Xinference:一款性能强 阅读全文
posted @ 2024-12-16 10:55 要养家的程序猿 阅读(140) 评论(0) 推荐(0) 编辑
摘要:​引子 毫无疑问,多智能体肯定是 AI 未来重要的研究方向之一,前阵子OpenAI可算是再Open一回,开源了多智能体框架Swarm。OpenAI开源的东西自然引来了极大的关注。OK, 我们开始吧 一、模型介绍 Swarm 关注的重点是让智能体协作和执行变得轻量、高度可控且易于测试。为此,它使用了两 阅读全文
posted @ 2024-11-25 09:17 要养家的程序猿 阅读(64) 评论(0) 推荐(0) 编辑
摘要:​引子 原生多模态大模型性能瓶颈,迎来新突破!上海AI Lab代季峰老师团队,提出了全新的原生多模态大模型Mono-InternVL。与非原生模型相比,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。OK,那就让我们开始吧。 一、模型介绍 将视觉编码和文本解码集成到一个单一 阅读全文
posted @ 2024-11-18 10:24 要养家的程序猿 阅读(65) 评论(0) 推荐(0) 编辑
摘要:​ 引子 在目标检测领域,内卷严重的实时目标检测 (Real-time Object Detection) 领域,性能与效率始终是难以平衡的核心问题。绝大多数现有的 SOTA 方法仅依赖于更先进的模块替换或训练策略,导致性能逐渐趋于饱和。前阵子YOLOv11横空出世(感兴趣的童鞋可以移步YOLOv1 阅读全文
posted @ 2024-11-11 09:10 要养家的程序猿 阅读(321) 评论(0) 推荐(1) 编辑
摘要:​引子 OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点:只要能够非常好的预测下一个token,就能帮助人类达到通用人工智能(AGI)。虽然,下一token预测已在大语言模型领域实现了ChatGPT等突破,但是在多模态模型中的适用性仍不明确。多模态任务仍然由扩散模 阅读全文
posted @ 2024-11-04 09:05 要养家的程序猿 阅读(23) 评论(0) 推荐(0) 编辑
摘要:​引子 清华智谱的开源模型也写了很多个了 。盘一下,发现少了文生图的模型,刚好CogView3发布,一看只有3B参数,好嘞,就它了。OK,我们开始吧。 一、模型介绍 CogView是一个文生图的开源大模型,它需要强大的生成模型和跨模态理解。CogView-3-Plus 在 CogView3(ECCV 阅读全文
posted @ 2024-10-28 09:10 要养家的程序猿 阅读(54) 评论(0) 推荐(0) 编辑
摘要:引子 2024年9月30日,Ultralytics在其活动YOLOVision中正式发布了YOLOv 11。YOLOv 11是由位于美国和西班牙的Ultralytics团队开发的YOLO的最新版本。几个月前YOLOv10发布(感兴趣的童鞋可以移步https://blog.csdn.net/zzq19 阅读全文
posted @ 2024-10-21 09:40 要养家的程序猿 阅读(1893) 评论(0) 推荐(0) 编辑
摘要:​引子 2024年9月19号,阿里推出Qwen2.5全家桶,各种尺寸的都有。9月29日消息,基准测试平台Chatbot Arena日前公布最新大模型盲测榜单,10天前发布的阿里通义千问开源模型Qwen2.5再次闯入全球十强,其大语言模型Qwen2.5-72B-Instruct排名LLM榜单第十,是前 阅读全文
posted @ 2024-10-14 15:08 要养家的程序猿 阅读(1176) 评论(0) 推荐(0) 编辑
摘要:引子 最近视频生成大模型层出不穷,上海AI Lab推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。OK,那就让我们开始吧。 一、模型介绍 筑梦 2.0 支持 5s-20s 阅读全文
posted @ 2024-10-08 10:01 要养家的程序猿 阅读(96) 评论(0) 推荐(0) 编辑
摘要:引子 前阵子,阿里Qwen2-VL刚刚闪亮登场,感兴趣的小伙伴可以移步https://blog.csdn.net/zzq1989_/article/details/142332651?spm=1001.2014.3001.5501。这第一的宝座还没坐多久,自家兄弟Ovis1.6版本就来了,20240 阅读全文
posted @ 2024-09-30 09:41 要养家的程序猿 阅读(289) 评论(0) 推荐(0) 编辑
摘要:​ 引子 写了那么多篇大模型环境搭建推理部署的blog,如果没记错有几篇就是因为GPU资源hold不住,没有无法得到最终结果的(智谱AI GLM-4V-9B视觉大模型环境搭建&推理-CSDN博客)。我个人一直觉得大模型发展最终还是要走向端侧,小型化,只是也许没那么快来到。但是这个方向还是一直要有人坚 阅读全文
posted @ 2024-09-23 09:21 要养家的程序猿 阅读(511) 评论(0) 推荐(0) 编辑
摘要:​引子 2024年8月30号,阿里推出Qwen2-VL,开源了2B/7B模型,处理任意分辨率图像无需分割成块。之前写了一篇Qwen-VL的博客,感兴趣的童鞋请移步(Qwen-VL环境搭建&推理测试-CSDN博客),这么小的模型,显然我的机器是跑的起来的,OK,那就让我们开始吧。 一、模型介绍 Qwe 阅读全文
posted @ 2024-09-18 14:37 要养家的程序猿 阅读(2016) 评论(0) 推荐(0) 编辑
摘要:​引子 很少关注360开源的代码,最近360AI团队开源了最新视频模型FancyVideo,据说RTX3090可跑。可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不同运动幅度的视频,其衍生模型还能够完成视频扩展、视频回溯的功能,一种基于 UNet 阅读全文
posted @ 2024-09-09 16:37 要养家的程序猿 阅读(28) 评论(0) 推荐(0) 编辑