Big-Yellow-J

2025年9月22日

摘要：本文详细解析QwenVL2.5模型的处理流程及微调方法，包括模板化输入（通过processor.apply_chat_template处理对话messages，含<|im_start|>等标记模拟用户/assistant对话）、编码输入（图像处理采用smart_resize动态调整分辨率确保可被patch_size整除，经归一化后转为Vit的patch序列；文本通过tokenizer编码）、模型处理（视觉Transformer对pixel_values进行Conv3d处理生成特征，结合window-attention计算）。同时，阐述了SFT微调流程：数据层面构建对话模板生成input_ids、pixel_values等输入，模型层面采用QLoRA优化并结合gradient_checkpointing等显存优化策略。强化学习部分涵盖DPO（处理三元组数据计算chosen/rejected_logps，通过KL散度等计算loss）和GRPO（无需ref_model，利用reward_function及高熵过滤优化loss），为QwenVL2.5-3B的实际应用与性能提升提供技阅读全文

posted @ 2025-09-22 22:22 Big-Yellow-J 阅读(2290) 评论(0) 推荐(0)

多模态算法QwenVL、KimiVL等算法原理

摘要：最新内容：https://www.big-yellow-j.top/posts/2025/08/28/MultiModal2.html 对于多模态系列模型大致的多模态大语言模型的通用模型框架和每个模块的一些实现方法[1]：基本上就是对于图片/视频等通过不同的视觉编码器（Vit/Clip等）进行编码阅读全文

posted @ 2025-09-22 22:21 Big-Yellow-J 阅读(467) 评论(0) 推荐(0)

2025年8月7日

深入浅出了解生成模型-5：diffuser/accelerate库学习及其数据合成

摘要：本文介绍生成模型开发常用Python库，重点讲解Diffusers和Accelerate的基本使用。Accelerate支持分布式训练、混合精度训练、梯度累计等加速方法，简化多显卡训练流程；Diffusers包含Scheduler（加噪处理、逐步解噪）、Stable Diffusion Pipeline等，辅助实现生成模型的训练与推理，为算法工程师提供高效工具支持。阅读全文

posted @ 2025-08-07 09:54 Big-Yellow-J 阅读(412) 评论(0) 推荐(0)

深入浅出了解生成模型-6：常用基座模型与 Adapters等解析

摘要：本文介绍基座扩散模型，涵盖基于Unet的SD1.5、SDXL、Imagen及基于DiT框架的Hunyuan-DiT等。对比SD1.5与SDXL差异：SDXL采用双CLIP编码器（OpenCLIP-ViT/G+CLIP-ViT/L）提升文本理解，默认输出1024x1024图像；解析Imagen多阶段生成策略、DiT的patch分割与adaLN结构，以及ControlNet、DreamBooth等Adapter技术在图像生成控制中的应用。阅读全文

posted @ 2025-08-07 09:44 Big-Yellow-J 阅读(696) 评论(0) 推荐(0)

2025年7月4日

图像擦除论文-2：SmartEraser、Erase Diffusion、OmniEraser

摘要：图像擦除是图像生成模型重要应用，本文介绍CVPR-2025相关的SmartEraser、Erase Diffusion、OmniEraser模型，涵盖数据集构建（实体过滤、混合高斯算法MOG）、关键技术（语义分割SAM、CLIP、IoU、alpha blending、GroundDINO+SAM2）及模型优化（输入改进、mask处理、微调FLUX.1-dev）等内容。阅读全文

posted @ 2025-07-04 09:24 Big-Yellow-J 阅读(1066) 评论(0) 推荐(0)

2025年7月2日

深入浅出了解生成模型-4：一致性模型（consistency model）

摘要：一致性模型（consistency model）是扩散模型（Diffusion Models）的图像生成加速方法，通过将随机过程转化为常微分方程（ODE），引入Consistency Regularization实现一步或少数几步生成。LCM/LCM-Lora进一步通过Skipping-Step和Classifier-free guidance（CFG）优化，代码可参考diffusers库实践。阅读全文

posted @ 2025-07-02 22:17 Big-Yellow-J 阅读(1898) 评论(0) 推荐(0)

2025年6月21日

图像擦除论文综述-1：PixelHacker、PowerPanint等

摘要：更加好的排版：https://www.big-yellow-j.top/posts/2025/06/11/ImageEraser1.html 本文主要介绍几篇图像擦除论文模型：PixelHacker、PowerPanint等，并且实际测试模型的表现效果 PixelHacker Code: https 阅读全文

posted @ 2025-06-21 15:25 Big-Yellow-J 阅读(244) 评论(0) 推荐(0)

深入浅出了解生成模型-3：Diffusion模型原理以及代码

摘要：扩散模型通过前向加噪与反向去噪过程实现图像生成，核心为噪声调度控制加噪权重，反向过程用神经网络近似分布。介绍条件扩散模型（文本等条件指导生成）、潜在扩散模型（低维潜在空间建模）及DDPM、DDIM等变体，涉及Unet、Dit等模型结构，训练目标为预测噪声以优化去噪生成效果。阅读全文

posted @ 2025-06-21 15:24 Big-Yellow-J 阅读(1397) 评论(0) 推荐(2)

2025年5月25日

CV中常用Backbone-3：Clip/SAM原理以及代码操作

摘要：前面已经介绍了简单的视觉编码器，这里主要介绍多模态中使用比较多的两种backbone：1、Clip；2、SAM。对于这两个backbone简单介绍基本原理，主要是讨论使用这个backbone。 1、CV中常用Backbone-2：ConvNeXt模型详解 2、CV中常用Backbone(Resnet 阅读全文

posted @ 2025-05-25 21:24 Big-Yellow-J 阅读(482) 评论(0) 推荐(0)

2025年5月18日

深入浅出了解生成模型-2：VAE模型原理以及代码实战

摘要： From: https://www.big-yellow-j.top/posts/2025/05/11/VAE.html 前文已经介绍了GAN的基本原理以及代码操作，本文主要介绍VAE其基本原理以及代码实战 VAE or AE 介绍VAE之前了解两个概念：AE（AutoEncoder，自编码器）和V 阅读全文

posted @ 2025-05-18 21:25 Big-Yellow-J 阅读(2240) 评论(0) 推荐(0)

公告