摘要: 图像擦除是图像生成模型重要应用,本文介绍CVPR-2025相关的SmartEraser、Erase Diffusion、OmniEraser模型,涵盖数据集构建(实体过滤、混合高斯算法MOG)、关键技术(语义分割SAM、CLIP、IoU、alpha blending、GroundDINO+SAM2)及模型优化(输入改进、mask处理、微调FLUX.1-dev)等内容。 阅读全文
posted @ 2025-07-04 09:24 Big-Yellow-J 阅读(811) 评论(0) 推荐(0)
摘要: 一致性模型(consistency model)是扩散模型(Diffusion Models)的图像生成加速方法,通过将随机过程转化为常微分方程(ODE),引入Consistency Regularization实现一步或少数几步生成。LCM/LCM-Lora进一步通过Skipping-Step和Classifier-free guidance(CFG)优化,代码可参考diffusers库实践。 阅读全文
posted @ 2025-07-02 22:17 Big-Yellow-J 阅读(1755) 评论(0) 推荐(0)
摘要: 更加好的排版:https://www.big-yellow-j.top/posts/2025/06/11/ImageEraser1.html 本文主要介绍几篇图像擦除论文模型:PixelHacker、PowerPanint等,并且实际测试模型的表现效果 PixelHacker Code: https 阅读全文
posted @ 2025-06-21 15:25 Big-Yellow-J 阅读(181) 评论(0) 推荐(0)
摘要: 扩散模型通过前向加噪与反向去噪过程实现图像生成,核心为噪声调度控制加噪权重,反向过程用神经网络近似分布。介绍条件扩散模型(文本等条件指导生成)、潜在扩散模型(低维潜在空间建模)及DDPM、DDIM等变体,涉及Unet、Dit等模型结构,训练目标为预测噪声以优化去噪生成效果。 阅读全文
posted @ 2025-06-21 15:24 Big-Yellow-J 阅读(1280) 评论(0) 推荐(2)
摘要: 前面已经介绍了简单的视觉编码器,这里主要介绍多模态中使用比较多的两种backbone:1、Clip;2、SAM。对于这两个backbone简单介绍基本原理,主要是讨论使用这个backbone。 1、CV中常用Backbone-2:ConvNeXt模型详解 2、CV中常用Backbone(Resnet 阅读全文
posted @ 2025-05-25 21:24 Big-Yellow-J 阅读(461) 评论(0) 推荐(0)
摘要: From: https://www.big-yellow-j.top/posts/2025/05/11/VAE.html 前文已经介绍了GAN的基本原理以及代码操作,本文主要介绍VAE其基本原理以及代码实战 VAE or AE 介绍VAE之前了解两个概念:AE(AutoEncoder,自编码器)和V 阅读全文
posted @ 2025-05-18 21:25 Big-Yellow-J 阅读(2178) 评论(0) 推荐(0)
摘要: 更加好排版:https://www.big-yellow-j.top/posts/2025/05/08/GAN.html 日常使用比较多的生成模型比如GPT/Qwen等这些大多都是“文生文”模型(当然GPT有自己的大一统模型可以“文生图”)但是网上流行很多AI生成图像,而这些生成图像模型大多都离不开 阅读全文
posted @ 2025-05-11 12:53 Big-Yellow-J 阅读(1558) 评论(1) 推荐(0)
摘要: 这里介绍新的一个Backbone:ConvNeXt,主要来自两篇比较老的来自Meta论文: 1、《**A ConvNet for the 2020s**》 > arXiv:2201.03545 2、《**ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders**》 > arXiv:2301.00808 两篇论文讲的都是一个模型:*ConvNeXt*。这也是证明一点:Vit效果好并不是attention本身而是因为transform的超大感受野和各种trick。因此作者也是不断借鉴Vit的操作(用斜体表示) 阅读全文
posted @ 2025-05-01 14:50 Big-Yellow-J 阅读(3782) 评论(0) 推荐(1)
摘要: 本文主要介绍(论文发表时间:24.03-25.01)在多模态中使用多个视觉编码器如何进行特征融合操作(之所以用多视觉编码器,主要用途在于:有些视觉编码器可能只能提取到部分信息,就想通过另外一个编码器去捕捉之前编码器所没有捕捉得到的信息;另外一种情况就是:同时输入两类输入图像:1、高分辨率图像;2、低 阅读全文
posted @ 2025-04-27 22:56 Big-Yellow-J 阅读(517) 评论(0) 推荐(1)
摘要: 本文主要介绍了在 **OpenRLHF**中模型框架设计,主要分为3类模型:1、`actor model`;2、`critic model`;3、`reward model`这三类模型中分别起到作用:1、直接更具prompt输出response;2、输出token的评分(`action_values = values[:, -3:]`);3、返回整句输出评分(找出最后一个有效 token 的索引,然后从 value 向量中提取该位置的值作为 reward。) 阅读全文
posted @ 2025-04-22 22:40 Big-Yellow-J 阅读(1013) 评论(0) 推荐(0)
levels of contents