摘要:
接着扩散模型 简述训练扩散模型过程中用到的损失函数形式。完整的观察数据\(x\)的对数似然如下: \[\begin{aligned} \mathrm{log}\ p(x) &\geq \mathbb{E}_{q_{\phi}(z_{1:T}|z_0)} \mathrm{log} \frac{p(z_ 阅读全文
摘要:
OpenAI Sora技术报告官方链接 可能无法访问 Video generation models as world simulators 我们探索了视频数据生成模型的大规模训练方法。具体来说,在不同时长、分辨率和纵横比的视频和图片数据上联合训练的文本条件扩散模型。利用transformer架构操 阅读全文
摘要:
概况 目标 给定一张参考人物图\(I_{ref}\)和运动序列\(p^{1:N}=\{p_1, \cdots, p_N\}\),\(N\)是视频帧长度。论文目标是合成一个运动连贯的视频\(I^{1:N}=\{I_1, \cdots, I_N\}\),合成视频中人物与参考人物是一样的,且遵循所提供的运 阅读全文
摘要:
AnimateAnyone 目标 给定一张人物的图像和一个运动姿态序列,然后生成这种运动姿态的参考人物的视频片段。 预备知识 视频生成依赖的基础知识如扩散模型、隐变量扩散模型等在此不再赘述,可以自行查阅相关知识。本博客可供参考的有扩散模型 Diffusion Model和Latent Diffusi 阅读全文
摘要:
预备知识 视频生成依赖的技术点:Stable Diffusion,Latent Diffusion Model,DreamBooth, LoRA。此处不进行相关知识点介绍,如需请查阅相关资料 个性化动画生成 目标 生成个性化动画的图像模型,一般要求用对应的视频训练集进行额外的微调。而这将使事情变得困 阅读全文
摘要:
有不少介绍扩散模型的资料,其中"Understanding Diffusion Models: A Unified Perspective"论文是我读到的解释最详细也是最易于理解的一个。 数学符号 用字母\(x\)表示可观测到变量,用字母\(z\)表示隐变量 用\(q_{\phi}(z|x)\)表示 阅读全文
摘要:
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generatio Paper 模型参数量 训练数据量 数据集来源 BLIP 224M-361M 14M - 1 阅读全文
摘要:
复数 虚数定义 英文名称是imageinary number, 表示虚构的数或者不存在的数。其定义为\(i = \sqrt{-1}\)。 在实数域中,\(\sqrt{-1}\)是没有意义的也不存在。虚数在现实世界并没有实际含义,并不像在实数域中那样,比如实数2,可以表示2个苹果,2只羊,或者2厘米等 阅读全文
摘要:
以下是对李宏毅老师 youtube视频-【机器学习2021】概述增强式学习一、二、三简要记录 https://www.youtube.com/watch?v=XWukX-ayIrs https://www.youtube.com/watch?v=US8DFaAZcp4 https://www.you 阅读全文
摘要:
图像描述 Image Captioning LAION-5B 2022.3发布的迄今为止最大规模的图文对的多模态数据集。共计约5.85B数据,是基于CLIP过滤的。基于这个大型数据集,作者也发布不同侧重的子集。LAION2B-en是包含英文注释文本的,LAION2B-multi是包含100多种的其它 阅读全文