02 2024 档案
摘要:其实现原理非常像之前学的图像压缩的兄弟——视频压缩: VAE Encoder(变分视频压缩,将其压缩到低维的隐空间中降低计算量) 借用Google DeepMind的NaViT (2023.07) 支持了原始比例和分辨率,从而使其采样灵活并提高取景构图能力。 Transform Diffusion
阅读全文
摘要:目录简介训练过程将可视化数据转化为patch使用不同分辨率、持续时间及纵横比的视频数据的优势关键点 参考openAi提供的技术文档:https://openai.com/research/video-generation-models-as-world-simulators 简介 Sora 是一种通
阅读全文