摘要: 1、Align your latent 改造2DUNET,把原来的每个层叫做spatial layer,当视频进来的时候就把时间维度映射到batchsize维度。为了让模型有时间概念,spatial layer 每层后面新增 temporal mixing layer,把空间层输出的结果(batch 阅读全文
posted @ 2023-07-28 17:35 Jary霸 阅读(329) 评论(0) 推荐(0) 编辑