摘要: 主要 trick:① 更新 A 时把 B stop-gradient,② 在 encoder 后添加神秘的 MLP 层。 阅读全文
posted @ 2024-03-07 20:40 MoonOut 阅读(967) 评论(0) 推荐(0) 编辑