2023年2月的十篇深度学习论文推荐
本月的论文包括语言模型、扩散模型、音乐生成、多模态等主题。
1、MusicLM: Generating Music From TextPage
https://arxiv.org/abs/2301.11325
By Andrea Agostinelli, Timeo I. Denk, et al.
扩散模型和自回归离散模型都在生成音乐/音频显示出令人印象深刻的性能。
与最近使用连续扩散模型的其他生成音频工作不同,MusicLM 是一种完全自回归和完全离散的音乐生成模型。它巧妙地利用现有工作(SoundStream [1] 和 w2v-BERT [2])在不同的时间尺度引导表示学习,并在长达几分钟的长时间跨度内实现以前看不见的连贯性的音乐生成。作者将这种技术称为层次表示,因为自回归建模发生在不同的粒度级别,这是实现长期一致性的关键。
这个项目的关键组成部分之一是数据:对于 MuLan [3],他们采用冻结模型的方式,对于 SoundStream 和 w2v-BERT,他们使用免费音乐存档。为了训练分词器和自回归模型,他们使用自己的专有数据集,其中包含 5M 音频剪辑,总计 280,000 小时 24kHz 的音乐。这意味着在低级和高级表示之间,模型接受了大约 10 亿(高级)和 500 亿(低级)标记的训练。就训练数据而言,MusicLM 可与 GPT-2 相媲美,后者在大约 300 亿个令牌上进行了训练。
完整文章:
https://avoid.overfit.cn/post/5cdbc0916d7c4428b44305a2546cc898