Welcome to this fancy blo|

Rayinfos

园龄:2年8个月粉丝:3关注:0

音乐生成模型 Music generation

目录

  • CoCoNet(2017)
  • XiaoIce Band(2018)
  • Music Transformer(2019)
  • Jukebox(2020)
  • Pop Music Transformer(2020)
  • Symbolic music generation with diffusion models(2021)
  • Compound Word Transformer (2021)
  • MusicBERT(2021)【Paper】
  • MuseFormer(2022)【Paper】
  • Perceiver AR (2022) 【Paper】

CoCoNet(2017)

模型特点:

  1. 使用卷积
  2. Orderless NADE (Neural Autoregressive Distribution Estimators)
  3. 吉布斯采样(Gibbs Sampling)

XiaoIce Band(2018)

A Melody and Arrangement Generation Framework for Pop Music
https://ldzhangyx.github.io/2018/09/26/xiaoice-band/

Music Transformer(2019)

【Demo】【Demo2】
Motivations:

  1. Transformer的长期一致性(coherence)在生成任务效果好。
  2. 相对时间(relative timing)重要,但基于距离的算法复杂度太高

Applications

  • 生成长为一分钟的具有出色结构的音乐
  • 根据给定主题续写音乐
  • 在seq2seq情境下根据给定旋律生成伴奏

Contribution

  1. 将需要的存储空间缩小到序列长度的数量级
  2. 更具有结构一致性

Method

  1. 相对位置自注意力机制:其中R为包含所有Query与Key的相对距离嵌入的中间张量
    image
  2. 节省存储空间:中间张量R节省计算
    image
  3. 长序列处理:将一个音乐事件多种属性的相对位置也加入
    image

Evaluation

  • 显著提升负对数似然(negative log-likelihood, NLL)
  • 局部上,保留了必要的时间/声部网格结构
  • 整体上,捕捉到了全局结构,体现出了有规律的分段
    image

Jukebox(2020)

模型特点:基于VQ-VAE
image

Pop Music Transformer(2020)

【解读】

  • 提出新的音乐数据表示方式REMI,通过在数据表示中加入度量结构以刻画节拍-小节-乐句的层次结构
    image

Symbolic music generation with diffusion models(2021)

【Paper】【Code】
image

Compound Word Transformer (2021)

Generate Pop Piano Music of Full-Song Length
【Demo】
Backbone model:

  • linear transformer (Linear)
  • transformer-XL (XL)

MusicBERT(2021)

image
image

MuseFormer(2022)

Transformer with Fine- and Coarse-Grained Attention for Music Generation
【Demo】

本文作者:Rayinfos

本文链接:https://www.cnblogs.com/rayinfos/p/17189353.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   Rayinfos  阅读(328)  评论(1编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起
  1. 1 Singing Rib
  2. 2 Focus Rib
  3. 3 fossil Rib
  4. 4 damn 藤井風
  5. 5 きらり 藤井風
  6. 6 帰ろう 藤井風
Focus - Rib
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.