[PaperReading] HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

link
时间：21.06
作者与单位：fairseq

作者相关工作：
被引次数：2741
主页：https://github.com/facebookresearch/fairseq/blob/main/examples/hubert/README.md

自监督学习的语音表征学习有两个难点：a) 同一个词汇中有多个音素；b) 音素是变长的，没有明显的分割边界；本工作提出的HuBert(HiddenUnit)预训练算法，利用离线的聚类算法，使该任务能像Bert一样预训练。效果超越wav2vec 2.0。

输入一帧语音基本单元，通过过聚类算法(eg. k-means)得到Hidden Unit(聚类的类别)

语音序列经过CNN抽取等长特征后，Mask掉特征序列中部分特征，使用Transformer预测Mask部分的Hidden Unit \(L_{m}\)以及unmask部分的Loss \(L_{u}\)，再将两者通过超参加和。

多个聚类算法产生多组标签效果更好，例如，k-means使用多种k产生Label组合的Loss。

预训练数据：60,000h音频
k-means打标： 960h跑k-means

备注：指标为WER (word error rate)，通过计算预测序列与GT序列之间编辑距离获得。

无

无

折叠Title

FromChatGPT(提示词：XXX)

posted @ 2024-12-02 23:12 fariver 阅读(13) 评论(0) 编辑收藏举报

刷新页面返回顶部