[PaperReading] HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
link
时间:21.06
作者与单位:fairseq
作者相关工作:
被引次数:2741
主页:https://github.com/facebookresearch/fairseq/blob/main/examples/hubert/README.md
TL;DR
自监督学习的语音表征学习有两个难点:a) 同一个词汇中有多个音素;b) 音素是变长的,没有明显的分割边界;本工作提出的HuBert(HiddenUnit)预训练算法,利用离线的聚类算法,使该任务能像Bert一样预训练。效果超越wav2vec 2.0。
Method
Learning the Hidden Units for HuBERT
输入一帧语音基本单元,通过过聚类算法(eg. k-means)得到Hidden Unit(聚类的类别)
Representation Learning via Masked Prediction
语音序列经过CNN抽取等长特征后,Mask掉特征序列中部分特征,使用Transformer预测Mask部分的Hidden Unit 以及unmask部分的Loss ,再将两者通过超参加和。
Learning with Cluster Ensembles
多个聚类算法产生多组标签效果更好,例如,k-means使用多种k产生Label组合的Loss。
Implementation
https://github.com/facebookresearch/fairseq/blob/main/examples/hubert/README.md
Experiment
预训练数据:60,000h音频
k-means打标: 960h跑k-means
- 不同时长数据集对比,都略优于wav2vec2.0
备注:指标为WER (word error rate),通过计算预测序列与GT序列之间编辑距离获得。
-
打平wav2vec,不如prtrain + self-train,但还没结合self-train
-
调整聚类超参
效果可视化
无
总结与思考
无
相关链接
引用的第三方的链接
Related works中值得深挖的工作
DiscreteBERT、wav2vec 1.0/2.0
ASR:Automatic Speech Recognition
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律