Meta 开源语音 AI 模型支持 1,100 多种语言

自从ChatGPT火爆以来,各种通用的大型模型层出不穷,GPT4、SAM等等,本周一Meta 又开源了新的语音模型MMS,这个模型号称支持4000多种语言,并且发布了支持1100种语言的预训练模型权重,最主要的是这个模型不仅支持ASR,还支持TTS,也就是说不仅可以语音转文字,还可以文字转语音。

因为以前对语音方面没有研究,所以我就查阅了一下资料,世界上一共有 7,000 多种语言(我一直以为只有几百),目前的语音识别技术目前仅能覆盖100多种,其实我觉得100多种已经够用了,当然如果有特殊的研究需要那要另说。

Facebook (Meta) AI 的最新大型多语言语音 (MMS) 项目可以为 1,100 多种语言提供语音转文本、文本转语音等功能。这是现有模型的 10 倍!它的官网blog上特别提到了Tatuyo 语,只有几百人在使用。这其实对于日常来说没什么用,但是对于研究来说这是一个很好的例子,因为只有几百人如何找到并有效的提炼数据集呢?

完整文章:

https://avoid.overfit.cn/post/b4e41042a2ee4a21a82e4a48f1061f05

posted @ 2023-05-25 10:24  deephub  阅读(39)  评论(0编辑  收藏  举报