易于实施的语音转文本工具

易于实施的语音转文本工具

使用 python 使用高质量的免费工具进行转录

Photo by 尤卡·阿洛 on 不飞溅

音频数据,尽管不是很关注,但与任何其他类型的数据一样重要。这个 非结构化数据具有很大的价值 ,但由于其复杂的处理,它几乎没有被看。在本文中,我的目标是让人们了解一种免费的(甚至是商业用途的)开源工具,该工具可以转录音频数据,支持 131 种(目前)语言。

机智

机智 是一种旨在“使人们能够使用语音和文本与您的产品进行交互”的工具。这个工具是Meta开发的,代码可以看 这里 .要使用此工具,您必须拥有 Facebook 帐户,然后与该工具同步。之后,您可以创建您的 访问令牌 - 关于目标,因为该工具具有除转录音频之外的许多功能 - 这对于通过代码访问资源至关重要。下图显示了平台以及在哪 访问令牌 .

Inside wit.ai's platform (Screenshot by author)

API key in wit.ai's platform (Screenshot by author)

就我而言,我使用 python 进行开发。

点安装 pywit

然后,转录音频的最简单方法是:

 从机智导入机智 access_token = '在此处插入您的客户访问令牌'  
 客户=机智(access_token) 转录=无 使用 open('your_file.wav', 'rb') 作为 f:  
 resp = client.speech(f, {'Content-Type': 'audio/wav'}) print('Wit.ai 转录:' + str(转录))

此外,还有一个库可以编译多个可用于 python 的语音识别工具,它包括 Wit.ai。该库的代码可以在 这个链接 .您可以使用以下方法安装它:

点安装语音识别

使用此资源,使用 Wit.ai 作为引擎转录音频的最简单方法如下:

 将语音识别导入为 sr access_token = '在此处插入您的客户访问令牌'  
 r = sr.Recognizer() 以 sr.AudioFile('your_file.wav') 作为源:  
 audio = r.record(source) # 读取整个音频文件 转录= r.recognize_wit(音频,key=access_token)  
 print('Wit.ai 转录:' + 转录)

我建议,在转录多个音频文件时,不断保存结果——就好像网络出现故障或工具不可用一样,转录会丢失。我的计算机科学学士专着是基于这样的很多工具,可以访问到这个工具的存储库 这里是 Wit.ai 图书馆 这里是 SpeechRecognition 库 .

我对这个特定工具的评估的主要观察是:

  • 响应时间长,但对于处理 UnknownValueError(使用 SpeechRecognition 库时)或 WitError(使用 Wit.ai 库时)等异常很重要;
  • 一般来说,该工具可以很好地转录音频,但在处理嘈杂的数据时可能会遇到一些困难。在这些情况下,我强烈建议对数据进行预处理;
  • 它是免费的,即使对于企业也是如此,并且还有另一个简单的方法可以将 NLP 资源应用于文本——例如转录。

音频文件内容转录后,可以应用多种 NLP 方法,以便更好地分析和利用数据——情感分析、语言分析等。

在本文中,我介绍了一款用于语音识别的高质量免费工具。此外,我还介绍了一些应用示例。在下一篇文章中,我将描述一些有用的 NLP 技术并用代码举例说明它们。

我是本文的作者 Aline。找我 这里 这里

更多内容在 ** 纯英语.io** .注册我们的 ** 免费每周通讯** .跟着我们 ** 推特** , ** 领英** , ** YouTube** , 和 ** 不和谐** .对增长黑客感兴趣?查看 ** 电路** .

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/38726/42272213

posted @ 2022-09-22 13:43  哈哈哈来了啊啊啊  阅读(55)  评论(0编辑  收藏  举报