易于实施的语音转文本工具
易于实施的语音转文本工具
使用 python 使用高质量的免费工具进行转录
音频数据,尽管不是很关注,但与任何其他类型的数据一样重要。这个 非结构化数据具有很大的价值 ,但由于其复杂的处理,它几乎没有被看。在本文中,我的目标是让人们了解一种免费的(甚至是商业用途的)开源工具,该工具可以转录音频数据,支持 131 种(目前)语言。
机智
机智 是一种旨在“使人们能够使用语音和文本与您的产品进行交互”的工具。这个工具是Meta开发的,代码可以看 这里 .要使用此工具,您必须拥有 Facebook 帐户,然后与该工具同步。之后,您可以创建您的 访问令牌 - 关于目标,因为该工具具有除转录音频之外的许多功能 - 这对于通过代码访问资源至关重要。下图显示了平台以及在哪 访问令牌 .
Inside wit.ai's platform (Screenshot by author)
API key in wit.ai's platform (Screenshot by author)
就我而言,我使用 python 进行开发。
点安装 pywit
然后,转录音频的最简单方法是:
从机智导入机智 access_token = '在此处插入您的客户访问令牌'
客户=机智(access_token) 转录=无 使用 open('your_file.wav', 'rb') 作为 f:
resp = client.speech(f, {'Content-Type': 'audio/wav'}) print('Wit.ai 转录:' + str(转录))
此外,还有一个库可以编译多个可用于 python 的语音识别工具,它包括 Wit.ai。该库的代码可以在 这个链接 .您可以使用以下方法安装它:
点安装语音识别
使用此资源,使用 Wit.ai 作为引擎转录音频的最简单方法如下:
将语音识别导入为 sr access_token = '在此处插入您的客户访问令牌'
r = sr.Recognizer() 以 sr.AudioFile('your_file.wav') 作为源:
audio = r.record(source) # 读取整个音频文件 转录= r.recognize_wit(音频,key=access_token)
print('Wit.ai 转录:' + 转录)
我建议,在转录多个音频文件时,不断保存结果——就好像网络出现故障或工具不可用一样,转录会丢失。我的计算机科学学士专着是基于这样的很多工具,可以访问到这个工具的存储库 这里是 Wit.ai 图书馆 和 这里是 SpeechRecognition 库 .
我对这个特定工具的评估的主要观察是:
- 响应时间长,但对于处理 UnknownValueError(使用 SpeechRecognition 库时)或 WitError(使用 Wit.ai 库时)等异常很重要;
- 一般来说,该工具可以很好地转录音频,但在处理嘈杂的数据时可能会遇到一些困难。在这些情况下,我强烈建议对数据进行预处理;
- 它是免费的,即使对于企业也是如此,并且还有另一个简单的方法可以将 NLP 资源应用于文本——例如转录。
音频文件内容转录后,可以应用多种 NLP 方法,以便更好地分析和利用数据——情感分析、语言分析等。
在本文中,我介绍了一款用于语音识别的高质量免费工具。此外,我还介绍了一些应用示例。在下一篇文章中,我将描述一些有用的 NLP 技术并用代码举例说明它们。
更多内容在 ** 纯英语.io** .注册我们的 ** 免费每周通讯** .跟着我们 ** 推特** , ** 领英** , ** YouTube** , 和 ** 不和谐** .对增长黑客感兴趣?查看 ** 电路** .
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明