用 Python 翻译音频
用 Python 翻译音频
Françoise Gilot, The Telephone Call , 1952
我被要求开始转录一些工作中的电话。有些电话很短,有些可能长达一个小时。有些也有更多的背景噪音,也听不到说话的人。用比我能听得更好的代码翻译这个会更快,并消除很多用户错误。所以我做了这个:
我们可以从 Python 标准的 .wav 文件开始。 ffmpeg 和 pydub 需要先安装在你的电脑上
运行以下代码。链接附在文章末尾。
进口
Necessary Imports
我们正在尝试做的是语音识别,然后保存识别的内容。 AudioSegment 让我们能够分割音频文件,而 pydub.silence 让我们能够在定时的静音间隔上分割音频。该代码基本上是从谷歌翻译中运行的。
Parser Function
函数调用
我录制了一个快速的语音邮件剪辑,我说“早上好,有什么可以帮助你的吗?”。
正如我们所看到的,音频首先开始记录实际的铃声,并且无法将铃声理解为正确的语音。翻译是对实际所说内容的公平表示。我从电话里回来了一点,音频可能不是很清晰。
https://github.com/jiaaro/pydub
[
FFmpeg
ffmpeg -i input.mp4 output.avi FFmpeg 5.1 “Riemann”,一个新的主要版本,现已推出!一些亮点:我们……
ffmpeg.org
https://github.com/adavis-85/Call-Parser
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明