用 Python 翻译音频

用 Python 翻译音频

Françoise Gilot, The Telephone Call , 1952

我被要求开始转录一些工作中的电话。有些电话很短,有些可能长达一个小时。有些也有更多的背景噪音,也听不到说话的人。用比我能听得更好的代码翻译这个会更快,并消除很多用户错误。所以我做了这个:

我们可以从 Python 标准的 .wav 文件开始。 ffmpeg 和 pydub 需要先安装在你的电脑上
运行以下代码。链接附在文章末尾。

进口

Necessary Imports

我们正在尝试做的是语音识别,然后保存识别的内容。 AudioSegment 让我们能够分割音频文件,而 pydub.silence 让我们能够在定时的静音间隔上分割音频。该代码基本上是从谷歌翻译中运行的。

Parser Function

函数调用

我录制了一个快速的语音邮件剪辑,我说“早上好,有什么可以帮助你的吗?”。

正如我们所看到的,音频首先开始记录实际的铃声,并且无法将铃声理解为正确的语音。翻译是对实际所说内容的公平表示。我从电话里回来了一点,音频可能不是很清晰。

https://github.com/jiaaro/pydub

[

FFmpeg

ffmpeg -i input.mp4 output.avi FFmpeg 5.1 “Riemann”,一个新的主要版本,现已推出!一些亮点:我们……

ffmpeg.org

](https://ffmpeg.org/)

https://github.com/adavis-85/Call-Parser

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/39850/41022917

posted @   哈哈哈来了啊啊啊  阅读(153)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」
点击右上角即可分享
微信分享提示