AI语音转文字：支持视频/音频/批量转换，从日常便利到创作利器，我手搓了一个神器给你

在现代生活中，语音转文字是我们触手可及的实用工具。试想一下，开会时，你只需轻轻点开手机录音功能，会议结束后，将音频转化为文字，再丢给AI，几分钟后，一份条理清晰的会议纪要就新鲜出炉。

或者，你是个视频剪辑达人，想要“借鉴”同行文案，只需把他们的视频语音转成文字，喂给AI稍作伪原创，摇身一变，就成了你自己的独家文案。没错，这种操作如今已是家常便饭，而“伪原创”——嘿，那也是一种创作，对吧？

曾几何时，像剪映这样的大杀器，识别字幕并导出SRT功能可是完全免费开放的。那时候，随手一键，字幕到手，简直是剪辑党的福音。可如今呢？这功能悄悄上了会员锁，想用？掏钱吧。

我呢花了点时间，手写了一个语音/视频转文字的工具，可以导出SRT后，把SRT文件导入剪映，就能愉快添加字字幕上去了而且不需要会员。

软件功能

支持Win10、Win11。

支持切换CPU/GPU使用，显卡不好就跑CPU，当然显卡更快。

支持MP4、WAV、MP3格式

支持导出文本txt文件、SRT字幕文件

支持批量操作

内置可选base、small、medium、large-v3模型(base模型不支持导出SRT，其他三个都支持)

本地离线解压即可使用(最好使用7-Zip解压)

无套路无激活，堪称良心福利！

快速上手：一键整合包

为了让用户快速体验，我们提供了一键整合包。只需关注卫星公众号InnoTechX，发送“耳语”或者 “Whisper” 即可获取下载链接。

这个工具的核心，是大名鼎鼎的 OpenAI Whisper。Whisper 是一种通用语音识别模型，背后是海量多样化音频数据的训练成果。它不仅能实现多语言语音识别，还能胜任语音翻译和语言识别等任务，堪称语音处理界的“多面手”。

基于 Transformer 的序列到序列架构，Whisper 将多语言识别、翻译、口语处理甚至语音活动检测融为一体，通过一组特殊标记实现任务切换，取代了传统语音处理的多阶段管道，效率直线上升。

我的工具基于 Whisper 开发，支持 CPU 和 GPU 加速，兼容 MP4、MP3、WAV 等常见格式。它也支持批量转换——是的，批量文件转文字或 SRT 字幕，省时省力。输出格式也很贴心，既能生成 TXT 文件，也能导出 SRT 字幕，满足不同场景需求。解压即用，没有繁琐的安装步骤，更不需要联网激活。作为关注我公众号的福利，这款工具完全免费开放给大家。

Whisper 提供了多种模型尺寸，从轻量级的 Tiny 到性能强劲的 Large，满足不同需求。我打包的程序提供了 Base、Small、Medium 和 Large 四种型号，具体参数如下：

这些型号权衡了速度和精度，比如 Base 轻快高效，适合日常使用；而 Large 虽然更“重”，但识别精度极高，适合专业场景。友情提醒，如图上所示，small模型只要2G显存, Large-v3使用GPU跑需要10G显存，使用CPU跑Large-v3也可只是慢。

本地部署Whisper

用起来有多简单？

如果你是个 Python 爱好者，直接在 Python 环境下安装即可：

pip install -U openai-whisper

然后2行代码搞定：

import whisper model = whisper.load_model("base") 
result = model.transcribe("audio.mp3") print(result["text"])

是不是简单到飞起？

在线 vs 离线：隐私与便利的选择

Whisper 官方在 Hugging Face 上也托管了一个在线版本https://huggingface.co/spaces/openai/whisper，支持 YouTube 链接直接转文字。不过，访问它需要“魔法上网”，而且你的音频数据得上传到云端。如果你担心隐私泄露，或者网络环境不佳，我的离线一键包就是你的最佳选择——本地运行，数据不外泄，稳稳当当。

Whisper JAX：速度狂飙70倍，但有门槛

说到性能，还有个 Whisper JAX 值得一提。这是基于 JAX 框架优化的版本，号称比原版 PyTorch 代码快70倍，堪称 Whisper 的“极速进化版”。可惜，它不支持 Windows 本地部署，主要针对 Linux 环境优化。我尝试把它部署到 Ubuntu 云算力上，但实测速度表现一般，可能是Whisper官方版本一直在迭代优化的缘故。Hugging Face 上也有 Whisper JAX 的托管地址https://huggingface.co/spaces/sanchit-gandhi/whisper-jax，不过访问经常遇到“504 Gateway Time-out”，体验不佳。

今天的分享就到这里。这款语音转文字工具是我送给关注者的一个小礼物，希望能帮到你的日常工作或创作。如果有什么问题，公众号留言我可能来不及回复（消息太多啦），建议加入我的星球，直接提问，快速解决问题。下期再见，如果你有什么想让我开发的一键包，欢迎来星球提需求，咱们一起玩转技术！

posted on 2025-03-04 11:08 志克斯搞AI 阅读(511) 评论(0) 收藏举报

刷新页面返回顶部

快速上手：一键整合包

公告