在现代生活中,语音转文字是我们触手可及的实用工具。试想一下,开会时,你只需轻轻点开手机录音功能,会议结束后,将音频转化为文字,再丢给AI,几分钟后,一份条理清晰的会议纪要就新鲜出炉。
或者,你是个视频剪辑达人,想要“借鉴”同行文案,只需把他们的视频语音转成文字,喂给AI稍作伪原创,摇身一变,就成了你自己的独家文案。没错,这种操作如今已是家常便饭,而“伪原创”——嘿,那也是一种创作,对吧?
曾几何时,像剪映这样的大杀器,识别字幕并导出SRT功能可是完全免费开放的。那时候,随手一键,字幕到手,简直是剪辑党的福音。可如今呢?这功能悄悄上了会员锁,想用?掏钱吧。
我呢花了点时间,手写了一个语音/视频转文字的工具,可以导出SRT后,把SRT文件导入剪映,就能愉快添加字字幕上去了而且不需要会员。

软件功能
支持Win10、Win11。
支持切换CPU/GPU使用,显卡不好就跑CPU,当然显卡更快。
支持MP4、WAV、MP3格式
支持导出文本txt文件、SRT字幕文件
支持批量操作
内置可选base、small、medium、large-v3模型(base模型不支持导出SRT,其他三个都支持)
本地离线解压即可使用(最好使用7-Zip解压)
无套路无激活,堪称良心福利!
快速上手:一键整合包
为了让用户快速体验,我们提供了一键整合包。只需关注卫星公众号InnoTechX,发送“耳语”或者 “Whisper” 即可获取下载链接。
这个工具的核心,是大名鼎鼎的 OpenAI Whisper。Whisper 是一种通用语音识别模型,背后是海量多样化音频数据的训练成果。它不仅能实现多语言语音识别,还能胜任语音翻译和语言识别等任务,堪称语音处理界的“多面手”。

基于 Transformer 的序列到序列架构,Whisper 将多语言识别、翻译、口语处理甚至语音活动检测融为一体,通过一组特殊标记实现任务切换,取代了传统语音处理的多阶段管道,效率直线上升。
我的工具基于 Whisper 开发,支持 CPU 和 GPU 加速,兼容 MP4、MP3、WAV 等常见格式。它也支持批量转换——是的,批量文件转文字或 SRT 字幕,省时省力。输出格式也很贴心,既能生成 TXT 文件,也能导出 SRT 字幕,满足不同场景需求。解压即用,没有繁琐的安装步骤,更不需要联网激活。作为关注我公众号的福利,这款工具完全免费开放给大家。
Whisper 提供了多种模型尺寸,从轻量级的 Tiny 到性能强劲的 Large,满足不同需求。我打包的程序提供了 Base、Small、Medium 和 Large 四种型号,具体参数如下:

这些型号权衡了速度和精度,比如 Base 轻快高效,适合日常使用;而 Large 虽然更“重”,但识别精度极高,适合专业场景。友情提醒,如图上所示,small模型只要2G显存, Large-v3使用GPU跑需要10G显存,使用CPU跑Large-v3也可只是慢。
本地部署Whisper
用起来有多简单?
如果你是个 Python 爱好者,直接在 Python 环境下安装即可:
pip install -U openai-whisper
然后2行代码搞定:
import whisper model = whisper.load_model("base")
result = model.transcribe("audio.mp3") print(result["text"])
是不是简单到飞起?
在线 vs 离线:隐私与便利的选择
Whisper 官方在 Hugging Face 上也托管了一个在线版本https://huggingface.co/spaces/openai/whisper,支持 YouTube 链接直接转文字。不过,访问它需要“魔法上网”,而且你的音频数据得上传到云端。如果你担心隐私泄露,或者网络环境不佳,我的离线一键包就是你的最佳选择——本地运行,数据不外泄,稳稳当当。
Whisper JAX:速度狂飙70倍,但有门槛
说到性能,还有个 Whisper JAX 值得一提。这是基于 JAX 框架优化的版本,号称比原版 PyTorch 代码快70倍,堪称 Whisper 的“极速进化版”。可惜,它不支持 Windows 本地部署,主要针对 Linux 环境优化。我尝试把它部署到 Ubuntu 云算力上,但实测速度表现一般,可能是Whisper官方版本一直在迭代优化的缘故。Hugging Face 上也有 Whisper JAX 的托管地址https://huggingface.co/spaces/sanchit-gandhi/whisper-jax,不过访问经常遇到“504 Gateway Time-out”,体验不佳。
今天的分享就到这里。这款语音转文字工具是我送给关注者的一个小礼物,希望能帮到你的日常工作或创作。如果有什么问题,公众号留言我可能来不及回复(消息太多啦),建议加入我的星球,直接提问,快速解决问题。下期再见,如果你有什么想让我开发的一键包,欢迎来星球提需求,咱们一起玩转技术!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术