在现代生活中,语音转文字是我们触手可及的实用工具。试想一下,开会时,你只需轻轻点开手机录音功能,会议结束后,将音频转化为文字,再丢给AI,几分钟后,一份条理清晰的会议纪要就新鲜出炉。

或者,你是个视频剪辑达人,想要“借鉴”同行文案,只需把他们的视频语音转成文字,喂给AI稍作伪原创,摇身一变,就成了你自己的独家文案。没错,这种操作如今已是家常便饭,而“伪原创”——嘿,那也是一种创作,对吧?

 

曾几何时,像剪映这样的大杀器,识别字幕并导出SRT功能可是完全免费开放的。那时候,随手一键,字幕到手,简直是剪辑党的福音。可如今呢?这功能悄悄上了会员锁,想用?掏钱吧。

 

我呢花了点时间,手写了一个语音/视频转文字的工具,可以导出SRT后,把SRT文件导入剪映,就能愉快添加字字幕上去了而且不需要会员。

 

 

 

 

软件功能

支持Win10、Win11。

支持切换CPU/GPU使用,显卡不好就跑CPU,当然显卡更快。

支持MP4、WAV、MP3格式

支持导出文本txt文件、SRT字幕文件

支持批量操作

内置可选base、small、medium、large-v3模型(base模型不支持导出SRT,其他三个都支持)

本地离线解压即可使用(最好使用7-Zip解压)

无套路无激活,堪称良心福利!

 

快速上手:一键整合包

为了让用户快速体验,我们提供了一键整合包。只需关注卫星公众号InnoTechX,发送“耳语”或者 “Whisper” 即可获取下载链接。

 

 

这个工具的核心,是大名鼎鼎的 OpenAI Whisper。Whisper 是一种通用语音识别模型,背后是海量多样化音频数据的训练成果。它不仅能实现多语言语音识别,还能胜任语音翻译和语言识别等任务,堪称语音处理界的“多面手”。

 

 

基于 Transformer 的序列到序列架构,Whisper 将多语言识别、翻译、口语处理甚至语音活动检测融为一体,通过一组特殊标记实现任务切换,取代了传统语音处理的多阶段管道,效率直线上升。

 

我的工具基于 Whisper 开发,支持 CPU 和 GPU 加速,兼容 MP4、MP3、WAV 等常见格式。它也支持批量转换——是的,批量文件转文字或 SRT 字幕,省时省力。输出格式也很贴心,既能生成 TXT 文件,也能导出 SRT 字幕,满足不同场景需求。解压即用,没有繁琐的安装步骤,更不需要联网激活。作为关注我公众号的福利,这款工具完全免费开放给大家。

 

 

Whisper 提供了多种模型尺寸,从轻量级的 Tiny 到性能强劲的 Large,满足不同需求。我打包的程序提供了 Base、Small、Medium 和 Large 四种型号,具体参数如下:

 

 

 

这些型号权衡了速度和精度,比如 Base 轻快高效,适合日常使用;而 Large 虽然更“重”,但识别精度极高,适合专业场景。友情提醒,如图上所示,small模型只要2G显存, Large-v3使用GPU跑需要10G显存,使用CPU跑Large-v3也可只是慢。

 

 

本地部署Whisper

用起来有多简单?

如果你是个 Python 爱好者,直接在 Python 环境下安装即可:

pip install -U openai-whisper

然后2行代码搞定:

import whisper model = whisper.load_model("base") 
result = model.transcribe("audio.mp3") print(result["text"])

是不是简单到飞起?

 

在线 vs 离线:隐私与便利的选择

Whisper 官方在 Hugging Face 上也托管了一个在线版本huggingface.co/spaces/o,支持 YouTube 链接直接转文字。不过,访问它需要“魔法上网”,而且你的音频数据得上传到云端。如果你担心隐私泄露,或者网络环境不佳,我的离线一键包就是你的最佳选择——本地运行,数据不外泄,稳稳当当。

 

 

Whisper JAX:速度狂飙70倍,但有门槛

说到性能,还有个 Whisper JAX 值得一提。这是基于 JAX 框架优化的版本,号称比原版 PyTorch 代码快70倍,堪称 Whisper 的“极速进化版”。可惜,它不支持 Windows 本地部署,主要针对 Linux 环境优化。我尝试把它部署到 Ubuntu 云算力上,但实测速度表现一般,可能是Whisper官方版本一直在迭代优化的缘故。Hugging Face 上也有 Whisper JAX 的托管地址huggingface.co/spaces/s,不过访问经常遇到“504 Gateway Time-out”,体验不佳。

 

今天的分享就到这里。这款语音转文字工具是我送给关注者的一个小礼物,希望能帮到你的日常工作或创作。如果有什么问题,公众号留言我可能来不及回复(消息太多啦),建议加入我的星球,直接提问,快速解决问题。下期再见,如果你有什么想让我开发的一键包,欢迎来星球提需求,咱们一起玩转技术!

posted on   志克斯搞AI  阅读(60)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示