一段讯飞、百度等语音识别API无法识别的语音最终解决办法
最近在做语音识别、字幕扒词相关的工作,遇到了一段录音(https://download.csdn.net/download/u014220286/12169183,各位有兴趣的可以下载下来试试),音质什么的和其他处理过的无二异,也是普通话,照常理说应该能识别出来,可为了类似这样的语音丢了工作机会(前一次没重视人工速录交了,后来又遇到了,琢磨了好长时间解决了,过了交稿时间,产生信任危机了,没有机会合作了。)记录下这次的解决过程,希望给你有需要的人帮助。
首先用ffmpeg查看该音频,发现是32是浮点数,立体声,转成16K单声道的,没有解决,后来想到是不是因为噪声的缘故,做了噪声消除后效果依旧;甚至怀疑到了和声音内容有关(两次音频都是和法律相关的),以前也做过庭审的例子,拿出来用ffmpeg查看音频信息,摸索半天发现可能是声道的问题。
找到了问题可能的点,于是在强大的音频处理软件audacity中进行了尝试,具体步骤如下:
在audacity中导入音频,在左侧面板中下拉三角的菜单中选择“分离立体声”,分离好后“禁用”一个声道,然后在菜单中选择“导出”,导出音频,导出的音频就可以识别了。
虽然没有尝试用程序解决,但有了方法,又不太耗时,总算解决了一个难点,下次不至于为此类问题失去工作机会了。
解决前讯飞的识别结果:

处理后的识别结果:

HTWCore下载:
链接:https://pan.baidu.com/s/1k4zjpMBbUf-Okczd6xUogQ 提取码:qs52
或者加QQ群:414750884
作者:Qubook
出处:http://www.cnblogs.com/hard/
版权声明:本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接。
联系方式: 个人QQ 1005354833;
分类:
项目总结
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?
2017-02-19 关于video++,jsrun,有道笔记等的感想
2009-02-19 关于asp:ImageButton的一点经验