简要!语音识别
语音识别:是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
语音识别应用业务场景特点:
1. 离线 /在线(又称实时)
在线对网络要求高,存在丢数据情况,非业务数据可容忍.
2. 长语音/短语音
短语音的界定一般是 60秒以内.
语音识别应用技术场景特点:
1. 同步
实时返回结果,达到“边说边出文字”的效果.
2. 异步
先上传语音录音,后台处理完成后,通过回调或轮询查询的方式获取结果.
应用形态:
1. 小程序+后端.
2. 移动端.
3. H5(webscoket)+后端.
行业主流供应商:
1. 科大讯飞
专业,技术成熟度高、费用高、技术文档完善;
2. 阿里
支持实时识别、离线短语音、离线长语音;
3. 百度
目前 HTTP 形式只支持短语音模式,SDK 形式支持长语音,但只支持移动端;
4. 腾讯
支持实时识别,离线短语音、离线长语音、文档完善;
收费方式:
1. 年收费
打包一年多少时长,相当于包年,价格相对便宜.
2. 阶梯型收费
可以按时长量收费,适合短期内投入运营的产品,阶梯型特点用的越多越便宜.
参考文档:
1、 | https://www.xfyun.cn/services/voicedictation |
2、 | https://ai.aliyun.com/nls?spm=5176.12061034.1251721.9.6a9b7403je0lFG |
3、 | https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre |
4、 | https://cloud.tencent.com/document/product/1093/35680 |
欢迎关注公众号:媛道
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· 展开说说关于C#中ORM框架的用法!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?