终于有时间了,把我前几天写的东西弄完了
一个基于科大迅飞语音识别库的语音控制工具
目前内部模块包括
科大迅飞语音识别模块
语音识别控制模块
语音信息模糊匹配模块(PCRE正则)
功能执行模块
界面显示模块
各个模块之间耦合性不是非常高
比较容易拆分
目前可预见的重要问题:
1:当前工程目前只支持完整的指令识别,
也就是在一定时间内,说一句话,然后识别一句,
不支持断续的指令识别,
这里后续需要改进。
2:我申请的科大迅飞语音识别权限为在线版,
离线之后无法进行语音识别,
以后是否需要考虑换平台问题。
3:响应速度的问题,
目前配置响应速度为
“语音前2秒+语音中+语音后2秒+科大迅飞的识别时间大致1秒”
可以感受到的速度为说话后,等待3-4秒,才响应,
有点慢,这个时间该优化一下。
目前完成度不高,
只实现了打开程序相关的指令响应,
其他后续指令需要慢慢添加
如果有人愿意陪我一起完善它,我会很高兴的
GITHUB 地址
https://github.com/276793422/SpeechControl_Windows.git
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」