186 语音识别
语音识别使用注意力机制,输入是不同时间帧的音频,如下
但是有一个问题,就是语音识别中,很可能输入的长度要比(我们想要的)输出的长度长的多,这个时候可以利用类似“填充”的技巧让两者的长度一样,如下(假设输入的音频说的话是the quick brown fox)
上图只是一个很简单的示例。现实中很可能使用双向LSTM或者GRU什么的。
注意区别空格和空白的区别。得到了上面的输出后我们将所有重复的字符进行压缩,并且删除空白,就可以得到我们想要的句子。上面部分经过处理后变成下面这个样子
语音识别的一个应用就是敏感词触发,比如Hey,Siri.
一种简单的方法就是RNN输出
音频中蓝色竖线就是敏感词
这种方法很简单,但是有一个缺点就是样本严重不均衡。有一个比较简单的解决方法,就是在每个
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
2024-02-19 Sasha and the Wedding Binary Search Tree
2024-02-19 Sasha and the Casino
2024-02-19 Sasha and a Walk in the City
2024-02-19 CF思维题集合
2024-02-19 Sasha and the Drawing
2024-02-19 天气预报
2024-02-19 导弹防御系统