186 语音识别

语音识别使用注意力机制,输入是不同时间帧的音频,如下
image
但是有一个问题,就是语音识别中,很可能输入的长度要比(我们想要的)输出的长度长的多,这个时候可以利用类似“填充”的技巧让两者的长度一样,如下(假设输入的音频说的话是the quick brown fox)
image
上图只是一个很简单的示例。现实中很可能使用双向LSTM或者GRU什么的。y^i,i=1,2,...,1000不是我们想要的输出,而是长成下面这个样子
image
注意区别空格和空白的区别。得到了上面的输出后我们将所有重复的字符进行压缩,并且删除空白,就可以得到我们想要的句子。上面部分经过处理后变成下面这个样子
image

语音识别的一个应用就是敏感词触发,比如Hey,Siri.
一种简单的方法就是RNN输出0/1标识,当识别到敏感词的时候就输出1否则输出0
image
音频中蓝色竖线就是敏感词
这种方法很简单,但是有一个缺点就是样本严重不均衡。有一个比较简单的解决方法,就是在每个1的后面一段时间也标记为1,这样会稍微均衡一点

posted @   最爱丁珰  阅读(3)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
历史上的今天:
2024-02-19 Sasha and the Wedding Binary Search Tree
2024-02-19 Sasha and the Casino
2024-02-19 Sasha and a Walk in the City
2024-02-19 CF思维题集合
2024-02-19 Sasha and the Drawing
2024-02-19 天气预报
2024-02-19 导弹防御系统
点击右上角即可分享
微信分享提示