随笔分类 - 语音识别笔记
对李宏毅老师的语音识别视频所讲述的内容进行一个整理
摘要:1.1 LAS产生label的计算 LAS是可以看做能够直接计算给定一段acoustic feature时输出token sequences的概率,即$p(Y|X)\(,LAS每次给定一个acoustic feature就会产生一个token 的概率,将所有的概率乘起来就是token sequenc
阅读全文
摘要:LAS是Listen(Encoder),Attend,和Spell(Decoder)的简称 第一个步骤Listen(Encoder) listen的作用是输入一段语音信号,输出一段向量,去掉语音中的杂序,只保留和语音有关的部分。 上图中acoustic features表示的是每一帧的声音信号。 l
阅读全文
摘要:#1. 语音识别的本质 语音识别的本质就是将一段声音信号转换为文字: 左边的彩色框框代表的是对语音信号进行特征提取后的每一帧的数据。T代表的是帧数,d代表的应该是滤波器个数(特征提取里面有一段是需要经过mel滤波器),即每一帧的维度。token可以理解为你训练时候词典的构成的最小元素。根据自己选择的
阅读全文