摘要: LAS是Listen(Encoder),Attend,和Spell(Decoder)的简称 第一个步骤Listen(Encoder) listen的作用是输入一段语音信号,输出一段向量,去掉语音中的杂序,只保留和语音有关的部分。 上图中acoustic features表示的是每一帧的声音信号。 l 阅读全文
posted @ 2020-11-25 21:58 爱吃西瓜的菜鸟 阅读(729) 评论(0) 推荐(0) 编辑
摘要: #1. 语音识别的本质 语音识别的本质就是将一段声音信号转换为文字: 左边的彩色框框代表的是对语音信号进行特征提取后的每一帧的数据。T代表的是帧数,d代表的应该是滤波器个数(特征提取里面有一段是需要经过mel滤波器),即每一帧的维度。token可以理解为你训练时候词典的构成的最小元素。根据自己选择的 阅读全文
posted @ 2020-11-25 21:55 爱吃西瓜的菜鸟 阅读(315) 评论(0) 推荐(0) 编辑