摘要: 语音识别模型: 语音识别模型主要分为两种,一种是基于seq2seq的,一种是基于HMM的。 seq2seq的模型主要有LAS,CTC,RNN-T,Neural Transducer,MoChA。 本节讲最流行的LAS,就是Listen,Atten,and Spell,典型的seq2seq+atten 阅读全文
posted @ 2020-07-06 20:14 Yanqiang 阅读(1640) 评论(0) 推荐(0) 编辑
摘要: 语音识别中声音和文字的表示 声音:通常表示为一个d维、长度为T的向量序列, 文字:表示为长度为N的token序列(token的共V类),token通常用它在词表中id表示。 token通常有很多种粒度:Bytes < Grapheme/Phoneme < Morpheme < Word Phonem 阅读全文
posted @ 2020-07-06 16:56 Yanqiang 阅读(902) 评论(0) 推荐(0) 编辑
摘要: 课程名称:深度学习与人类语言处理(Deep Learning for Human Language Processing) (自然语言包括文本和语音两种形式,不过自然语言处理大多时候指的是文本处理,所以这门课的名字叫人类语言处理以便区分,因为这门课语音和文本的内容是1:1的) 人类语言处理的终极目标 阅读全文
posted @ 2020-07-06 11:10 Yanqiang 阅读(1190) 评论(0) 推荐(1) 编辑