摘要:
Adam optimizer.zero_grad() HMM nlp中CTC损失函数 word2vec怎么判断word embedding的好坏 word embedding时加入 PAD 和 UNK gt.gif in.gif pred.gif 阅读全文
摘要:
Transformer seq2seq model with “self-attention” 知名代表--bert 一般处理seq2seq容易想到RNN,但RNN的问题是不容易被平行化。于是有人提出用CNN。 如下右图所示,每个黄色三角代表一个filter,每次考虑3个词,从左往右依次遍历就可以从 阅读全文