11 Self-Attention相比较 RNN和LSTM的优缺点
RNN
无法做长序列,当一段话达到 50 个字,效果很差了
LSTM
LSTM 通过各种门,遗忘门,选择性的可以记忆之前的信息(200 词)
Self-Attention 和 RNNs 的区别
RNNs 长序列依赖问题,无法做并行
Self-Attention 得到的新的词向量具有句法特征和语义特征(词向量的表征更完善)
无法做长序列,当一段话达到 50 个字,效果很差了
LSTM 通过各种门,遗忘门,选择性的可以记忆之前的信息(200 词)
RNNs 长序列依赖问题,无法做并行
Self-Attention 得到的新的词向量具有句法特征和语义特征(词向量的表征更完善)