摘要: 1:transformer结构 2:单个的encoder 2.1输入部分 2.1.1embedding 2.1.2位置编码 【注】RNN是按照时间线展开,单词的先后顺序没有被忽略。而transformer是并行处理的,故增快了速度,忽略了单词之间的先后顺序。 2.2注意力机制 2.2.1注意力机制 阅读全文
posted @ 2021-09-28 00:14 收购阿里巴巴 阅读(100) 评论(0) 推荐(0) 编辑