2023年11月27日
摘要: 论文:https://arxiv.org/abs/1706.03762 理解: 位置编码之后,还要生成QKV向量,在传递到多头注意力 定义: Transformer模型一般由编码器(Encoder)和解码器(Decoder)两部分组成,每个部分都有不同的功能,因此在不同的任务中可能会选择使用其中一个 阅读全文
posted @ 2023-11-27 20:47 黑逍逍 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 配置清华源conda config --show channels conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels htt 阅读全文
posted @ 2023-11-27 16:51 黑逍逍 阅读(1) 评论(0) 推荐(0) 编辑