摘要: 模型参数以及内存的计算方法 前言 本篇笔记是分析transformer模型的参数量、计算量、中间激活、KV cache - 知乎 (zhihu.com)的学习记录。大部分内容都是来自那篇文字。 符号表 本文的示例模型是decoder-only模型,即若干个相同的层,有的人称之为block,每个block包含:self-atte 阅读全文
posted @ 2023-09-19 20:03 Luison_Liu 阅读(1502) 评论(0) 推荐(0) 编辑
摘要: Transformer详解 前言 在17年,自然语言处理领域还在被RNN统治,当时的seq2seq任务还是用带encoder-decoder结构的RNN。然而RNN天然具有一个缺点:计算效率低。 随后的transformer也是encoder-decoder结构,但是其中信息关联采用了attention机制,而不是RNN的循环 阅读全文
posted @ 2023-09-19 00:32 Luison_Liu 阅读(192) 评论(0) 推荐(0) 编辑