2023 年 9月 19 日随笔档案 - Luison_Liu

2023年9月19日

摘要：

前言本篇笔记是分析transformer模型的参数量、计算量、中间激活、KV cache - 知乎 (zhihu.com)的学习记录。大部分内容都是来自那篇文字。符号表本文的示例模型是decoder-only模型，即若干个相同的层，有的人称之为block，每个block包含：self-atte 阅读全文

posted @ 2023-09-19 20:03 Luison_Liu 阅读(1652) 评论(0) 推荐(0) 编辑

Transformer详解

摘要：

前言在17年，自然语言处理领域还在被RNN统治，当时的seq2seq任务还是用带encoder-decoder结构的RNN。然而RNN天然具有一个缺点：计算效率低。随后的transformer也是encoder-decoder结构，但是其中信息关联采用了attention机制，而不是RNN的循环阅读全文

posted @ 2023-09-19 00:32 Luison_Liu 阅读(211) 评论(0) 推荐(0) 编辑

公告