2023 年 10月 22 日随笔档案 - 星辰大海,绿色星球

2023年10月22日

Transformer-based Encoder-Decoder Models

摘要：整理原链接内容方便阅读；最好的阅读体验是复制下述链接内容，并使用$替换全体\)，然后用VSCode进行markdown渲染源链接： https://github.com/huggingface/blog/blob/main/encoder-decoder.md Transformers-based 阅读全文

posted @ 2023-10-22 12:15 星辰大海,绿色星球阅读(34) 评论(0) 推荐(0) 编辑

FlashAttention 如何加速Attention计算？

摘要：代数聚合计算向量$\mathbf x^l \in \mathbb R^{1 \times d}$的softmax值 \[m(\mathbf x^l) = max(x_i^{l}) \\ f(\mathbf x^l) = [e^{x_1^l-m(\mathbf x^l)}, \cdots, e^ 阅读全文

posted @ 2023-10-22 11:33 星辰大海,绿色星球阅读(51) 评论(0) 推荐(0) 编辑

大语言模型LLM-三种模型架构

摘要：架构：由Transformer论文衍生出来的大语言模型，主要有三种模型架构预训练目标：FLM，PLM，MLM 调整：微调： Transformer transfomer可以并行地计算？ transformer中encoder模块是完全并行的，而decoder不是完全并行的。模型结构使用原文表阅读全文

posted @ 2023-10-22 10:30 星辰大海,绿色星球阅读(1853) 评论(0) 推荐(0) 编辑

星辰大海

公告