摘要: 整理原链接内容方便阅读;最好的阅读体验是复制下述链接内容,并使用$替换全体\),然后用VSCode进行markdown渲染 源链接: https://github.com/huggingface/blog/blob/main/encoder-decoder.md Transformers-based 阅读全文
posted @ 2023-10-22 12:15 星辰大海,绿色星球 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 代数聚合 计算向量\(\mathbf x^l \in \mathbb R^{1 \times d}\)的softmax值 \[m(\mathbf x^l) = max(x_i^{l}) \\ f(\mathbf x^l) = [e^{x_1^l-m(\mathbf x^l)}, \cdots, e^ 阅读全文
posted @ 2023-10-22 11:33 星辰大海,绿色星球 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 架构:由Transformer论文衍生出来的大语言模型,主要有三种模型架构 预训练目标:FLM,PLM,MLM 调整: 微调: Transformer transfomer可以并行地计算? transformer中encoder模块是完全并行的,而decoder不是完全并行的。 模型结构 使用原文表 阅读全文
posted @ 2023-10-22 10:30 星辰大海,绿色星球 阅读(1231) 评论(0) 推荐(0) 编辑