Transformer、GPT、BERT，预训练语言模型的前世今生 - 随笔分类 - B站-水论文的程序猿

05 Transformer 中的前馈神经网络（FFN）的实现

摘要：2：20：理论链接博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-lang 阅读全文

posted @ 2022-08-05 21:33 B站-水论文的程序猿阅读(3805) 评论(0) 推荐(0) 编辑

04 Transformer 中的位置编码的 Pytorch 实现

摘要：1：10 点赞 16：00 我爱你你爱我 1401 class PositionalEncoding(nn.Module): def __init__(self, dim, dropout, max_len=5000): super(PositionalEncoding, self).__init 阅读全文

posted @ 2022-07-28 19:55 B站-水论文的程序猿阅读(1932) 评论(0) 推荐(0) 编辑

03 Transformer 中的多头注意力（Multi-Head Attention）Pytorch代码实现

摘要：3：20 来个赞 24：43 弹幕，是否懂了 QKV 相乘（QKV 同源），QK 相乘得到相似度A，AV 相乘得到注意力值 Z 第一步实现一个自注意力机制自注意力计算 def self_attention(query, key, value, dropout=None, mask=None): d 阅读全文

posted @ 2022-07-27 20:00 B站-水论文的程序猿阅读(5864) 评论(0) 推荐(2) 编辑

0201 为什么 Pytorch 定义模型要有一个 init 和一个 forward，两者怎么区分

摘要：https://www.bilibili.com/video/BV1GB4y1H7hq?spm_id_from=333.999.0.0&vd_source=b1ce52b6eb3a9e6c2360a4b7172edf5a class LayerNorm(nn.Module): def __init_ 阅读全文

posted @ 2022-07-26 20:10 B站-水论文的程序猿阅读(1614) 评论(0) 推荐(1) 编辑

000 通过 Pytorch 实现 Transformer 框架完整代码（带注释）

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-25 19:53 B站-水论文的程序猿阅读(16053) 评论(2) 推荐(6) 编辑

00 通过 Pytorch 实现 Transformer 框架完整代码

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-25 19:51 B站-水论文的程序猿阅读(9151) 评论(0) 推荐(4) 编辑

02 Transformer 中 Add&Norm （残差和标准化）代码实现

摘要：python/pytorch 基础 https://www.cnblogs.com/nickchen121 培训机构（Django 类似于 Transformers）首先由一个 norm 函数 norm 里面做残差，会输入（ x 和淡粉色z1，残差值），输出一个值紫粉色的 z1 标准化 $$ y 阅读全文

posted @ 2022-07-25 19:50 B站-水论文的程序猿阅读(3972) 评论(0) 推荐(1) 编辑

1001 Attention 和 Self-Attention 的区别（还不能区分我就真的无能为力了）

摘要：通过 pytorch 去构建一个 transformer 的框架不是导包，不是调包侠注意力机制是一个很宽泛（宏大）的一个概念，QKV 相乘就是注意力，但是他没有规定 QKV是怎么来的通过一个查询变量 Q，去找到 V 里面比较重要的东西假设 K==V，然后 QK 相乘求相似度A，然后 AV 相阅读全文

posted @ 2022-07-24 10:42 B站-水论文的程序猿阅读(5290) 评论(0) 推荐(0) 编辑

19 Transformer 解码器的两个为什么（为什么做掩码、为什么用编码器-解码器注意力）

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:59 B站-水论文的程序猿阅读(4948) 评论(0) 推荐(0) 编辑

17 Transformer 的解码器（Decoders）——我要生成一个又一个单词

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:58 B站-水论文的程序猿阅读(4587) 评论(0) 推荐(1) 编辑

18 Transformer 的动态流程

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:58 B站-水论文的程序猿阅读(2624) 评论(0) 推荐(0) 编辑

15 Transformer 框架概述

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:57 B站-水论文的程序猿阅读(6986) 评论(0) 推荐(0) 编辑

16 Transformer 的编码器（Encodes）——我在做更优秀的词向量

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:57 B站-水论文的程序猿阅读(4952) 评论(0) 推荐(0) 编辑

1401 位置编码公式详细理解补充

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:56 B站-水论文的程序猿阅读(2512) 评论(0) 推荐(1) 编辑

14 Positional Encoding （为什么 Self-Attention 需要位置编码）

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:55 B站-水论文的程序猿阅读(3767) 评论(0) 推荐(5) 编辑

13 Multi-Head Self-Attention（从空间角度解释为什么做多头）

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:54 B站-水论文的程序猿阅读(6051) 评论(0) 推荐(0) 编辑

12 Masked Self-Attention（掩码自注意力机制）

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:53 B站-水论文的程序猿阅读(6402) 评论(0) 推荐(0) 编辑

10 Self-Attention（自注意力机制）

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:52 B站-水论文的程序猿阅读(11435) 评论(1) 推荐(2) 编辑

08 ELMo模型（双向LSTM模型解决词向量多义问题）

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:51 B站-水论文的程序猿阅读(4127) 评论(1) 推荐(3) 编辑

07 预训练语言模型的下游任务改造简介（如何使用词向量）

摘要：博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 阅读全文

posted @ 2022-07-12 16:50 B站-水论文的程序猿阅读(2462) 评论(0) 推荐(0) 编辑

【B站：水论文的程序猿】

道阻且长，与君共勉

随笔分类 - Transformer、GPT、BERT，预训练语言模型的前世今生

公告