快到皖里来 - 博客园

2021年10月3日

摘要：在 Transformer架构记录（一）中，得到了一句话的数字表示 X,下面将 X 输入到Encoder的第一个Encoder-block中对其做进一步处理。一个完整的Encoder-block如下图所示：一个完整的Encoder-block由两个子模块构成，分别为Multi-Head Atte 阅读全文

posted @ 2021-10-03 14:11 快到皖里来阅读(122) 评论(0) 推荐(0) 编辑

Transformer架构记录（一）

摘要： Transformer架构是2017年由google研究团队提出的一项全新的自然语言处理模型架构，首次应用于机器翻译任务中，该模型出自论文《Attention is all you need》。有别于传统的CNN、RNN架构，Transformer摒弃以往的序列建模思想，全面采用自注意力机制。 T 阅读全文

posted @ 2021-10-03 13:26 快到皖里来阅读(425) 评论(0) 推荐(0) 编辑

2021年10月2日

NLP预训练发展小结二（Bert之后）

摘要：本篇博文简要记录基于Transformer的各类自然语言处理预训练模型（自Bert开始）的特点及使用。 1. Bert BERT（Bidirectional Encoder Representations from Transformers）做的是一个上下文双向的信息编码器； Bert与之前的ELM 阅读全文

posted @ 2021-10-02 15:47 快到皖里来阅读(199) 评论(0) 推荐(0) 编辑

NLP预训练发展小结一（Bert之前）

摘要：本篇博文简要记录在预训练模型Bert出现之前，NLP领域预训练模式的发展，主要围绕Word Embedding的提出与改进。 1. 预训练任务：语言模型早期在NLP领域做预训练的主要任务为语言模型（这是一个自然语言处理的任务），语言模型即用于计算某句话的出现概率，也可以理解为输入一句话的前面几个单阅读全文

posted @ 2021-10-02 13:01 快到皖里来阅读(112) 评论(0) 推荐(0) 编辑

2021年5月5日

由数组生成对称矩阵

摘要：在实际应用中，经常会遇上这样的小需求：根据一段给定的数组，生成由这一段数组值构成的对称矩阵。例如，给定数组[1,2,3,4,5,6,7,8,9,10],要求生成如下的矩阵： [[0,1,2,3,4], [1,0,5,6,7], [2,5,0,8,9], [3,6,8,0,10], [4,7,9,1 阅读全文

posted @ 2021-05-05 09:02 快到皖里来阅读(432) 评论(0) 推荐(1) 编辑

pythonfl

公告