上一页 1 2 3 4 5 6 7 ··· 14 下一页
摘要: 在 Transformer架构记录(一)中,得到了一句话的数字表示 X,下面将 X 输入到Encoder的第一个Encoder-block中对其做进一步处理。 一个完整的Encoder-block如下图所示: 一个完整的Encoder-block由两个子模块构成,分别为Multi-Head Atte 阅读全文
posted @ 2021-10-03 14:11 快到皖里来 阅读(122) 评论(0) 推荐(0) 编辑
摘要: Transformer架构是2017年由google研究团队提出的一项全新的自然语言处理模型架构,首次应用于机器翻译任务中,该模型出自论文《Attention is all you need》。 有别于传统的CNN、RNN架构,Transformer摒弃以往的序列建模思想,全面采用自注意力机制。 T 阅读全文
posted @ 2021-10-03 13:26 快到皖里来 阅读(425) 评论(0) 推荐(0) 编辑
摘要: 本篇博文简要记录基于Transformer的各类自然语言处理预训练模型(自Bert开始)的特点及使用。 1. Bert BERT(Bidirectional Encoder Representations from Transformers)做的是一个上下文双向的信息编码器; Bert与之前的ELM 阅读全文
posted @ 2021-10-02 15:47 快到皖里来 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 本篇博文简要记录在预训练模型Bert出现之前,NLP领域预训练模式的发展,主要围绕Word Embedding的提出与改进。 1. 预训练任务:语言模型 早期在NLP领域做预训练的主要任务为语言模型(这是一个自然语言处理的任务),语言模型即用于计算某句话的出现概率,也可以理解为输入一句话的前面几个单 阅读全文
posted @ 2021-10-02 13:01 快到皖里来 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 在实际应用中,经常会遇上这样的小需求:根据一段给定的数组,生成由这一段数组值构成的对称矩阵。 例如,给定数组[1,2,3,4,5,6,7,8,9,10],要求生成如下的矩阵: [[0,1,2,3,4], [1,0,5,6,7], [2,5,0,8,9], [3,6,8,0,10], [4,7,9,1 阅读全文
posted @ 2021-05-05 09:02 快到皖里来 阅读(432) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 ··· 14 下一页