2022 年 4月随笔档案 - Hisi

如何用BERT的输出做分类？

摘要：第一次使用BERT时，发现如果我的输入是[1,512]的形状的 (512个token的index)，那么输入就会是[1,512,768],这个时候就麻了，为啥会有512个768呀，虽然说我有512个输入，但是为啥BERT要输出512个768呢，原因目前还不清楚，不过现在知道了第一个768（outpu 阅读全文

posted @ 2022-04-19 18:17 Hisi 阅读(405) 评论(0) 推荐(0) 编辑

BERT的输入中，[CLS]和[SEP]应该被放在哪？

摘要：Token embeddings: A [CLS] token is added to the input word tokens at the beginning of the first sentence and a [SEP] token is inserted at the end of e 阅读全文

posted @ 2022-04-19 17:45 Hisi 阅读(795) 评论(0) 推荐(0) 编辑

什么是context free model 和 context based model

摘要：最近在学习英语的时候，刚好发现了这个新知识，立马记下来哈哈哈哈。 Pre-trained language representations can either be context-free or context-based. Context-based representations can t 阅读全文

posted @ 2022-04-19 17:31 Hisi 阅读(111) 评论(0) 推荐(0) 编辑

BERT的双向编码与BiLSTM的编码的不同之处

摘要：感觉会有用，先记录下来，如果大家看了有帮助，深感荣幸，若不幸点开了，万分抱歉。 Instead of predicting the next word in a sequence, BERT makes use of a novel technique called Masked LM (MLM): 阅读全文

posted @ 2022-04-19 17:21 Hisi 阅读(238) 评论(0) 推荐(0) 编辑

理解DeepL中的参数惩罚（penalty）

摘要：penalty机制中有L2范数的penalty，它长这个样子： E是指一次前向计算，输入与输出之间的误差。后面的一部分就是L2 penalty。现在让我们来看看C对某个参数Wi求导的结果：如果我们更新梯度的话：从上面的一个式子我们可以看出，w若越大，那么w衰减越厉害。（梯度始终为正数）下阅读全文

posted @ 2022-04-15 13:16 Hisi 阅读(577) 评论(0) 推荐(0) 编辑

从乘法求导法则到BPTT算法

摘要：本文为手稿，旨在搞清楚为什么BPTT算法会多路反向求导，而不是一个感性的认识。假设我们要对E3求导（上图中的L3），那么则有：所以S2是W的函数，也就是说，我们不能说：因为WS2 = WS2(w)，S2里面包含了W这个变量，S2是W的函数，也许有人会说：“S2里面的W是常数吧”，那么请想一想S 阅读全文

posted @ 2022-04-08 21:13 Hisi 阅读(326) 评论(0) 推荐(1) 编辑

04 2022 档案

公告