摘要: 感觉会有用,先记录下来,如果大家看了有帮助,深感荣幸,若不幸点开了,万分抱歉。 Instead of predicting the next word in a sequence, BERT makes use of a novel technique called Masked LM (MLM): 阅读全文
posted @ 2022-04-19 17:21 Hisi 阅读(235) 评论(0) 推荐(0) 编辑
摘要: penalty机制中有L2范数的penalty,它长这个样子: E是指一次前向计算, 输入与输出之间的 误差。后面的一部分就是L2 penalty。 现在让我们来看看C对某个参数Wi求导的结果: 如果我们更新梯度的话: 从上面的一个式子我们可以看出,w若越大,那么w衰减越厉害。(梯度始终为正数) 下 阅读全文
posted @ 2022-04-15 13:16 Hisi 阅读(567) 评论(0) 推荐(0) 编辑
摘要: 本文为手稿,旨在搞清楚为什么BPTT算法会多路反向求导,而不是一个感性的认识。 假设我们要对E3求导(上图中的L3),那么则有: 所以S2是W的函数,也就是说,我们不能说: 因为WS2 = WS2(w),S2里面包含了W这个变量,S2是W的函数,也许有人会说:“S2里面的W是常数吧”,那么请想一想S 阅读全文
posted @ 2022-04-08 21:13 Hisi 阅读(325) 评论(0) 推荐(1) 编辑
摘要: 本文是方便自己后续复习,所以不会有文字。 阅读全文
posted @ 2022-03-31 14:18 Hisi 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 这篇文章写的很好。 阅读全文
posted @ 2022-03-31 09:46 Hisi 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 本文来自该链接的总结,截图来自该链接,后续会继续看该链接并更新随笔: https://kunststube.net/encoding/ 首先让我们来看看什么是编码和解码: 来一个小例子: apple -> 苹果。 为什么在我们脑海中apple对应苹果呢?我们可以认为在脑海中有一张表,表里面“appl 阅读全文
posted @ 2022-03-21 17:45 Hisi 阅读(753) 评论(0) 推荐(0) 编辑
摘要: Viterbi算法的理解:如何通俗地讲解 viterbi 算法? - 知乎 (zhihu.com) 在HMM中的应用: 本人觉得图中的连线上概率的意义是:(拿zzz2->eat3连线的0.01512来说)当我经过zzz2时,我有0.01512的概率让eat3输出find3. 所以最优路径的选取标准可 阅读全文
posted @ 2022-03-19 16:28 Hisi 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 长这样: 理解的前提: (1)状态:生成观测值的变量(上图中的“吃”和“睡”)。 (2)观测值:状态乘上输出概率对应的输出(上图中的橙色节点)。 (3)输出概率:输出概率矩阵里面的某个元素(状态和观测值两层之间的某个权重参数)。 (4)输出概率矩阵:由输出概率组成的矩阵。 (5)bi: 第i个状态( 阅读全文
posted @ 2022-03-19 13:52 Hisi 阅读(444) 评论(0) 推荐(0) 编辑
摘要: 两个向量只有在满足前面三个条件后,还满足第四个条件的话,那么我们就说这两个向量的内积是正定内积,否则(只满足前三个条件)就是非正定的。 其实正定这个形容词是直译过来的,其英文是:positive definition,在刚开始接触的时候完全不知道什么是正定,我们的长辈翻译术语的时候或者是长辈们写书的 阅读全文
posted @ 2022-03-13 07:19 Hisi 阅读(1068) 评论(0) 推荐(0) 编辑
摘要: 首先来看一个例子:假设我想得到主机IP为172.25.250.9的完全限定域名(FQDN),但是我无法登录该主机,那么就可以用本机里面的hostvars魔法变量(后面会分享我对魔法这个词的理解)这个字典里面的ansible_fact这个子字典(后面会补充解释)来得到。 首先让我们来看看hostvar 阅读全文
posted @ 2022-02-28 11:39 Hisi 阅读(3973) 评论(0) 推荐(0) 编辑