随笔分类 -  NLP通经脉

记录一下一些NLP的概念
摘要:感觉会有用,先记录下来,如果大家看了有帮助,深感荣幸,若不幸点开了,万分抱歉。 Instead of predicting the next word in a sequence, BERT makes use of a novel technique called Masked LM (MLM): 阅读全文
posted @ 2022-04-19 17:21 Hisi 阅读(247) 评论(0) 推荐(0) 编辑
摘要:penalty机制中有L2范数的penalty,它长这个样子: E是指一次前向计算, 输入与输出之间的 误差。后面的一部分就是L2 penalty。 现在让我们来看看C对某个参数Wi求导的结果: 如果我们更新梯度的话: 从上面的一个式子我们可以看出,w若越大,那么w衰减越厉害。(梯度始终为正数) 下 阅读全文
posted @ 2022-04-15 13:16 Hisi 阅读(616) 评论(0) 推荐(0) 编辑
摘要:本文为手稿,旨在搞清楚为什么BPTT算法会多路反向求导,而不是一个感性的认识。 假设我们要对E3求导(上图中的L3),那么则有: 所以S2是W的函数,也就是说,我们不能说: 因为WS2 = WS2(w),S2里面包含了W这个变量,S2是W的函数,也许有人会说:“S2里面的W是常数吧”,那么请想一想S 阅读全文
posted @ 2022-04-08 21:13 Hisi 阅读(331) 评论(0) 推荐(1) 编辑
摘要:本文是方便自己后续复习,所以不会有文字。 阅读全文
posted @ 2022-03-31 14:18 Hisi 阅读(75) 评论(0) 推荐(0) 编辑
摘要:这篇文章写的很好。 阅读全文
posted @ 2022-03-31 09:46 Hisi 阅读(14) 评论(0) 推荐(0) 编辑
摘要:Viterbi算法的理解:如何通俗地讲解 viterbi 算法? - 知乎 (zhihu.com) 在HMM中的应用: 本人觉得图中的连线上概率的意义是:(拿zzz2->eat3连线的0.01512来说)当我经过zzz2时,我有0.01512的概率让eat3输出find3. 所以最优路径的选取标准可 阅读全文
posted @ 2022-03-19 16:28 Hisi 阅读(83) 评论(0) 推荐(0) 编辑
摘要:长这样: 理解的前提: (1)状态:生成观测值的变量(上图中的“吃”和“睡”)。 (2)观测值:状态乘上输出概率对应的输出(上图中的橙色节点)。 (3)输出概率:输出概率矩阵里面的某个元素(状态和观测值两层之间的某个权重参数)。 (4)输出概率矩阵:由输出概率组成的矩阵。 (5)bi: 第i个状态( 阅读全文
posted @ 2022-03-19 13:52 Hisi 阅读(471) 评论(0) 推荐(0) 编辑
摘要:两个向量只有在满足前面三个条件后,还满足第四个条件的话,那么我们就说这两个向量的内积是正定内积,否则(只满足前三个条件)就是非正定的。 其实正定这个形容词是直译过来的,其英文是:positive definition,在刚开始接触的时候完全不知道什么是正定,我们的长辈翻译术语的时候或者是长辈们写书的 阅读全文
posted @ 2022-03-13 07:19 Hisi 阅读(1220) 评论(0) 推荐(0) 编辑
摘要:其实就是我们所说的词向量 原文链接:Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention) – Jay Alammar – Visualizing machine lear 阅读全文
posted @ 2022-02-26 21:30 Hisi 阅读(355) 评论(0) 推荐(0) 编辑
摘要:举个例子: 情景1:队友逆风强龙王成功,顺便带走ADC,你发“干得漂亮”。 情景2:队友0-13,你发“干得漂亮”。 同一个词“漂亮”在不同的情境下有着截然不同的意思,也就是我们所说的讽刺,word2vec和glove的词向量则是不管你是不是讽刺,“漂亮”的词向量永远都是[0.5,0.5,0.5]( 阅读全文
posted @ 2022-02-26 21:26 Hisi 阅读(38) 评论(0) 推荐(0) 编辑
摘要:本博客的截图均来自zeya的post:Essential Things You Need to Know About F1-Score | by Zeya | Towards Data Science F1-score的定义:准确率(precision)和召回率(recall)的调和平均(harmo 阅读全文
posted @ 2022-02-03 15:35 Hisi 阅读(1851) 评论(0) 推荐(0) 编辑
摘要:原文链接: Batch Normalization原理与实战 - 知乎 (zhihu.com) 总结: 背景:权重矩阵W的梯度与其左边那一层的激活值有关(参考:理解方向传播(BP算法) - Hisi - 博客园 (cnblogs.com)),而且如果用ReLU激活函数会导致梯度爆炸会消失,或者是si 阅读全文
posted @ 2022-01-29 16:14 Hisi 阅读(36) 评论(0) 推荐(0) 编辑
摘要:参考链接: 反向传播算法 - 知乎 (zhihu.com) 总结: 本人比较关注的是对误差对权重的误差(也就是导函数),看了这篇文章之后理解到:对第 l-1 层的第k个神经元连接到第 l 层的第j个神经元的权重,误差对其的导函数取决于误差对这个权重连接的第 l 层的第j个神经元Zlj 的误差(导函数 阅读全文
posted @ 2022-01-28 18:08 Hisi 阅读(85) 评论(0) 推荐(0) 编辑
摘要:初学者入门知识图谱必看的能力:推理 - SegmentFault 思否 阅读全文
posted @ 2022-01-26 20:30 Hisi 阅读(30) 评论(0) 推荐(0) 编辑
摘要:百度百科: 在 计算机科学 领域,其核心意思是指一种模型,用于描述由一套对象类型( 概念 或者说 类 )、属性以及关系类型所构成的世界。 理解:也就是说,本体是一个模型,它把概念连接起来,用关系这个东西连接起来,它的实体是抽象的,不包含实例。 参考链接: 本体构建技术调研 - 菜鸟学院 (nooby 阅读全文
posted @ 2022-01-26 19:32 Hisi 阅读(688) 评论(0) 推荐(0) 编辑
摘要:原文: 文本向量化表示——词袋模型 - 知乎 (zhihu.com) 通过阅读原文后,总结如下: 词袋模型就是: 对文本分词; 对每个词语进行独热编码; 统计词语出现的次数,加入到词语对应的维度上。 最终得到的向量便是这个文本的向量。 词袋模型的缺点: 只用词语出现的频率来突出文本主题(或者说是代表 阅读全文
posted @ 2022-01-25 21:56 Hisi 阅读(241) 评论(0) 推荐(0) 编辑
摘要:原文: 使用余弦相似度算法计算文本相似度 - 知乎 (zhihu.com) 阅读全文
posted @ 2022-01-25 21:10 Hisi 阅读(112) 评论(0) 推荐(0) 编辑
摘要:*1301.3781.pdf (arxiv.org) bengio03a.dvi (jmlr.org) 在读了上面两篇文章的部分内容后,我觉得译为 “连续词向量融合模型” 可能好点,理由有如下几点: 1.BOW的含义根据文章中提到的是:在目标词(target word)之前的出现的词的顺序对这些词从 阅读全文
posted @ 2022-01-23 18:20 Hisi 阅读(117) 评论(0) 推荐(0) 编辑
摘要:The amazing power of word vectors | the morning paper (acolyer.org) What is a word vector? At one level, it’s simply a vector of weights. In a simple 阅读全文
posted @ 2022-01-22 23:24 Hisi 阅读(227) 评论(0) 推荐(0) 编辑
摘要:Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention) – Jay Alammar – Visualizing machine learning one concept a 阅读全文
posted @ 2022-01-19 00:19 Hisi 阅读(72) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示