摘要: 一句话:我设定一些特征函数,就是一些规则(见第一篇链接),然后优化模型,使得实际解在这些规则下成为最优解的可能性最大,其余所有的可能解的成为模型给出的解的可能性最小。HMM模型是一种CRF,也就是说,如果CRF的特征函数设定为HMM假设(https://zhuanlan.zhihu.com/p/70 阅读全文
posted @ 2022-07-12 21:38 Hisi 阅读(79) 评论(0) 推荐(0) 编辑
摘要: https://medium.com/nlplanet/two-minutes-nlp-quick-intro-to-question-answering-124a0930577c 阅读全文
posted @ 2022-07-12 20:55 Hisi 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 在某些情况下,如果你想对一个被包起来的二维数组集合里面的每一个二维数组做转置,那么就可以用torch.permute这个函数,其能够实现批量转置操作,现在让我们来看看这个函数中的维度变换的原理。 比如对于一个三维矩阵: M = torch.tensor([ [[2, 5], [3, 4]], [[2 阅读全文
posted @ 2022-07-06 16:08 Hisi 阅读(1743) 评论(0) 推荐(0) 编辑
摘要: 【原文地址1】 【原文地址2】 简要介绍 这三个东西其实是把峰度(Kurtosis)分成了三种类别,峰度也就是评测一个分布的尾部与正态分布的尾部有多不同的定量测量值(如下图所示)。 对于一个正态分布的峰度来说,其峰度为3,所以如果一个分布的峰度大于3,也就是其Excess Kurtosis(Exce 阅读全文
posted @ 2022-06-02 08:56 Hisi 阅读(1107) 评论(0) 推荐(0) 编辑
摘要: 随着接触到的模型越来越大,自然就会接触到这种技术。 记录下自己的踩坑过程,当看到多机多卡跑通后,那种苦尽甘来的感觉还是挺舒服的。 我们首先来说一下单机多卡 huggingface上面有大佬上传了中文的BigBird的权重,想尝试能够处理的序列最长长度为4096的模型,但是放到单张卡里面batch_s 阅读全文
posted @ 2022-05-18 17:56 Hisi 阅读(2357) 评论(0) 推荐(0) 编辑
摘要: https://huggingface.co/blog/big-bird#bigbird-block-sparse-attention 阅读全文
posted @ 2022-05-09 13:44 Hisi 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-05-03 15:59 Hisi 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 第一次使用BERT时,发现如果我的输入是[1,512]的形状的 (512个token的index),那么输入就会是[1,512,768],这个时候就麻了,为啥会有512个768呀,虽然说我有512个输入,但是为啥BERT要输出512个768呢,原因目前还不清楚,不过现在知道了第一个768(outpu 阅读全文
posted @ 2022-04-19 18:17 Hisi 阅读(403) 评论(0) 推荐(0) 编辑
摘要: Token embeddings: A [CLS] token is added to the input word tokens at the beginning of the first sentence and a [SEP] token is inserted at the end of e 阅读全文
posted @ 2022-04-19 17:45 Hisi 阅读(784) 评论(0) 推荐(0) 编辑
摘要: 最近在学习英语的时候,刚好发现了这个新知识,立马记下来哈哈哈哈。 Pre-trained language representations can either be context-free or context-based. Context-based representations can t 阅读全文
posted @ 2022-04-19 17:31 Hisi 阅读(108) 评论(0) 推荐(0) 编辑