摘要:
huggingface模型下载 transformers的预训练模型下载到本地特定位置,默认是在~/.cache/huggingface/transformers model = GPT2LMHeadModel.from_pretrained('gpt2', cache_dir="...") 想知道 阅读全文
摘要:
交叉熵损失,会自动给输出的logits做softmax,然后和真是标签计算交叉熵,然后再取相反数 https://zhuanlan.zhihu.com/p/383044774 CrossEntropyLoss(y_hat, y_truth) = -sum(y_truth_one_hot * log( 阅读全文
摘要:
pytorch如何保存与加载训练模型 - 简书 Pytorch冻结部分层的参数 - 简书 剪枝 (论文 + 代码)_看不见我呀的博客-CSDN博客_剪枝代码 Pytorch 剪枝操作实现 - 虾野百鹤 - 博客园 pytorch官方的剪枝教程(推荐,简单明了,比看别人的博客好的多) Pruning 阅读全文
摘要:
Q&A: Q:BERT输如和输出是什么? A:输入是句子,每个句子由n个单词组成,也就是输入的形状是[batch_size, sentence_len]。这里每个单词用一个整数来表示,输入后对每个单词进行embbding,之后的维度是[batch_size, sentence_len, emb_di 阅读全文
摘要:
推荐一篇文章:通俗理解word2vec - 简书 认真读完上文后会理解word2vec 本文做点重点解释: word2vec的输入是一个单词上下文中的 \(C\) 个单词one-hot编码,你语料库有几个单词这个one-hot向量就是几维的。假定语料库有 \(V\) 个单词,每个单词的ont-hot 阅读全文
摘要:
由于老是忘记transformer的细节,今天整个笔记记一下,免得又忘了 一个batch 有batch_size句话,一句话有n个单词,不够就pad到n,超出就截断 嵌入层嵌入后,输出维度是[batchsize, n, d_model] 也就是每个单词的嵌入是一个(1, d_model)的向量 进入 阅读全文
摘要:
网上的实在是解释的各种混乱错误,写一份新的,内容基于ps --help Usage: ps [options] Basic options: -A, -e all processes -a all with tty, except session leaders a all with tty, in 阅读全文
摘要:
wps打开多个文件后,本来是同一个窗口多个标签页,但是在任务栏点WPS图标并不能默认打开最小化时打开 的标签页,而是预览很多标签页,必须选择一个。 解决方案: 将以下内容保存为xxx.reg,导入到注册表 Windows Registry Editor Version 5.00 [HKEY_CURR 阅读全文
摘要:
https://math.stackexchange.com/a/4139609 [a]可能表示的是不超过a的整数组成的集合 论文《Patient Knowledge Distillation for BERT Model Compression》的第3.1章也提到了一下这种写法 阅读全文
摘要:
pkill -kill -t pts/15 注销登陆的会话。会话名字用who查看 阅读全文