2023年6月24日

生成文本中的解码策略

摘要: 原文:如何生成文本:通过 Transformers 用不同的解码方法生成文本 (huggingface.co) 1.贪心搜索 greedy search 在每个时间步简单的选择概率最高的词作为当前输出词 2.波束搜索 Beam search 波束搜索通过在每个时间步保留最可能的 num_beams  阅读全文

posted @ 2023-06-24 21:08 nlp如此迷人 阅读(290) 评论(0) 推荐(0)

2023年5月29日

获取训练集和验证集的标签数量分布

摘要: 阅读全文

posted @ 2023-05-29 11:16 nlp如此迷人 阅读(53) 评论(0) 推荐(0)

2023年5月17日

关于collate_fn参数

摘要: 视频讲解:DataLoader 参数详解_哔哩哔哩_bilibili 阅读全文

posted @ 2023-05-17 21:08 nlp如此迷人 阅读(9) 评论(0) 推荐(0)

2022年10月9日

小白学C++记录-linker的原理

摘要: 阅读全文

posted @ 2022-10-09 08:28 nlp如此迷人 阅读(40) 评论(0) 推荐(0)

2022年10月8日

小白学C++ How the C++ Compiler Works

摘要: 阅读全文

posted @ 2022-10-08 19:50 nlp如此迷人 阅读(33) 评论(0) 推荐(0)

2022年9月20日

BMTrain使用介绍等-清华大模型课程

摘要: 68 使用介绍 69 背景介绍 70 知识蒸馏 阅读全文

posted @ 2022-09-20 22:28 nlp如此迷人 阅读(195) 评论(0) 推荐(0)

2022年9月16日

Cross结构 【转载】

摘要: cross结构其实一直在用,但是不会说。 所以找相关的描述链接。 来源:21个经典深度学习句间关系模型|代码&技巧 - 忆臻的文章 - 知乎 https://zhuanlan.zhihu.com/p/358260721 双塔式模型也称孪生网络、Representation-based,就是用一个编码 阅读全文

posted @ 2022-09-16 21:03 nlp如此迷人 阅读(96) 评论(0) 推荐(0)

大模型高效、加速的运算 清华大模型课程

摘要: 59 BMTrain工具包 先了解显存都去了哪里 1.模型的所有参数 2.模型的梯度 参数两和模型参数量是一个数量级的 3.中间的计算结果。4.优化器 60 接下来看一下多个GPU之间的合作模式 数据并行 具体来说是参数被复制到每张显卡上,数据切成三份,各自前向传播 反向传播,然后梯度聚合。 实际上 阅读全文

posted @ 2022-09-16 15:28 nlp如此迷人 阅读(332) 评论(0) 推荐(0)

OpenDelta工具包

摘要: Delta tuning的工具包 如果后续有此部分工作可以看 阅读全文

posted @ 2022-09-16 10:25 nlp如此迷人 阅读(90) 评论(0) 推荐(0)

OpenPrompt工具包使用

摘要: 对工具包的介绍 有个疑问比如说positive这个类有好几个单词,那训练的时候到底看哪个? 现有模板的一些总结 目前的研究的组合方式 阅读全文

posted @ 2022-09-16 10:12 nlp如此迷人 阅读(399) 评论(0) 推荐(0)

导航