摘要: SoftMax函数 SoftMax函数主要是用来将输入特征进行归一化,主要用于多分类最后分布概率输出,同时在Attention模块中,用来计算token间的注意力值,函数形式如下: \[\begin{align} X &= [x_1, x_2, \cdots,x_n] \\ \text{SUM(X) 阅读全文
posted @ 2025-06-20 15:03 ywycs0201 阅读(1) 评论(0) 推荐(0)
摘要: QWen2 paddlenlp添加特殊token到tokenizer Qwen2Tokenizer().add_special_tokens()方法无法正确添加特殊token,主要是由于PretrainedTokenizer类中的_add_tokens方法中存在bug。 tokenizer_util 阅读全文
posted @ 2025-04-11 14:40 ywycs0201 阅读(108) 评论(0) 推荐(0)
摘要: ZeRO-DP: 零冗余并行训练 论文地址:ZeRO: Memory Optimizations Toward Training Trillion Parameter Models 自transformer及后续bert、gpt等模型发布,神经网络模型变得越来越大、训练用数据量越来越大,模型难以使用 阅读全文
posted @ 2025-02-25 17:43 ywycs0201 阅读(66) 评论(0) 推荐(0)