ywycs0201 - 博客园

2025年6月20日

摘要： SoftMax函数 SoftMax函数主要是用来将输入特征进行归一化，主要用于多分类最后分布概率输出，同时在Attention模块中，用来计算token间的注意力值，函数形式如下： \[\begin{align} X &= [x_1, x_2, \cdots,x_n] \\ \text{SUM(X) 阅读全文

posted @ 2025-06-20 15:03 ywycs0201 阅读(45) 评论(0) 推荐(0)

2025年4月11日

[QWen2] paddlenlp添加特殊token到tokenizer中

摘要： QWen2 paddlenlp添加特殊token到tokenizer Qwen2Tokenizer().add_special_tokens()方法无法正确添加特殊token，主要是由于PretrainedTokenizer类中的_add_tokens方法中存在bug。 tokenizer_util 阅读全文

posted @ 2025-04-11 14:40 ywycs0201 阅读(361) 评论(0) 推荐(0)

2025年2月25日

ZeRO-DP: 零冗余并行训练

摘要： ZeRO-DP: 零冗余并行训练论文地址：ZeRO: Memory Optimizations Toward Training Trillion Parameter Models 自transformer及后续bert、gpt等模型发布，神经网络模型变得越来越大、训练用数据量越来越大，模型难以使用阅读全文

posted @ 2025-02-25 17:43 ywycs0201 阅读(125) 评论(0) 推荐(0)

ywy-ai

公告