会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ywy-ai
博客园
首页
新随笔
联系
订阅
管理
2025年6月20日
ATTORCH源码阅读笔记-SoftMax
摘要: SoftMax函数 SoftMax函数主要是用来将输入特征进行归一化,主要用于多分类最后分布概率输出,同时在Attention模块中,用来计算token间的注意力值,函数形式如下: \[\begin{align} X &= [x_1, x_2, \cdots,x_n] \\ \text{SUM(X)
阅读全文
posted @ 2025-06-20 15:03 ywycs0201
阅读(1)
评论(0)
推荐(0)
2025年4月11日
[QWen2] paddlenlp添加特殊token到tokenizer中
摘要: QWen2 paddlenlp添加特殊token到tokenizer Qwen2Tokenizer().add_special_tokens()方法无法正确添加特殊token,主要是由于PretrainedTokenizer类中的_add_tokens方法中存在bug。 tokenizer_util
阅读全文
posted @ 2025-04-11 14:40 ywycs0201
阅读(108)
评论(0)
推荐(0)
2025年2月25日
ZeRO-DP: 零冗余并行训练
摘要: ZeRO-DP: 零冗余并行训练 论文地址:ZeRO: Memory Optimizations Toward Training Trillion Parameter Models 自transformer及后续bert、gpt等模型发布,神经网络模型变得越来越大、训练用数据量越来越大,模型难以使用
阅读全文
posted @ 2025-02-25 17:43 ywycs0201
阅读(66)
评论(0)
推荐(0)
公告