多卡:关于trainer中线性层无法自动适配的小踩坑

transformer家的trainer适配了fp16、多卡...等,用起来很方便,但是之前我在实现模型的时候,发现在init里定义的线性层,在多卡上跑了以后,报错device不匹配,研究了许久,发现是trainer迁移的网络,不能被字典所包裹,最好直接定义为成员函数。例子如下:

在这里,self.linear.weight.device的是对的,self.dict_['l'].weight.device 的device是不对的。

posted @   戴墨镜的长颈鹿  阅读(95)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 25岁的心里话
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
点击右上角即可分享
微信分享提示
主题色彩