上一页 1 ··· 42 43 44 45 46 47 48 49 50 ··· 293 下一页
该文被密码保护。 阅读全文
posted @ 2026-01-13 22:29 blcblc 阅读(0) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/10927658580 大模型训练中的loss激增问题(loss spike、logits drift) 阅读全文
posted @ 2026-01-13 22:04 blcblc 阅读(10) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 21:28 blcblc 阅读(0) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 19:48 blcblc 阅读(0) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/1963658684765833212 多模态大模型主流架构介绍:从 LLaVA 到 Qwen3-VL,解构多模态大模型的演进之路 阅读全文
posted @ 2026-01-13 18:59 blcblc 阅读(8) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 17:42 blcblc 阅读(0) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 17:40 blcblc 阅读(0) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 16:58 blcblc 阅读(0) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 15:39 blcblc 阅读(0) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/699560595 使用FP8加速PyTorch训练的两种方法总结 https://zhuanlan.zhihu.com/p/1910049304422377356 E4M3 用于权重、E5M2 用于激活值 https://blog.csdn 阅读全文
posted @ 2026-01-13 15:32 blcblc 阅读(22) 评论(0) 推荐(0)
上一页 1 ··· 42 43 44 45 46 47 48 49 50 ··· 293 下一页