该文被密码保护。 阅读全文
posted @ 2026-01-13 22:29
blcblc
阅读(0)
评论(0)
推荐(0)
摘要:
https://zhuanlan.zhihu.com/p/10927658580 大模型训练中的loss激增问题(loss spike、logits drift) 阅读全文
posted @ 2026-01-13 22:04
blcblc
阅读(10)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 21:28
blcblc
阅读(0)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 19:48
blcblc
阅读(0)
评论(0)
推荐(0)
摘要:
https://zhuanlan.zhihu.com/p/1963658684765833212 多模态大模型主流架构介绍:从 LLaVA 到 Qwen3-VL,解构多模态大模型的演进之路 阅读全文
posted @ 2026-01-13 18:59
blcblc
阅读(8)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 17:42
blcblc
阅读(0)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 17:40
blcblc
阅读(0)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 16:58
blcblc
阅读(0)
评论(0)
推荐(0)
该文被密码保护。 阅读全文
posted @ 2026-01-13 15:39
blcblc
阅读(0)
评论(0)
推荐(0)
摘要:
https://zhuanlan.zhihu.com/p/699560595 使用FP8加速PyTorch训练的两种方法总结 https://zhuanlan.zhihu.com/p/1910049304422377356 E4M3 用于权重、E5M2 用于激活值 https://blog.csdn 阅读全文
posted @ 2026-01-13 15:32
blcblc
阅读(22)
评论(0)
推荐(0)

浙公网安备 33010602011771号