解读 DeepSeek-R1-Zero 和 DeepSeek-R1 的前世今生,以及它们背后的强化学习
蝈蝈俊 2025-02-05 13:51
阅读:4101
评论:0
推荐:2
编辑
当前标签:强化学习
用婴儿爬行理解强化学习:从Q-learning到PPO
蝈蝈俊 2024-12-10 10:41
阅读:40
评论:0
推荐:0
编辑
从「读万卷书」到「行万里路」:大语言模型中的强化学习之路
蝈蝈俊 2024-12-09 11:20
阅读:173
评论:0
推荐:0
编辑