BronyaSilverwing布洛妮娅的工作室

Hi, Bronya

布洛妮娅,抵达战场

  • 何も捨てることができない人には,何も変えることはできない

    02 2025 档案

    摘要:PPO 众所周知,PPO在LLM应用下, t时刻下,State就变成了query+output(<t) Reference是初始模型,举个例子可以认为是deepseek V3+SFT之后的模型,是不变的,是fozen model 从头开始推导一次: t0时刻: query输入到policy mode 阅读全文
    posted @ 2025-02-26 14:34 Bronya_Silverwing 阅读(10) 评论(0) 推荐(0) 编辑

    点击右上角即可分享
    微信分享提示