摘要:
RL episode 长度 = 1,先用 PPO 在 low-fidelity env 上学;维护一个 reward 的方差,如果方差足够小,就从 low-fidelity env 迁移到 high-fidelity env。 阅读全文
摘要:
安利一天能免费使用 10 次且好用的工具 Mathpix。 阅读全文
摘要:
motivation:一些预算用于训 low-fidelity model,剩下预算用于 Monte Carlo 模拟,以得到结果。数学证明:近似 + 递推或迭代或归纳法。总结:目前看来,对我的工作意义不大。 阅读全文