摘要: 本文参考《Reinforcement Learning:An Introduction(2nd Edition)》Sutton K臂赌博机 问题描述:你有k个选择,每个选择对应一个奖励,收益由所选动作决定的平稳概率分布产生,目标为最大化某段时间内的总收益期望。 联系我们在chapter1中提到的re 阅读全文
posted @ 2024-02-05 23:06 llllllgllllll 阅读(22) 评论(0) 推荐(0) 编辑