2024 年 2月 5 日随笔档案 - llllllgllllll

2024年2月5日

摘要：本文参考《Reinforcement Learning：An Introduction（2nd Edition）》Sutton K臂赌博机问题描述：你有k个选择，每个选择对应一个奖励，收益由所选动作决定的平稳概率分布产生，目标为最大化某段时间内的总收益期望。联系我们在chapter1中提到的re 阅读全文

posted @ 2024-02-05 23:06 llllllgllllll 阅读(22) 评论(0) 推荐(0) 编辑

公告