2021 年 2月 5 日随笔档案 - 水無月鈴乃

2021年2月5日

20210205

摘要：今天是强化学习的简单介绍。个人理解的强化学习目标就是找到获得最大奖励的策略（特定状态下应该怎么采取行动）。但为了防止不收敛（毕竟存在一种极端情况，随着作出的策略增多“获得奖励”的速度减缓，但整体仍然无限增多的情况）而导致的无限运行无法收敛，需要一个折扣因子来“削减”即得的奖励来防止过度追求最大奖励导阅读全文

posted @ 2021-02-05 22:47 水無月鈴乃阅读(53) 评论(0) 推荐(0) 编辑

公告