摘要: 主要内容: 对比游戏和机器人领域,关键的区别在于探索的难度,这取决于奖励函数的选择和复杂的环境动态性。在博弈中,奖励函数通常是给定的,可以直接进行优化,最新的研究表明,使用稀疏奖励学习可以得到执行期望目标的策略,而不是陷入局部最优。但是奖励稀疏的环境中进行探索是困难的,智能体很少看到奖励信号。本文的 阅读全文
posted @ 2022-12-09 15:48 哆啦哆啦呦 阅读(114) 评论(0) 推荐(0) 编辑