2022 年 12月 9 日随笔档案 - 哆啦哆啦呦

2022年12月9日

摘要：主要内容：对比游戏和机器人领域，关键的区别在于探索的难度，这取决于奖励函数的选择和复杂的环境动态性。在博弈中，奖励函数通常是给定的，可以直接进行优化，最新的研究表明，使用稀疏奖励学习可以得到执行期望目标的策略，而不是陷入局部最优。但是奖励稀疏的环境中进行探索是困难的，智能体很少看到奖励信号。本文的阅读全文

posted @ 2022-12-09 15:48 哆啦哆啦呦阅读(124) 评论(0) 推荐(0) 编辑

哆啦哆啦

公告