强化学习中,贝尔曼公式的推导细节:难点详解。

1、如何理解:即使状态s和动作a固定,奖励r也可能是随机的?

 

2、如何理解贝尔曼公式里面的三个概率?

 

posted @ 2025-04-09 17:11  AlphaGeek  阅读(23)  评论(0)    收藏  举报