如何理解强化学习中policy iteration的算法里面参数 j, Π？

见下图：

这两个上下标分别有何区别？

简单的说，就是一个是外循环，一个是内循环。

posted @ 2025-04-13 12:03 AlphaGeek 阅读(23) 评论(0) 收藏举报

刷新页面返回顶部